Fugu-MT 論文翻訳(概要): A Survey on Benchmarks of Multimodal Large Language Models

論文の概要: A Survey on Benchmarks of Multimodal Large Language Models

arxiv url: http://arxiv.org/abs/2408.08632v2
Date: Fri, 6 Sep 2024 11:20:13 GMT
ステータス: 翻訳完了
システム内更新日: 2024-09-09 18:10:23.878901
Title: A Survey on Benchmarks of Multimodal Large Language Models
Title（参考訳）: マルチモーダル大言語モデルのベンチマークに関する調査
Authors: Jian Li, Weiheng Lu, Hao Fei, Meng Luo, Ming Dai, Min Xia, Yizhang Jin, Zhenye Gan, Ding Qi, Chaoyou Fu, Ying Tai, Wankou Yang, Yabiao Wang, Chengjie Wang,
Abstract要約: 本稿では,Multimodal Large Language Models (MLLM) のベンチマークと評価について概説する。本研究では,(1)知覚と理解,(2)認知と推論,(3)特定のドメイン,(4)キー能力,(5)他のモダリティに着目した。我々のキーとなる主張は、MLLMの開発をより良いものにするための重要な規律として評価されるべきである、ということである。
参考スコア（独自算出の注目度）: 65.87641718350639
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Multimodal Large Language Models (MLLMs) are gaining increasing popularity in both academia and industry due to their remarkable performance in various applications such as visual question answering, visual perception, understanding, and reasoning. Over the past few years, significant efforts have been made to examine MLLMs from multiple perspectives. This paper presents a comprehensive review of 200 benchmarks and evaluations for MLLMs, focusing on (1)perception and understanding, (2)cognition and reasoning, (3)specific domains, (4)key capabilities, and (5)other modalities. Finally, we discuss the limitations of the current evaluation methods for MLLMs and explore promising future directions. Our key argument is that evaluation should be regarded as a crucial discipline to support the development of MLLMs better. For more details, please visit our GitHub repository: https://github.com/swordlidev/Evaluation-Multimodal-LLMs-Survey.
Abstract（参考訳）: マルチモーダル大規模言語モデル(MLLM)は、視覚的質問応答、視覚的知覚、理解、推論など、様々なアプリケーションで顕著な性能を発揮したため、学術と産業の両方で人気が高まっている。近年,MLLMを多視点から検討する試みが盛んに行われている。本稿では,(1)知覚と理解,(2)認知と推論,(3)特定のドメイン,(4)キー機能,(5)他のモダリティに着目した,200のベンチマークとMLLMの評価の総合的なレビューを行う。最後に,MLLMの現在の評価手法の限界について考察し,将来の可能性を探る。我々のキーとなる主張は、MLLMの開発をより良いものにするための重要な規律として評価されるべきである、ということである。詳細はGitHubリポジトリを参照してほしい。

関連論文リスト

CORDIAL: Can Multimodal Large Language Models Effectively Understand Coherence Relationships? [5.246809683975664]
本研究は、類似度に基づくメトリクスを超えて、MLLMを評価するための談話駆動フレームワークを採用することの必要性を強調する。我々のベンチマークである CORDIAL は、3つの異なる談話領域で様々な粒度でコヒーレンス関係を包含している。
論文参考訳（メタデータ） (2025-02-16T22:54:44Z)
MME-Survey: A Comprehensive Survey on Evaluation of Multimodal LLMs [97.94579295913606]
MLLM(Multimodal Large Language Models)は、産業と学術の両方から注目を集めている。開発プロセスでは、モデルの改善に関する直感的なフィードバックとガイダンスを提供するため、評価が重要である。この研究は、研究者に異なるニーズに応じてMLLMを効果的に評価する方法を簡単に把握し、より良い評価方法を促すことを目的としている。
論文参考訳（メタデータ） (2024-11-22T18:59:54Z)
Understanding the Role of LLMs in Multimodal Evaluation Benchmarks [77.59035801244278]
本稿では,MLLM評価におけるLarge Language Model (LLM)バックボーンの役割について検討する。本研究は4つのMLLMベンチマークと8つの最先端MLLMベンチマークを含む。鍵となる発見は、いくつかのベンチマークでは視覚的な入力がなくても高いパフォーマンスを実現しており、最大50%のエラーレートは、LLMバックボーンにおける不十分な世界的知識に起因していることを示している。
論文参考訳（メタデータ） (2024-10-16T07:49:13Z)
Needle In A Multimodal Haystack [79.81804334634408]
本稿では,従来のMLLMの長大なマルチモーダル文書の理解能力を評価するために設計された,最初のベンチマークを示す。我々のベンチマークには、マルチモーダル検索、カウント、推論の3種類の評価タスクが含まれている。既存のモデルには、これらのタスク、特に視覚中心の評価において、改善の余地がまだ残っていることを観察する。
論文参考訳（メタデータ） (2024-06-11T13:09:16Z)
Efficient Multimodal Large Language Models: A Survey [60.7614299984182]
MLLM(Multimodal Large Language Models)は、視覚的質問応答、視覚的理解、推論などのタスクにおいて顕著な性能を示す。モデルサイズと高いトレーニングと推論コストが、MLLMのアカデミックや産業への応用を妨げている。本調査は,効率的なMLLMの現状を包括的かつ体系的に概観するものである。
論文参考訳（メタデータ） (2024-05-17T12:37:10Z)
MLLM-as-a-Judge: Assessing Multimodal LLM-as-a-Judge with Vision-Language Benchmark [41.68821233828375]
本稿では,MLLM-as-a-Judgeと呼ばれる新しいベンチマークを導入し,多様なモダリティにまたがる審査員を支援するMLLMの能力を評価する。本研究は, MLLMがPair Comparisonにおいて顕著な人間ライクな識別を示す一方で, Scoring EvaluationとBatch Rankingにおいて, 人間の嗜好とは大きく異なることを明らかにした。
論文参考訳（メタデータ） (2024-02-07T12:28:32Z)
A Survey on Multimodal Large Language Models [71.63375558033364]
GPT-4Vで表されるマルチモーダル大言語モデル(MLLM)は、新たな研究ホットスポットとなっている。本稿では,MLLMの最近の進歩を追跡・要約することを目的とする。
論文参考訳（メタデータ） (2023-06-23T15:21:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。