論文の概要: MOAT: Evaluating LMMs for Capability Integration and Instruction Grounding
- arxiv url: http://arxiv.org/abs/2503.09348v1
- Date: Wed, 12 Mar 2025 12:49:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-13 21:17:52.761703
- Title: MOAT: Evaluating LMMs for Capability Integration and Instruction Grounding
- Title(参考訳): MOAT: 能力統合とインストラクショングラウンド化のためのLMMの評価
- Authors: Zhoutong Ye, Mingze Sun, Huan-ang Gao, Chun Yu, Yuanchun Shi,
- Abstract要約: 大規模マルチモーダルモデル(LMM)は、視覚言語(VL)タスクにおけるジェネラリストとして大きな可能性を示している。
最先端のLMMと人間のパフォーマンスの間には、依然として大きなギャップがある。
LMM に挑戦する複雑な実世界の VL タスクのベンチマークである MOAT を提案する。
- 参考スコア(独自算出の注目度): 27.140576967695413
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Large multimodal models (LMMs) have demonstrated significant potential as generalists in vision-language (VL) tasks. However, there remains a significant gap between state-of-the-art LMMs and human performance when it comes to complex tasks that require a combination of fundamental VL capabilities, as well as tasks involving the grounding of complex instructions. To thoroughly investigate the human-LMM gap and its underlying causes, we propose MOAT, a diverse benchmark with complex real-world VL tasks that are challenging for LMMs. Specifically, the tasks in MOAT require LMMs to engage in generalist problem solving by integrating fundamental VL capabilities such as reading text, counting, understanding spatial relations, grounding textual and visual instructions, etc. All these abilities fit into a taxonomy proposed by us that contains 10 fundamental VL capabilities, enabling MOAT to provide a fine-grained view of LMMs' strengths and weaknesses. Besides, MOAT is the first benchmark to explicitly evaluate LMMs' ability to ground complex text and visual instructions, which is essential to many real-world applications. We evaluate over 20 proprietary and open source LMMs, as well as humans, on MOAT, and found that humans achieved 82.7% accuracy while the best performing LMM (OpenAI o1) achieved only 38.8%. To guide future model development, we analyze common trends in our results and discuss the underlying causes of observed performance gaps between LMMs and humans, focusing on which VL capability forms the bottleneck in complex tasks, whether test time scaling improves performance on MOAT, and how tiling harms LMMs' capability to count. Code and data are available at https://cambrian-yzt.github.io/MOAT.
- Abstract(参考訳): 大規模マルチモーダルモデル(LMM)は、視覚言語(VL)タスクにおけるジェネラリストとして大きな可能性を示している。
しかし、基本的なVL機能の組み合わせを必要とする複雑なタスクや、複雑な命令の接地を含むタスクに関しては、最先端のLMMと人間のパフォーマンスの間には大きなギャップが残っている。
ヒトとLMMのギャップとその原因を徹底的に調査するために,複雑な実世界のVLタスクを持つ多種多様なベンチマークMOATを提案する。
特に、MOATのタスクは、テキストの読み上げ、カウント、空間的関係の理解、テキストと視覚的指示の接地など、基本的なVL機能を統合することで、汎用的な問題を解決するためにLMMを必要とする。
これらすべての能力は、10の基本的なVL能力を含む分類に適合し、MOATはLMMの強みと弱みを詳細に把握することができる。
さらに、MOATはLMMが複雑なテキストと視覚的命令をグラウンドする能力を明確に評価する最初のベンチマークであり、これは現実世界の多くのアプリケーションに必須である。
我々は、MOATで20以上のプロプライエタリでオープンソースのLMMと人間を評価し、人間が82.7%の精度を達成し、最高のパフォーマンスのLMM(OpenAI o1)は38.8%しか達成していないことがわかった。
今後のモデル開発を導くため,本研究の結果の共通する傾向を分析し,LMMと人間の間で観測されるパフォーマンスギャップの原因を考察し,VL能力が複雑なタスクのボトルネックとなるか,テスト時間スケーリングがMOATの性能を改善するか,LMMの能力に悪影響を及ぼすか,といった点に注目した。
コードとデータはhttps://cambrian-yzt.github.io/MOAT.comで公開されている。
関連論文リスト
- HumanEval-V: Benchmarking High-Level Visual Reasoning with Complex Diagrams in Coding Tasks [25.959032350818795]
人間のアノテーションによるコーディングタスクのベンチマークであるHumanEval-Vを提案する。
各タスクは、関数シグネチャとテストケースを組み合わせた、慎重に構築されたダイアグラムを備えている。
トップパフォーマンスモデルでさえ、控えめな成功率を実現しています。
論文 参考訳(メタデータ) (2024-10-16T09:04:57Z) - LOKI: A Comprehensive Synthetic Data Detection Benchmark using Large Multimodal Models [55.903148392998965]
複数モードで合成データを検出するLMMの能力を評価するための新しいベンチマークであるLOKIを紹介する。
このベンチマークには、粗粒度判定と多重選択質問、微粒度の異常選択と説明タスクが含まれている。
LOKI上で22のオープンソースLMMと6つのクローズドソースモデルを評価し、合成データ検出器としての可能性を強調し、LMM機能開発におけるいくつかの制限を明らかにした。
論文 参考訳(メタデータ) (2024-10-13T05:26:36Z) - F-LMM: Grounding Frozen Large Multimodal Models [53.8059045627934]
我々は,人間とAIの会話において,F-LMM(F-LMM)を解凍したLMMを提示する。
トレーニング可能なCNNレイヤをいくつか使用すれば、ワードピクセルのアテンション重みをマスクロジットに変換することができる。
我々のF-LMMは特別なセグメンテーショントークンを学習したり、高品質な接地命令チューニングデータを利用したりもしません。
論文 参考訳(メタデータ) (2024-06-09T15:14:26Z) - Exploring the Capabilities of Large Multimodal Models on Dense Text [58.82262549456294]
我々は170万の質問応答対を持つDT-VQAデータセットを提案する。
本稿では,GPT4V,Gemini,および各種オープンソースLMMの総合評価を行う。
自動的にラベル付けされたトレーニングデータセットであっても、モデルパフォーマンスの大幅な改善が達成できる。
論文 参考訳(メタデータ) (2024-05-09T07:47:25Z) - Unsolvable Problem Detection: Robust Understanding Evaluation for Large Multimodal Models [84.78457918843165]
Unsolvable Problem Detection (UPD) は,大規模マルチモーダルモデル(LMM)の頑健な理解能力を評価するための新しいタスクである。
UPDは、多票質問応答の解決不可能な問題に遭遇する際のLMMの回答を抑える能力を評価する。
実験の結果,既存のベンチマークで十分な性能を示すほとんどのLMMでも,MM-UPDとはかなり苦労していることがわかった。
論文 参考訳(メタデータ) (2024-03-29T17:59:53Z) - Lumen: Unleashing Versatile Vision-Centric Capabilities of Large Multimodal Models [87.47400128150032]
本稿では,多目的視覚中心機能拡張を備えた大規模マルチモーダルモデルであるLumenという新しいLMMアーキテクチャを提案する。
ルーメンはまず、きめ細かい視覚言語の概念のアライメントを促進する。
そして、共有表現を軽量なタスクデコーダに柔軟にルーティングすることで、タスク固有のデコーダを実行する。
論文 参考訳(メタデータ) (2024-03-12T04:13:45Z) - MM-Vet: Evaluating Large Multimodal Models for Integrated Capabilities [153.37868034779385]
複雑なマルチモーダルタスクにおける大規模マルチモーダルモデル(LMM)を評価する評価ベンチマークであるMM-Vetを提案する。
近年のLMMは、黒板に書かれた数学の問題を解くこと、ニュース画像の出来事や有名人を推論すること、視覚的ジョークを説明することなど、様々な興味深い能力を示している。
論文 参考訳(メタデータ) (2023-08-04T17:59:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。