論文の概要: MOAT: Evaluating LMMs for Capability Integration and Instruction Grounding
- arxiv url: http://arxiv.org/abs/2503.09348v1
- Date: Wed, 12 Mar 2025 12:49:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-13 15:40:59.017211
- Title: MOAT: Evaluating LMMs for Capability Integration and Instruction Grounding
- Title(参考訳): MOAT: 能力統合とインストラクショングラウンド化のためのLMMの評価
- Authors: Zhoutong Ye, Mingze Sun, Huan-ang Gao, Chun Yu, Yuanchun Shi,
- Abstract要約: 大規模マルチモーダルモデル(LMM)は、視覚言語(VL)タスクにおけるジェネラリストとして大きな可能性を示している。
最先端のLMMと人間のパフォーマンスの間には、依然として大きなギャップがある。
LMM に挑戦する複雑な実世界の VL タスクのベンチマークである MOAT を提案する。
- 参考スコア(独自算出の注目度): 27.140576967695413
- License:
- Abstract: Large multimodal models (LMMs) have demonstrated significant potential as generalists in vision-language (VL) tasks. However, there remains a significant gap between state-of-the-art LMMs and human performance when it comes to complex tasks that require a combination of fundamental VL capabilities, as well as tasks involving the grounding of complex instructions. To thoroughly investigate the human-LMM gap and its underlying causes, we propose MOAT, a diverse benchmark with complex real-world VL tasks that are challenging for LMMs. Specifically, the tasks in MOAT require LMMs to engage in generalist problem solving by integrating fundamental VL capabilities such as reading text, counting, understanding spatial relations, grounding textual and visual instructions, etc. All these abilities fit into a taxonomy proposed by us that contains 10 fundamental VL capabilities, enabling MOAT to provide a fine-grained view of LMMs' strengths and weaknesses. Besides, MOAT is the first benchmark to explicitly evaluate LMMs' ability to ground complex text and visual instructions, which is essential to many real-world applications. We evaluate over 20 proprietary and open source LMMs, as well as humans, on MOAT, and found that humans achieved 82.7% accuracy while the best performing LMM (OpenAI o1) achieved only 38.8%. To guide future model development, we analyze common trends in our results and discuss the underlying causes of observed performance gaps between LMMs and humans, focusing on which VL capability forms the bottleneck in complex tasks, whether test time scaling improves performance on MOAT, and how tiling harms LMMs' capability to count. Code and data are available at https://cambrian-yzt.github.io/MOAT.
- Abstract(参考訳): 大規模マルチモーダルモデル(LMM)は、視覚言語(VL)タスクにおけるジェネラリストとして大きな可能性を示している。
しかし、基本的なVL機能の組み合わせを必要とする複雑なタスクや、複雑な命令の接地を含むタスクに関しては、最先端のLMMと人間のパフォーマンスの間には大きなギャップが残っている。
ヒトとLMMのギャップとその原因を徹底的に調査するために,複雑な実世界のVLタスクを持つ多種多様なベンチマークMOATを提案する。
特に、MOATのタスクは、テキストの読み上げ、カウント、空間的関係の理解、テキストと視覚的指示の接地など、基本的なVL機能を統合することで、汎用的な問題を解決するためにLMMを必要とする。
これらすべての能力は、10の基本的なVL能力を含む分類に適合し、MOATはLMMの強みと弱みを詳細に把握することができる。
さらに、MOATはLMMが複雑なテキストと視覚的命令をグラウンドする能力を明確に評価する最初のベンチマークであり、これは現実世界の多くのアプリケーションに必須である。
我々は、MOATで20以上のプロプライエタリでオープンソースのLMMと人間を評価し、人間が82.7%の精度を達成し、最高のパフォーマンスのLMM(OpenAI o1)は38.8%しか達成していないことがわかった。
今後のモデル開発を導くため,本研究の結果の共通する傾向を分析し,LMMと人間の間で観測されるパフォーマンスギャップの原因を考察し,VL能力が複雑なタスクのボトルネックとなるか,テスト時間スケーリングがMOATの性能を改善するか,LMMの能力に悪影響を及ぼすか,といった点に注目した。
コードとデータはhttps://cambrian-yzt.github.io/MOAT.comで公開されている。
関連論文リスト
- LOKI: A Comprehensive Synthetic Data Detection Benchmark using Large Multimodal Models [55.903148392998965]
複数モードで合成データを検出するLMMの能力を評価するための新しいベンチマークであるLOKIを紹介する。
このベンチマークには、粗粒度判定と多重選択質問、微粒度の異常選択と説明タスクが含まれている。
LOKI上で22のオープンソースLMMと6つのクローズドソースモデルを評価し、合成データ検出器としての可能性を強調し、LMM機能開発におけるいくつかの制限を明らかにした。
論文 参考訳(メタデータ) (2024-10-13T05:26:36Z) - F-LMM: Grounding Frozen Large Multimodal Models [53.8059045627934]
我々は,人間とAIの会話において,F-LMM(F-LMM)を解凍したLMMを提示する。
トレーニング可能なCNNレイヤをいくつか使用すれば、ワードピクセルのアテンション重みをマスクロジットに変換することができる。
我々のF-LMMは特別なセグメンテーショントークンを学習したり、高品質な接地命令チューニングデータを利用したりもしません。
論文 参考訳(メタデータ) (2024-06-09T15:14:26Z) - Exploring the Capabilities of Large Multimodal Models on Dense Text [58.82262549456294]
我々は170万の質問応答対を持つDT-VQAデータセットを提案する。
本稿では,GPT4V,Gemini,および各種オープンソースLMMの総合評価を行う。
自動的にラベル付けされたトレーニングデータセットであっても、モデルパフォーマンスの大幅な改善が達成できる。
論文 参考訳(メタデータ) (2024-05-09T07:47:25Z) - Lumen: Unleashing Versatile Vision-Centric Capabilities of Large Multimodal Models [87.47400128150032]
本稿では,多目的視覚中心機能拡張を備えた大規模マルチモーダルモデルであるLumenという新しいLMMアーキテクチャを提案する。
ルーメンはまず、きめ細かい視覚言語の概念のアライメントを促進する。
そして、共有表現を軽量なタスクデコーダに柔軟にルーティングすることで、タスク固有のデコーダを実行する。
論文 参考訳(メタデータ) (2024-03-12T04:13:45Z) - An Empirical Study of Scaling Instruct-Tuned Large Multimodal Models [116.50367506746713]
LLaVAを33B,65B/70Bまでスケールアップする実験的検討を行った。
LMMのスケーリングはモデルの性能を継続的に向上し、言語機能を改善する。
この研究によって、より大規模で最先端のLMM研究がよりアクセスしやすくなることを願っている。
論文 参考訳(メタデータ) (2023-09-18T17:30:46Z) - MM-Vet: Evaluating Large Multimodal Models for Integrated Capabilities [153.37868034779385]
複雑なマルチモーダルタスクにおける大規模マルチモーダルモデル(LMM)を評価する評価ベンチマークであるMM-Vetを提案する。
近年のLMMは、黒板に書かれた数学の問題を解くこと、ニュース画像の出来事や有名人を推論すること、視覚的ジョークを説明することなど、様々な興味深い能力を示している。
論文 参考訳(メタデータ) (2023-08-04T17:59:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。