論文の概要: MageBench: Bridging Large Multimodal Models to Agents
- arxiv url: http://arxiv.org/abs/2412.04531v1
- Date: Thu, 05 Dec 2024 17:08:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-09 15:57:59.003639
- Title: MageBench: Bridging Large Multimodal Models to Agents
- Title(参考訳): MageBench: 大規模マルチモーダルモデルをエージェントにブリッジする
- Authors: Miaosen Zhang, Qi Dai, Yifan Yang, Jianmin Bao, Dongdong Chen, Kai Qiu, Chong Luo, Xin Geng, Baining Guo,
- Abstract要約: LMMは印象的な視覚的理解能力を示しており、エージェントに適用される可能性がある。
既存のベンチマークは、主に言語部分における推論能力を評価する。
MageBenchは推論機能指向のマルチモーダルエージェントベンチマークである。
- 参考スコア(独自算出の注目度): 90.59091431806793
- License:
- Abstract: LMMs have shown impressive visual understanding capabilities, with the potential to be applied in agents, which demand strong reasoning and planning abilities. Nevertheless, existing benchmarks mostly assess their reasoning abilities in language part, where the chain-of-thought is entirely composed of text.We consider the scenario where visual signals are continuously updated and required along the decision making process. Such vision-in-the-chain reasoning paradigm is more aligned with the needs of multimodal agents, while being rarely evaluated. In this paper, we introduce MageBench, a reasoning capability oriented multimodal agent benchmark that, while having light-weight environments, poses significant reasoning challenges and holds substantial practical value. This benchmark currently includes three types of environments: WebUI, Sokoban, and Football, comprising a total of 483 different scenarios. It thoroughly validates the agent's knowledge and engineering capabilities, visual intelligence, and interaction skills. The results show that only a few product-level models are better than random acting, and all of them are far inferior to human-level. More specifically, we found current models severely lack the ability to modify their planning based on visual feedback, as well as visual imagination, interleaved image-text long context handling, and other abilities. We hope that our work will provide optimization directions for LMM from the perspective of being an agent. We release our code and data at https://github.com/microsoft/MageBench.
- Abstract(参考訳): LMMは、強力な推論と計画能力を必要とするエージェントに適用可能な、印象的な視覚的理解能力を示している。
それにもかかわらず、既存のベンチマークでは、思考の連鎖が完全にテキストで構成されている言語部分において、視覚信号が継続的に更新され、意思決定プロセスに必要となるシナリオを主に評価している。
このようなビジョン・イン・ザ・チェーン推論パラダイムはマルチモーダルエージェントのニーズに適合するが、ほとんど評価されない。
本稿では,マルチモーダルエージェントベンチマークであるMageBenchを紹介する。
このベンチマークには、WebUI、ソコバン、フットボールの3つのタイプの環境が含まれており、合計483の異なるシナリオで構成されている。
エージェントの知識とエンジニアリング能力、視覚知性、相互作用スキルを徹底的に検証する。
その結果、ランダムな行動よりも少数の製品レベルのモデルの方が優れており、それらすべてが人間レベルのモデルよりもはるかに劣っていることがわかった。
より具体的には、現在のモデルには視覚的フィードバックに基づく計画変更能力、視覚的想像力、インターリーブされた画像テキスト長コンテキストハンドリング、その他の能力が欠けていることが分かりました。
我々は,エージェントとしての観点から,LMMの最適化の方向性を期待する。
コードとデータはhttps://github.com/microsoft/MageBench.comで公開しています。
関連論文リスト
- Visual-O1: Understanding Ambiguous Instructions via Multi-modal Multi-turn Chain-of-thoughts Reasoning [53.45295657891099]
本稿では,マルチモーダルなマルチターン・チェーン・オブ・シークレット・推論・フレームワークであるVisual-O1を提案する。
人間のマルチモーダルなマルチターン推論をシミュレートし、高度にインテリジェントなモデルに即時体験を提供する。
私たちの研究は、不確実性と曖昧さのある現実のシナリオにおいて、人工知能が人間のように機能する可能性を強調します。
論文 参考訳(メタデータ) (2024-10-04T11:18:41Z) - VisualAgentBench: Towards Large Multimodal Models as Visual Foundation Agents [50.12414817737912]
大規模マルチモーダルモデル(LMM)は、人工知能の新たな時代を迎え、言語と視覚の融合によって、高い能力を持つVisual Foundation Agentを形成する。
既存のベンチマークでは、複雑な実世界の環境でのLMMの可能性を十分に証明できない。
VisualAgentBench (VAB) は、視覚基礎エージェントとしてLMMを訓練し評価するための先駆的なベンチマークである。
論文 参考訳(メタデータ) (2024-08-12T17:44:17Z) - Smart Vision-Language Reasoners [0.0]
視覚言語モデル(VLM)を推論として検討する。
抽象化を形成する能力は、数学的推論、問題解決、その他のMath AIタスクの根底にある。
SMARTタスクで与えられた抽象概念を8軸のメタ推論と問題解決のスキルとして採用する。
論文 参考訳(メタデータ) (2024-07-05T01:47:21Z) - ReMI: A Dataset for Reasoning with Multiple Images [41.954830849939526]
ReMIは、大規模言語モデルが複数の画像で推論できる能力を評価するために設計されたデータセットである。
このデータセットは、数学、物理学、論理学、コード、表/チャート理解、空間的および時間的推論といった様々な推論領域にまたがる様々なタスクを含んでいる。
我々は,最先端のLDMのベンチマークを行い,その性能と人間レベルの習熟度の間に大きなギャップがあることを発見した。
論文 参考訳(メタデータ) (2024-06-13T14:37:04Z) - CODIS: Benchmarking Context-Dependent Visual Comprehension for Multimodal Large Language Models [58.95889895912716]
我々は、自由形式のテキストで提供されるコンテキストを用いて視覚的理解を高めるモデルの有効性を評価するために、CODISと名付けられた新しいベンチマークを導入する。
以上の結果から,MLLMは必ずしも人体性能に劣っていることが示唆された。
このことは、MLLMが視覚を文脈依存的に理解する能力を高めることの必要性を浮き彫りにする。
論文 参考訳(メタデータ) (2024-02-21T08:21:12Z) - VisualWebArena: Evaluating Multimodal Agents on Realistic Visual Web Tasks [93.85005277463802]
VisualWebArenaは、マルチモーダルWebエージェントのパフォーマンスを現実的なタスクで評価するために設計されたベンチマークである。
このベンチマークを実行するには、イメージテキスト入力を正確に処理し、自然言語命令を解釈し、ユーザが定義した目的を達成するためにウェブサイト上でアクションを実行する必要がある。
論文 参考訳(メタデータ) (2024-01-24T18:35:21Z) - MAgIC: Investigation of Large Language Model Powered Multi-Agent in Cognition, Adaptability, Rationality and Collaboration [98.18244218156492]
大規模言語モデル(LLM)は、非常に高度な自然言語処理を持つ。
アプリケーションがマルチエージェント環境に拡大するにつれて、包括的な評価フレームワークの必要性が生じる。
この研究は、マルチエージェント設定内でLLMを評価するための新しい競合ベースのベンチマークフレームワークを導入している。
論文 参考訳(メタデータ) (2023-11-14T21:46:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。