論文の概要: Octopus: Agentic Multimodal Reasoning with Six-Capability Orchestration
- arxiv url: http://arxiv.org/abs/2511.15351v1
- Date: Wed, 19 Nov 2025 11:22:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-20 15:51:28.780801
- Title: Octopus: Agentic Multimodal Reasoning with Six-Capability Orchestration
- Title(参考訳): Octopus: 6機能オーケストレーションによるエージェントマルチモーダル推論
- Authors: Yifu Guo, Zishan Xu, Zhiyuan Yao, Yuquan Lu, Jiaye Lin, Sen Hu, Zhenheng Tang, Yingchao Li, Huacan Wang, Ronghao Chen,
- Abstract要約: そこで我々は,Octopus: Agentic Multimodal Reasoning with Six-Capability Orchestrationを提案する。
マルチモーダル推論に必要な6つのコア機能を定義し,総合評価ベンチマークであるOctopus-Benchを整理する。
OctopusはOctopus-Benchのタスクの大部分で最高のパフォーマンスを達成し、エージェントマルチモーダル推論における能力調整の重要な役割を強調している。
- 参考スコア(独自算出の注目度): 13.194294940942932
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing multimodal reasoning models and frameworks suffer from fundamental architectural limitations: most lack the human-like ability to autonomously explore diverse reasoning pathways-whether in direct inference, tool-driven visual exploration, programmatic visual manipulation, or intrinsic visual imagination. Consequently, they struggle to adapt to dynamically changing capability requirements in real-world tasks. Meanwhile, humans exhibit a complementary set of thinking abilities when addressing such tasks, whereas existing methods typically cover only a subset of these dimensions. Inspired by this, we propose Octopus: Agentic Multimodal Reasoning with Six-Capability Orchestration, a new paradigm for multimodal agentic reasoning. We define six core capabilities essential for multimodal reasoning and organize a comprehensive evaluation benchmark, Octopus-Bench, accordingly. Octopus is capable of autonomously exploring during reasoning and dynamically selecting the most appropriate capability based on the current state. Experimental results show that Octopus achieves the best performance on the vast majority of tasks in Octopus-Bench, highlighting the crucial role of capability coordination in agentic multimodal reasoning.
- Abstract(参考訳): 既存のマルチモーダル推論モデルとフレームワークは、基本的なアーキテクチャ上の制限に悩まされている。ほとんどの場合、直接推論、ツール駆動の視覚探索、プログラムによる視覚操作、あるいは本質的な視覚的想像力のいずれにおいても、自律的に様々な推論経路を探索する人間のような能力が欠如している。
その結果、現実世界のタスクにおいて動的に変化する能力要件に適応するのに苦労する。
一方、人間はそのようなタスクに対処する際、補完的な思考能力を示す一方、既存の手法は通常これらの次元のサブセットのみをカバーする。
そこで我々は,Octopus: Agentic Multimodal Reasoning with Six-Capability Orchestrationを提案する。
マルチモーダル推論に必要な6つのコア機能を定義し,総合評価ベンチマークであるOctopus-Benchを整理する。
オクトパスは推論中に自律的に探索し、現在の状態に基づいて最適な能力を動的に選択することができる。
実験結果から,OctopusはOctopus-Benchのタスクの大部分において,エージェントマルチモーダル推論における能力調整の重要な役割を強調した。
関連論文リスト
- Agent-ScanKit: Unraveling Memory and Reasoning of Multimodal Agents via Sensitivity Perturbations [34.15274225730601]
制御摂動下でのマルチモーダルエージェントの記憶と推論能力を解明するための textbfAgent-ScanKit を提案する。
その結果,機械的記憶が体系的推論より優れていることが示唆された。
本研究は,実環境におけるマルチモーダルエージェントのロバスト推論モデルの必要性を明らかにするものである。
論文 参考訳(メタデータ) (2025-10-01T04:29:39Z) - Agent-X: Evaluating Deep Multimodal Reasoning in Vision-Centric Agentic Tasks [94.19506319646376]
本稿では,実世界のマルチモーダル環境での視覚中心エージェント評価のためのベンチマークであるAgent-Xを紹介する。
Agent-Xは、828のエージェントタスクと、イメージ、マルチイメージ比較、ビデオ、命令テキストを含む、真の視覚的コンテキストを備えている。
その結果、GPT、Gemini、Qwenファミリーを含む最高のパフォーマンスモデルでさえ、多段階視覚タスクの解決に苦慮していることが明らかとなった。
論文 参考訳(メタデータ) (2025-05-30T17:59:53Z) - Perception, Reason, Think, and Plan: A Survey on Large Multimodal Reasoning Models [79.52467430114805]
推論は知性の中心にあり、決定し、結論を導き、ドメインをまたいで一般化する能力を形成する。
人工知能において、システムがオープンで不確実でマルチモーダルな環境でますます機能するにつれて、推論は堅牢で適応的な行動を可能にするために不可欠となる。
大規模マルチモーダル推論モデル(LMRM)は、テキスト、画像、オーディオ、ビデオなどのモダリティを統合し、複雑な推論機能をサポートする、有望なパラダイムとして登場した。
論文 参考訳(メタデータ) (2025-05-08T03:35:23Z) - The Society of HiveMind: Multi-Agent Optimization of Foundation Model Swarms to Unlock the Potential of Collective Intelligence [6.322831694506287]
複数のAIファンデーションモデル間のインタラクションをオーケストレーションするフレームワークを開発する。
このフレームワークは、主に現実世界の知識を必要とするタスクに対して、無視可能なメリットを提供する。
一方、我々は、集中的な論理的推論を必要とするタスクの大幅な改善について言及する。
論文 参考訳(メタデータ) (2025-03-07T14:45:03Z) - Can MLLMs Reason in Multimodality? EMMA: An Enhanced MultiModal ReAsoning Benchmark [73.27104042215207]
EMMAは,数学,物理,化学,コーディングにまたがる有機マルチモーダル推論を対象とするベンチマークである。
EMMAタスクは、各モードで独立に推論することで対処できない高度なクロスモーダル推論を要求する。
EMMA上での最先端MLLMの評価は、複雑なマルチモーダルおよびマルチステップ推論タスクの処理において、重大な制限を生じさせる。
論文 参考訳(メタデータ) (2025-01-09T18:55:52Z) - QuadrupedGPT: Towards a Versatile Quadruped Agent in Open-ended Worlds [51.05639500325598]
ペットに匹敵するアジリティで多様なコマンドに従うように設計されたQuadrupedGPTを紹介します。
エージェントは多種多様なタスクを処理し,複雑な指示を行う能力を示し,多種多様四重化エージェントの開発に向けた重要な一歩である。
論文 参考訳(メタデータ) (2024-06-24T12:14:24Z) - Cantor: Inspiring Multimodal Chain-of-Thought of MLLM [83.6663322930814]
視覚的コンテキスト獲得と論理的推論の集約は、視覚的推論タスクに取り組む上で重要であると我々は主張する。
我々はCantorと呼ばれる革新的なマルチモーダルCoTフレームワークを提案し、その特徴は知覚決定アーキテクチャである。
提案手法の有効性を実証し,マルチモーダルCoT性能の大幅な向上を示した。
論文 参考訳(メタデータ) (2024-04-24T17:59:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。