論文の概要: InSight-o3: Empowering Multimodal Foundation Models with Generalized Visual Search
- arxiv url: http://arxiv.org/abs/2512.18745v1
- Date: Sun, 21 Dec 2025 14:23:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-23 18:54:32.48566
- Title: InSight-o3: Empowering Multimodal Foundation Models with Generalized Visual Search
- Title(参考訳): InSight-o3: 汎用ビジュアルサーチによるマルチモーダル基礎モデルの強化
- Authors: Kaican Li, Lewei Yao, Jiannan Wu, Tiezheng Yu, Jierun Chen, Haoli Bai, Lu Hou, Lanqing Hong, Wei Zhang, Nevin L. Zhang,
- Abstract要約: O3-Benchは、視覚的詳細に注意を払ってマルチモーダル推論を評価するために設計された新しいベンチマークである。
O3-Benchは、エージェントが複数のステップの推論を通じて、異なる画像領域から微妙な視覚情報をまとめることを必要とする、困難な問題を特徴としている。
視覚推論エージェント(vReasoner)と視覚検索エージェント(vSearcher)からなるマルチエージェントフレームワークであるInSight-o3を提案する。
- 参考スコア(独自算出の注目度): 48.79494320593913
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The ability for AI agents to "think with images" requires a sophisticated blend of reasoning and perception. However, current open multimodal agents still largely fall short on the reasoning aspect crucial for real-world tasks like analyzing documents with dense charts/diagrams and navigating maps. To address this gap, we introduce O3-Bench, a new benchmark designed to evaluate multimodal reasoning with interleaved attention to visual details. O3-Bench features challenging problems that require agents to piece together subtle visual information from distinct image areas through multi-step reasoning. The problems are highly challenging even for frontier systems like OpenAI o3, which only obtains 40.8% accuracy on O3-Bench. To make progress, we propose InSight-o3, a multi-agent framework consisting of a visual reasoning agent (vReasoner) and a visual search agent (vSearcher) for which we introduce the task of generalized visual search -- locating relational, fuzzy, or conceptual regions described in free-form language, beyond just simple objects or figures in natural images. We then present a multimodal LLM purpose-trained for this task via reinforcement learning. As a plug-and-play agent, our vSearcher empowers frontier multimodal models (as vReasoners), significantly improving their performance on a wide range of benchmarks. This marks a concrete step towards powerful o3-like open systems. Our code and dataset can be found at https://github.com/m-Just/InSight-o3 .
- Abstract(参考訳): AIエージェントが"イメージで考える"能力には、推論と知覚の高度なブレンドが必要です。
しかし、現在のオープンマルチモーダルエージェントは、高密度チャートやダイアグラムで文書を分析したり、地図をナビゲートしたりといった、現実世界のタスクにとって重要な理由について、いまだに不足している。
このギャップに対処するために、視覚的詳細に注意を払ってマルチモーダル推論を評価するために設計された新しいベンチマークであるO3-Benchを紹介する。
O3-Benchは、エージェントが複数のステップの推論を通じて、異なる画像領域から微妙な視覚情報をまとめることを必要とする、困難な問題を特徴としている。
O3-Benchでは40.8%の精度しか得られないOpenAI o3のようなフロンティアシステムでも、この問題は非常に難しい。
InSight-o3は、視覚推論エージェント(vReasoner)と視覚検索エージェント(vSearcher)で構成されるマルチエージェントフレームワークで、自然な画像の単純なオブジェクトや図形だけでなく、自由形式の言語で記述されたリレーショナル、ファジィ、概念的領域の探索という、一般化されたビジュアル検索のタスクを導入する。
次に,この課題に対して強化学習を施したマルチモーダルLLMを提案する。
プラグアンドプレイエージェントとして、当社のvSearcherは、(vReasonersのような)フロンティアのマルチモーダルモデルに権限を与え、幅広いベンチマークのパフォーマンスを大幅に改善します。
これは、強力なo3ライクなオープンシステムへの具体的な一歩である。
私たちのコードとデータセットはhttps://github.com/m-Just/InSight-o3 で確認できます。
関連論文リスト
- MM-BrowseComp: A Comprehensive Benchmark for Multimodal Browsing Agents [78.3863007028688]
MM-BrowseCompは、224の挑戦的で手作りの質問からなる新しいベンチマークである。
これらの質問は、しばしば画像にプロンプトを組み込むが、検索と推論の過程で遭遇する重要な情報は、Webページ上の画像やビデオにも埋め込まれることがある。
MM-BrowseCompによる最先端モデルの総合評価では、OpenAI o3のようなツールを用いたトップモデルでさえ、わずか29.02%の精度しか達成していないことが示されている。
論文 参考訳(メタデータ) (2025-08-14T13:46:47Z) - RingMo-Agent: A Unified Remote Sensing Foundation Model for Multi-Platform and Multi-Modal Reasoning [15.670921552151775]
RingMo-Agentはマルチモーダルおよびマルチプラットフォームデータを扱うように設計されている。
RS-VL3Mと呼ばれる大規模な視覚言語データセットでサポートされている。
これは視覚的理解と高度な分析タスクの両方に有効である。
論文 参考訳(メタデータ) (2025-07-28T12:39:33Z) - Agent-X: Evaluating Deep Multimodal Reasoning in Vision-Centric Agentic Tasks [94.19506319646376]
本稿では,実世界のマルチモーダル環境での視覚中心エージェント評価のためのベンチマークであるAgent-Xを紹介する。
Agent-Xは、828のエージェントタスクと、イメージ、マルチイメージ比較、ビデオ、命令テキストを含む、真の視覚的コンテキストを備えている。
その結果、GPT、Gemini、Qwenファミリーを含む最高のパフォーマンスモデルでさえ、多段階視覚タスクの解決に苦慮していることが明らかとなった。
論文 参考訳(メタデータ) (2025-05-30T17:59:53Z) - Visual Agentic AI for Spatial Reasoning with a Dynamic API [26.759236329608935]
本稿では,3次元空間推論問題を解くためのエージェントプログラム合成手法を提案する。
我々の手法は、静的なヒューマン定義APIに依存する従来のアプローチの限界を克服する。
本手法は3次元の視覚的推論において,従来のゼロショットモデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2025-02-10T18:59:35Z) - MageBench: Bridging Large Multimodal Models to Agents [90.59091431806793]
LMMは印象的な視覚的理解能力を示しており、エージェントに適用される可能性がある。
既存のベンチマークは、主に言語部分における推論能力を評価する。
MageBenchは推論機能指向のマルチモーダルエージェントベンチマークである。
論文 参考訳(メタデータ) (2024-12-05T17:08:19Z) - Matryoshka Multimodal Models [92.41824727506751]
我々はM3: Matryoshka Multimodal Modelsを提案する。
COCOスタイルのベンチマークでは,576個のトークンを使用する場合と同様の精度を得るために,9個のビジュアルトークンしか必要としないことがわかった。
論文 参考訳(メタデータ) (2024-05-27T17:59:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。