論文の概要: VICoT-Agent: A Vision-Interleaved Chain-of-Thought Framework for Interpretable Multimodal Reasoning and Scalable Remote Sensing Analysis
- arxiv url: http://arxiv.org/abs/2511.20085v1
- Date: Tue, 25 Nov 2025 09:00:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-26 17:37:04.36809
- Title: VICoT-Agent: A Vision-Interleaved Chain-of-Thought Framework for Interpretable Multimodal Reasoning and Scalable Remote Sensing Analysis
- Title(参考訳): VICoT-Agent: 解釈可能なマルチモーダル推論とスケーラブルリモートセンシング分析のためのビジョンインターリーブド・チェーン・オブ・ソート・フレームワーク
- Authors: Chujie Wang, Zhiyuan Luo, Ruiqi Liu, Can Ran, Shenghua Fan, Xi Chen, Chu He,
- Abstract要約: 新たなマルチモーダルエージェントフレームワークVision-Interleaved Chain-of-Thought Framework (VICoT)を提案する。
VICoTは、視覚ツールを思考の連鎖に動的に組み込むことにより、明示的な多ラウンド推論を実装している。
また, 複雑なエージェントの挙動を小型軽量モデルに移行するためのReasoning Stack蒸留法を提案する。
- 参考スコア(独自算出の注目度): 10.584087870930354
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The current remote sensing image analysis task is increasingly evolving from traditional object recognition to complex intelligence reasoning, which places higher requirements on the model's reasoning ability and the flexibility of tool invocation. To this end, we propose a new multimodal agent framework, Vision-Interleaved Chain-of-Thought Framework (VICoT), which implements explicit multi-round reasoning by dynamically incorporating visual tools into the chain of thought. Through a stack-based reasoning structure and a modular MCP-compatible tool suite, VICoT enables LLMs to efficiently perform multi-round, interleaved vision-language reasoning tasks with strong generalization and flexibility.We also propose the Reasoning Stack distillation method to migrate complex Agent behaviors to small, lightweight models, which ensures the reasoning capability while significantly reducing complexity. Experiments on multiple remote sensing benchmarks demonstrate that VICoT significantly outperforms existing SOTA frameworks in reasoning transparency, execution efficiency, and generation quality.
- Abstract(参考訳): 現在のリモートセンシング画像解析タスクは、従来のオブジェクト認識から複雑なインテリジェンス推論へと、ますます進化しています。
この目的のために、視覚ツールを動的に思考の連鎖に組み込むことで、明示的なマルチラウンド推論を実現する、新しいマルチモーダルエージェントフレームワークVision-Interleaved Chain-of-Thought Framework (VICoT)を提案する。
スタックベースの推論構造とモジュール型MPP互換ツールスイートを通じて、VICoTはLLMを多ラウンドでインターリーブされた視覚言語推論タスクを強力な一般化と柔軟性で効率的に実行し、複雑なエージェントの振る舞いを小さな軽量モデルに移行するためのReasoning Stack蒸留手法を提案する。
複数のリモートセンシングベンチマークの実験では、VICoTは透明性、実行効率、生成品質を推論して既存のSOTAフレームワークを著しく上回っている。
関連論文リスト
- Unleashing Diverse Thinking Modes in LLMs through Multi-Agent Collaboration [5.19759149737193]
本稿では,複数思考モード(DiMo)のための多エージェント協調フレームワークを提案する。
4つの特殊言語モデル(LLM)間の構造化された議論をシミュレートすることで、性能と解釈可能性の両方を向上させる。
6つのベンチマークと統一されたオープンソース設定の下では、DiMoは広く使用されているシングルモデルと議論ベースラインよりも精度を向上し、数学で最大の利益を上げている。
論文 参考訳(メタデータ) (2025-10-18T21:22:36Z) - CIR-CoT: Towards Interpretable Composed Image Retrieval via End-to-End Chain-of-Thought Reasoning [93.05917922306196]
Composed Image Retrieval (CIR) は、参照画像と修正テキストから対象画像を見つけることを目的としている。
CIR-CoTは、明示的なChain-of-Thought (CoT)推論を統合するために設計された最初のエンドツーエンド検索指向MLLMである。
論文 参考訳(メタデータ) (2025-10-09T09:41:45Z) - Agentic AI Reasoning for Mobile Edge General Intelligence: Fundamentals, Approaches, and Directions [74.35421055079655]
大規模言語モデル(LLM)は、強力な推論と自律的な意思決定能力を備えたエージェント人工知能(AI)の出現を可能にした。
Mobile Edge General Intelligence (MEGI)は、リアルタイムでプライバシ保護の推論をネットワークエッジにもたらす。
本稿では,MEGIにおけるLLM推論の効率的な展開のための共同最適化フレームワークを提案する。
論文 参考訳(メタデータ) (2025-09-27T10:53:48Z) - Advancing Multimodal In-Context Learning in Large Vision-Language Models with Task-aware Demonstrations [0.0]
LVLM(Large Vision-Language Models)の重要な機能として,マルチモーダルインコンテキスト学習(ICL)が登場している。
我々はマルチモーダル ICL の根底にあるコアメカニズムに光を当て、ロバストなインコンテキストのデモシーケンスを構成する上で、タスクマッピングが重要な要素であると認識した。
タスク認識機能を備えた軽量で強力なデコーダのみの変換器である textitSabER を提案する。
論文 参考訳(メタデータ) (2025-03-05T16:33:10Z) - Progressive Multimodal Reasoning via Active Retrieval [64.74746997923967]
多段階多モーダル推論タスクは、大規模言語モデル(MLLM)に重大な課題をもたらす
本稿では,MLLMの推論能力の向上を目的とした汎用フレームワークAR-MCTSを提案する。
我々は,AR-MCTSがサンプリングの多様性と精度を最適化し,信頼性の高いマルチモーダル推論を実現することを示す。
論文 参考訳(メタデータ) (2024-12-19T13:25:39Z) - Insight-V: Exploring Long-Chain Visual Reasoning with Multimodal Large Language Models [64.1799100754406]
大きな言語モデル(LLM)は、さらなる推論によって拡張された能力と信頼性を示す。
LLM推論の改善へのさまざまな取り組みにもかかわらず、高品質な長鎖推論データと最適化されたトレーニングパイプラインは、まだビジョン言語タスクでは不十分である。
本稿では,1)複雑なマルチモーダルタスクに対する長大かつ堅牢な推論データを生成するための初期の取り組みであるInsight-Vと,2)MLLMの推論能力を高めるための効果的なトレーニングパイプラインを提案する。
論文 参考訳(メタデータ) (2024-11-21T18:59:55Z) - Cantor: Inspiring Multimodal Chain-of-Thought of MLLM [83.6663322930814]
視覚的コンテキスト獲得と論理的推論の集約は、視覚的推論タスクに取り組む上で重要であると我々は主張する。
我々はCantorと呼ばれる革新的なマルチモーダルCoTフレームワークを提案し、その特徴は知覚決定アーキテクチャである。
提案手法の有効性を実証し,マルチモーダルCoT性能の大幅な向上を示した。
論文 参考訳(メタデータ) (2024-04-24T17:59:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。