論文の概要: AIMCoT: Active Information-driven Multimodal Chain-of-Thought for Vision-Language Reasoning
- arxiv url: http://arxiv.org/abs/2509.25699v1
- Date: Tue, 30 Sep 2025 02:57:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-01 14:44:59.989995
- Title: AIMCoT: Active Information-driven Multimodal Chain-of-Thought for Vision-Language Reasoning
- Title(参考訳): AIMCoT:ビジョンランゲージ推論のためのアクティブ情報駆動型マルチモーダルチェーン
- Authors: Xiping Li, Jianghong Ma,
- Abstract要約: CoT(Multimodal Chain-of-Thought)は,情報交換による推論の強化に有効な手法である。
基本的制約に対処するtextbfActive textbfInformation-driven textbfMulti-modal textbfChain-textbfof-textbfThought フレームワークである textbfAIMCoT を提案する。
- 参考スコア(独自算出の注目度): 12.026066807427945
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal Chain-of-Thought (CoT) has emerged as a powerful technique for enhancing the vision-language reasoning with interleaved information. However, existing methods often rely on simplistic heuristics for constructing interleaved CoT, typically depending on attention maps, which our empirical analysis reveals can be unreliable. What's more, the shortcomings of their passive and purposeless selection strategies and their arbitrary triggering mechanisms in capturing the model's cognitive need for information are further amplified. In this paper, we propose \textbf{AIMCoT}, an \textbf{A}ctive \textbf{I}nformation-driven \textbf{M}ulti-modal \textbf{C}hain-\textbf{o}f-\textbf{T}hought framework that addresses these fundamental limitations. AIMCoT introduces three synergistic components: (1) \textbf{Context-enhanced Attention-map Generation (CAG)}, which mitigates the text-vision granularity imbalance, thereby producing more reliable attention maps as a foundation. (2) \textbf{Active Visual Probing (AVP)}, which replaces passive selection with a proactive, goal-oriented strategy grounded in information theory to select image regions that help answer the questions maximally. (3) \textbf{Dynamic Attention-shifting Trigger (DAT)}, which intelligently determines the optimal moments to insert visual information by monitoring the model's text-to-vision attention shifts. Extensive experiments on three challenging benchmarks demonstrate that AIMCoT significantly outperforms state-of-the-art methods across different settings. By actively foraging for information and dynamically structuring its reasoning process, AIMCoT represents a critical step towards more robust, effective, and human-like multimodal reasoning. Our code is available at https://anonymous.4open.science/r/AIMCoT.
- Abstract(参考訳): CoT (Multimodal Chain-of-Thought) は、視覚言語推論をインターリーブ情報で強化する強力な手法として登場した。
しかしながら、既存の手法は、通常、注意マップに依存して、インターリーブされたCoTを構築するための単純化的ヒューリスティックに頼っている。
さらに、彼らの受動的で目的のない選択戦略の欠点と、モデルの情報に対する認知的ニーズを捉える際の任意のトリガー機構がさらに増幅されます。
本稿では,これらの基本的な制約に対処するフレームワークとして, {textbf{AIMCoT}, a \textbf{A}ctive \textbf{I}nformation-driven \textbf{M}ulti-modal \textbf{C}hain-\textbf{o}f-\textbf{T}hought を提案する。
AIMCoTは、(1) \textbf{Context-enhanced Attention-map Generation (CAG) という3つの相乗的コンポーネントを導入している。
2) <textbf{Active Visual Probing (AVP)} は,受動的選択を情報理論に基づく積極的目標指向戦略に置き換え,最大解答する画像領域を選択する。
(3) \textbf{Dynamic Attention-shifting Trigger (DAT) モデルにおけるテキスト・ツー・ビジョン・アテンション・シフトを監視して視覚情報を挿入する最適な瞬間をインテリジェントに決定する。
3つの挑戦的なベンチマークに関する大規模な実験は、AIMCoTがさまざまな設定で最先端のメソッドを著しく上回っていることを示している。
情報収集を積極的に行い、推論プロセスを動的に構築することにより、AIMCoTはより堅牢で効果的で、人間に似たマルチモーダル推論への重要なステップとなる。
私たちのコードはhttps://anonymous.4open.science/r/AIMCoT.comで利用可能です。
関連論文リスト
- CAMF: Collaborative Adversarial Multi-agent Framework for Machine Generated Text Detection [16.113113157328662]
既存のゼロショット検出パラダイムは、しばしば重大な欠陥を示す。
マルチLLMエージェントを用いた新しいアーキテクチャである textbfCAMF を紹介する。
この構造化された協調的・敵対的プロセスは、非人間の起源を示す微妙でクロス次元のテキストの不一致の深い分析を可能にする。
論文 参考訳(メタデータ) (2025-08-16T06:25:27Z) - ContextGuard-LVLM: Enhancing News Veracity through Fine-grained Cross-modal Contextual Consistency Verification [2.012425476229879]
伝統的なアプローチは、細粒度のクロスモーダルなコンテキスト整合性の問題に対処するのに不足している。
先進的な視覚言語大モデルに基づく新しいフレームワークであるContextGuard-LVLMを提案する。
我々のモデルは、強化されたあるいは敵対的な学習パラダイムによって一意に強化されている。
論文 参考訳(メタデータ) (2025-08-08T18:10:24Z) - Dependency Structure Augmented Contextual Scoping Framework for Multimodal Aspect-Based Sentiment Analysis [9.561100210295699]
マルチモーダルアスペクトベース感性分析(MABSA)は,画像とテキストのペアから微細な情報を抽出する。
DASCOは、依存性解析ツリーを活用することでアスペクトレベルの感情推論を強化する、きめ細かいスコープ指向のフレームワークである。
2つのベンチマークデータセットの実験は、DASCOがMABSAで最先端のパフォーマンスを達成することを示した。
論文 参考訳(メタデータ) (2025-04-15T16:05:09Z) - Interleaved-Modal Chain-of-Thought [14.342351827047862]
チェーン・オブ・ソート(Chain-of-Thought)は、最終回答に到達する前に、一連の中間的推論ステップを導き出す。
我々は、ICoT (textbf Interleaved-modal Chain-of-Thought) というイメージを組み込んだマルチモーダルチェーンを提案する。
ICoTは、最終的な答えを推測するために、ペア化された視覚的論理とテキスト的論理からなるシーケンシャルな推論ステップを生成する。
論文 参考訳(メタデータ) (2024-11-29T06:06:35Z) - A Novel Energy based Model Mechanism for Multi-modal Aspect-Based
Sentiment Analysis [85.77557381023617]
マルチモーダル感情分析のための新しいフレームワークDQPSAを提案する。
PDQモジュールは、プロンプトをビジュアルクエリと言語クエリの両方として使用し、プロンプト対応の視覚情報を抽出する。
EPEモジュールはエネルギーベースモデルの観点から解析対象の境界ペアリングをモデル化する。
論文 参考訳(メタデータ) (2023-12-13T12:00:46Z) - Information Screening whilst Exploiting! Multimodal Relation Extraction
with Feature Denoising and Multimodal Topic Modeling [96.75821232222201]
既存のマルチモーダル関係抽出(MRE)研究は、内部情報過剰利用と外部情報過多という2つの共存課題に直面している。
内部情報スクリーニングと外部情報活用を同時に実現する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-19T14:56:57Z) - mPLUG: Effective and Efficient Vision-Language Learning by Cross-modal
Skip-connections [104.14624185375897]
mPLUGは、クロスモーダルな理解と生成のための新しいビジョン言語基盤モデルである。
画像キャプション、画像テキスト検索、視覚的グラウンドリング、視覚的質問応答など、幅広い視覚言語下流タスクの最先端結果を達成する。
論文 参考訳(メタデータ) (2022-05-24T11:52:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。