論文の概要: AbductiveMLLM: Boosting Visual Abductive Reasoning Within MLLMs
- arxiv url: http://arxiv.org/abs/2601.02771v1
- Date: Tue, 06 Jan 2026 07:05:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-07 17:02:12.841838
- Title: AbductiveMLLM: Boosting Visual Abductive Reasoning Within MLLMs
- Title(参考訳): AbductiveMLLM: MLLM内での視覚的アブダクティブ推論を促進する
- Authors: Boyu Chang, Qi Wang, Xi Guo, Zhixiong Nan, Yazhou Yao, Tianfei Zhou,
- Abstract要約: 視覚的帰納的推論は、AIシステムが不完全な視覚的観察の最も可能性の高い説明を推論する必要がある難しいタスクである。
本稿では,REASONERとIMAGINERの2つの相乗成分からなるAbductiveMLLMを紹介する。
標準VARベンチマークの実験では、AbductiveMLLMは最先端のパフォーマンスを達成し、従来のソリューションや高度なMLLMよりも一貫して優れていた。
- 参考スコア(独自算出の注目度): 54.68257779000049
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual abductive reasoning (VAR) is a challenging task that requires AI systems to infer the most likely explanation for incomplete visual observations. While recent MLLMs develop strong general-purpose multimodal reasoning capabilities, they fall short in abductive inference, as compared to human beings. To bridge this gap, we draw inspiration from the interplay between verbal and pictorial abduction in human cognition, and propose to strengthen abduction of MLLMs by mimicking such dual-mode behavior. Concretely, we introduce AbductiveMLLM comprising of two synergistic components: REASONER and IMAGINER. The REASONER operates in the verbal domain. It first explores a broad space of possible explanations using a blind LLM and then prunes visually incongruent hypotheses based on cross-modal causal alignment. The remaining hypotheses are introduced into the MLLM as targeted priors, steering its reasoning toward causally coherent explanations. The IMAGINER, on the other hand, further guides MLLMs by emulating human-like pictorial thinking. It conditions a text-to-image diffusion model on both the input video and the REASONER's output embeddings to "imagine" plausible visual scenes that correspond to verbal explanation, thereby enriching MLLMs' contextual grounding. The two components are trained jointly in an end-to-end manner. Experiments on standard VAR benchmarks show that AbductiveMLLM achieves state-of-the-art performance, consistently outperforming traditional solutions and advanced MLLMs.
- Abstract(参考訳): 視覚誘発推論(VAR)は、AIシステムが不完全な視覚観察の最も可能性の高い説明を推論する必要がある難しいタスクである。
近年のMLLMは、多目的多目的推論能力が強いが、人間に比べて誘惑的推論では不足している。
このギャップを埋めるために、人間の認知における言語と画像の誘拐の相互作用からインスピレーションを得、そのような二重モードの振る舞いを模倣してMLLMの誘拐を強化することを提案する。
具体的には,REASONERとIMAGINERの2つの相乗成分からなるAbductiveMLLMを紹介する。
REASONERは動詞領域で動作する。
まず、盲目的のLSMを用いて可能な説明の広い空間を探索し、その後、モーダルな因果関係に基づいて視覚的に相反する仮説を立証する。
残りの仮説はMLLMに対象の先行概念として導入され、因果的に一貫性のある説明への推論を導いた。
一方IMAGINERは、人間のような絵画思考をエミュレートすることによってMLLMをさらにガイドする。
入力ビデオとREASONERの出力埋め込みの両方にテキスト・ツー・イメージ拡散モデルを適用し、言葉による説明に対応する「想像」可能な視覚シーンを表現し、MLLMの文脈的基盤を強化する。
2つのコンポーネントはエンドツーエンドで共同でトレーニングされる。
標準VARベンチマークの実験では、AbductiveMLLMは最先端のパフォーマンスを達成し、従来のソリューションや高度なMLLMよりも一貫して優れていた。
関連論文リスト
- Seeing Before Reasoning: A Unified Framework for Generalizable and Explainable Fake Image Detection [58.82268659497348]
この失敗の根源は、根本的なミスマッチにある、と私たちは主張する。
本稿では,偽画像検出のための汎用的で説明可能な,会話型アシスタントであるForensic-Chatを提案する。
論文 参考訳(メタデータ) (2025-09-29T20:59:19Z) - Modality Bias in LVLMs: Analyzing and Mitigating Object Hallucination via Attention Lens [0.0]
大規模視覚言語モデル (LVLM) は、顕著なマルチモーダル理解と推論能力を示した。
LVLMはテキストのプロンプトと大きな言語モデルの内部知識に過度に依存し、視覚的手がかりと矛盾する記述を生成する傾向がある。
物体幻覚を緩和するためのトレーニング不要な手法を提案する。
論文 参考訳(メタデータ) (2025-08-04T13:40:59Z) - Reasoning-Aligned Perception Decoupling for Scalable Multi-modal Reasoning [95.44766931218896]
MLLM(Multi-modal large language model)は、テキストベースの推論に遅れを取っている。
本稿では,MLLMの推論コンポーネントをモジュール化し,容易に置き換え可能なパーセプション推論デカップリングを提案する。
本稿では,視覚知覚最適化(VPO)と呼ばれる新しい強化学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-06-05T02:28:07Z) - MIRAGE: Assessing Hallucination in Multimodal Reasoning Chains of MLLM [58.2298313720146]
マルチモーダル幻覚は多源性であり、様々な原因から生じる。
既存のベンチマークでは、知覚誘発幻覚と推論誘発幻覚を適切に区別することができない。
論文 参考訳(メタデータ) (2025-05-30T05:54:36Z) - Vad-R1: Towards Video Anomaly Reasoning via Perception-to-Cognition Chain-of-Thought [58.321044666612174]
Vad-R1は、ビデオ異常推論のためのエンドツーエンドのMLLMベースのフレームワークである。
我々は、異常を認識する人間の過程をシミュレートするパーセプション・トゥ・コグニション・チェーン・オブ・ワット(P2C-CoT)を設計する。
また,MLLMの異常推論能力を明示的に動機付ける改良型強化学習アルゴリズムAVA-GRPOを提案する。
論文 参考訳(メタデータ) (2025-05-26T12:05:16Z) - Stop Reasoning! When Multimodal LLM with Chain-of-Thought Reasoning Meets Adversarial Image [40.01901770193044]
MLLMを用いたより優れた推論を実現するために、CoT推論(Chain-of-Thought)が広く研究されている。
近年の研究では、MLLMはいまだに敵対的なイメージに悩まされている。
提案手法は,CoT推論過程をバイパスしながらモデルに攻撃を与える手法である。
論文 参考訳(メタデータ) (2024-02-22T17:36:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。