論文の概要: SceneAlign: Aligning Multimodal Reasoning to Scene Graphs in Complex Visual Scenes
- arxiv url: http://arxiv.org/abs/2601.05600v1
- Date: Fri, 09 Jan 2026 07:40:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-12 17:41:49.899314
- Title: SceneAlign: Aligning Multimodal Reasoning to Scene Graphs in Complex Visual Scenes
- Title(参考訳): SceneAlign:複雑なビジュアルシーンにおけるシーングラフへのマルチモーダル推論
- Authors: Chuhan Wang, Xintong Li, Jennifer Yuntong Zhang, Junda Wu, Chengkai Huang, Lina Yao, Julian McAuley, Jingbo Shang,
- Abstract要約: マルチモーダルな大きな言語モデルは、複雑な視覚シーンにおいて忠実な推論に苦しむことが多い。
既存の嗜好ベースのアプローチでは、モデルが視覚的グラウンドをバイパスするために言語事前を活用できるため、この課題に対処できない。
我々は,シーングラフを構造化視覚情報として活用し,制御可能な構造介入を行うフレームワークであるSceneAlignを提案する。
- 参考スコア(独自算出の注目度): 69.03114625064282
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal large language models often struggle with faithful reasoning in complex visual scenes, where intricate entities and relations require precise visual grounding at each step. This reasoning unfaithfulness frequently manifests as hallucinated entities, mis-grounded relations, skipped steps, and over-specified reasoning. Existing preference-based approaches, typically relying on textual perturbations or answer-conditioned rationales, fail to address this challenge as they allow models to exploit language priors to bypass visual grounding. To address this, we propose SceneAlign, a framework that leverages scene graphs as structured visual information to perform controllable structural interventions. By identifying reasoning-critical nodes and perturbing them through four targeted strategies that mimic typical grounding failures, SceneAlign constructs hard negative rationales that remain linguistically plausible but are grounded in inaccurate visual facts. These contrastive pairs are used in Direct Preference Optimization to steer models toward fine-grained, structure-faithful reasoning. Across seven visual reasoning benchmarks, SceneAlign consistently improves answer accuracy and reasoning faithfulness, highlighting the effectiveness of grounding-aware alignment for multimodal reasoning.
- Abstract(参考訳): マルチモーダルな大規模言語モデルは複雑な視覚シーンにおいて忠実な推論に苦しむことが多く、複雑な実体と関係はそれぞれのステップで正確な視覚的根拠を必要とする。
この不誠実な推論は、しばしば幻覚的な実体、誤解された関係、スキップされたステップ、過剰に特定された推論として現れる。
既存の嗜好に基づくアプローチは、典型的にはテキストの摂動や答え条件の合理性に依存するが、モデルが視覚的な接地をバイパスするために言語を活用できるようにするため、この課題に対処できない。
そこで我々は,シーングラフを構造化視覚情報として活用し,制御可能な構造介入を行うフレームワークであるSceneAlignを提案する。
SceneAlignは、推論クリティカルなノードを識別し、典型的な基底的失敗を模倣する4つの戦略を通じてそれらを摂動させることで、言語的に検証可能であるが、不正確な視覚的事実に根ざした、厳しい負の有理性を構築している。
これらの対照的なペアは直接選好最適化(Direct Preference Optimization)において、微細で構造に忠実な推論に向けてモデルをステアリングするために使用される。
7つの視覚的推論ベンチマークにおいて、SceneAlignは答えの正確さと忠実さの推論を一貫して改善し、マルチモーダル推論に対するグラウンドディング・アライメントの有効性を強調している。
関連論文リスト
- Video-R2: Reinforcing Consistent and Grounded Reasoning in Multimodal Language Models [56.851611990473174]
動的ビジュアルコンテンツに対する推論は、大きな言語モデルにとって依然として中心的な課題である。
本稿では,時間的精度と推論一貫性を両立させる強化学習手法を提案する。
結果のモデルであるVideo R2は、複数のベンチマークでTAC、VAS、精度を一貫して向上させる。
論文 参考訳(メタデータ) (2025-11-28T18:59:58Z) - SceneWeaver: All-in-One 3D Scene Synthesis with an Extensible and Self-Reflective Agent [28.12183839499528]
SceneWeaverは、ツールベースの反復改善を通じて多様なシーン合成パラダイムを統合するフレームワークである。
セマンティックな矛盾を特定し、ターゲットとするツールを呼び出し、連続したイテレーションで環境を更新できる。
多様な指示で複雑なシーンを効果的に一般化し、汎用的な3D環境生成への一歩を踏み出した。
論文 参考訳(メタデータ) (2025-09-24T09:06:41Z) - PostAlign: Multimodal Grounding as a Corrective Lens for MLLMs [23.69973859198496]
MLLM(Multimodal Large Language Models)は、画像キャプションや視覚的質問応答などの視覚言語タスクに優れる。
主に、モデルが実際の視覚情報を活用するのを妨げている言語的先行性のために、急激な相関に対する過度な信頼に悩まされることが多い。
MMed-PostAlignは、視覚的理解能力を高め、MLLMの幻覚を軽減するために設計された、マルチモーダル後のアライメントフレームワークである。
論文 参考訳(メタデータ) (2025-06-22T05:11:46Z) - Seeing is Not Reasoning: MVPBench for Graph-based Evaluation of Multi-path Visual Physical CoT [24.085953089267772]
複雑な場面において,OpenAI o3 と GPT-4o が基本的な物理法則,空間的相互作用,因果的影響を把握できないことを示す。
我々は、視覚連鎖(CoT)レンズによる視覚的身体的推論を厳格に評価するベンチマークであるMVPBenchを紹介した。
最先端のMLLMでさえ、物理領域における視覚的推論精度の低下と画像テキストアライメントの弱さを示す。
論文 参考訳(メタデータ) (2025-05-30T03:48:59Z) - Retrieval-Based Interleaved Visual Chain-of-Thought in Real-World Driving Scenarios [69.00444996464662]
RIV-CoT(Retrieval-based Interleaved Visual Chain-of-Thought法)を提案する。
実験の結果, RIV-CoTの解答精度は3.1%向上し, バニラCoTの解答精度は4.6%向上した。
論文 参考訳(メタデータ) (2025-01-08T18:31:16Z) - GPT4SGG: Synthesizing Scene Graphs from Holistic and Region-specific Narratives [69.36723767339001]
我々は,より正確で包括的なシーングラフ信号を得るために,textitGPT4SGという新しいフレームワークを提案する。
textitGPT4SGGは、画像キャプチャーデータに基づいて訓練されたSGGモデルの性能を大幅に向上させる。
論文 参考訳(メタデータ) (2023-12-07T14:11:00Z) - VCD: Visual Causality Discovery for Cross-Modal Question Reasoning [11.161509939879428]
我々は,Cross-Modal Question Reasoning (CMQR) という視覚的質問推論フレームワークを提案する。
視覚因果構造を明らかにするために,視覚因果発見(VCD)アーキテクチャを提案する。
言語意味論と時空間表現の微粒な相互作用を調整するために,対話型視覚言語変換器(IVLT)を構築した。
論文 参考訳(メタデータ) (2023-04-17T08:56:16Z) - Object-Centric Diagnosis of Visual Reasoning [118.36750454795428]
本稿では,地平とロバスト性に基づく視覚的推論の体系的対象中心の診断について述べる。
我々は,グラフ推論機械という診断モデルを開発した。
本モデルは、純粋に象徴的な視覚的表現を確率的シーングラフに置き換え、教師の強制訓練をビジュアル推論モジュールに適用する。
論文 参考訳(メタデータ) (2020-12-21T18:59:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。