論文の概要: REAL: Resolving Knowledge Conflicts in Knowledge-Intensive Visual Question Answering via Reasoning-Pivot Alignment
- arxiv url: http://arxiv.org/abs/2602.14065v1
- Date: Sun, 15 Feb 2026 09:29:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-17 14:17:28.63497
- Title: REAL: Resolving Knowledge Conflicts in Knowledge-Intensive Visual Question Answering via Reasoning-Pivot Alignment
- Title(参考訳): REAL:Reasoning-Pivotal Alignmentによる知識集約型視覚質問応答における知識紛争の解決
- Authors: Kai Ye, Xianwei Mao, Sheng Zhou, Zirui Shao, Ye Mo, Liangliang Liu, Haikuan Huang, Bin Li, Jiajun Bu,
- Abstract要約: 知識集約型視覚質問応答(KI-VQA)はしばしば、オープンドメイン検索の固有の制限によって引き起こされる深刻な知識紛争に悩まされる。
本稿では,Reasoning-Pivot の概念に基づく REAL (Reasoning-Pivot Alignment) フレームワークを提案する。
提案手法はReasoning-Pivot Aware SFT(RPA-SFT)と組み合わせて、競合をピボット抽出と整合させて一般化可能な判別器を訓練し、ターゲットの競合緩和にReasoning-Pivot Guided Decoding(RPGD)を用いる。
- 参考スコア(独自算出の注目度): 21.368211618743256
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Knowledge-intensive Visual Question Answering (KI-VQA) frequently suffers from severe knowledge conflicts caused by the inherent limitations of open-domain retrieval. However, existing paradigms face critical limitations due to the lack of generalizable conflict detection and intra-model constraint mechanisms to handle conflicting evidence. To address these challenges, we propose the REAL (Reasoning-Pivot Alignment) framework centered on the novel concept of the Reasoning-Pivot. Distinct from reasoning steps that prioritize internal self-derivation, a reasoning-pivot serves as an atomic unit (node or edge) in the reasoning chain that emphasizes knowledge linkage, and it typically relies on external evidence to complete the reasoning. Supported by our constructed REAL-VQA dataset, our approach integrates Reasoning-Pivot Aware SFT (RPA-SFT) to train a generalizable discriminator by aligning conflicts with pivot extraction, and employs Reasoning-Pivot Guided Decoding (RPGD), an intra-model decoding strategy that leverages these pivots for targeted conflict mitigation. Extensive experiments across diverse benchmarks demonstrate that REAL significantly enhances discrimination accuracy and achieves state-of-the-art performance, validating the effectiveness of our pivot-driven resolution paradigm.
- Abstract(参考訳): 知識集約型視覚質問応答(KI-VQA)はしばしば、オープンドメイン検索の固有の制限によって引き起こされる深刻な知識紛争に悩まされる。
しかし、既存のパラダイムは、矛盾する証拠を扱うための一般化可能な競合検出とモデル内制約機構が欠如しているため、限界に直面している。
これらの課題に対処するために,Reasoning-Pivot という新しい概念を中心にした REAL (Reasoning-Pivot Alignment) フレームワークを提案する。
内部の自己導出を優先する推論ステップとは違い、推論ピボットは知識連鎖を強調する推論チェーンの原子単位(ノードまたはエッジ)として機能し、通常は推論を完了するために外部の証拠に依存する。
構築したREAL-VQAデータセットにより,本手法はReasoning-Pivot Aware SFT(RPA-SFT)を統合し,競合をピボット抽出と整合させて一般化可能な判別器を訓練し,これらのピボットをターゲット競合緩和に活用するモデル内デコーディング戦略であるReasoning-Pivot Guided Decoding(RPGD)を採用する。
多様なベンチマークによる大規模な実験により、REALは識別精度を大幅に向上し、最先端のパフォーマンスを実現し、ピボット駆動の解決パラダイムの有効性を検証した。
関連論文リスト
- Native Reasoning Models: Training Language Models to Reason on Unverifiable Data [16.065264121785294]
NRT(Native Reasoning Training)は、複雑な推論を育む新しいフレームワークである。
NRTは、推論プロセスを潜在変数として扱うことで、トレーニング問題を再構築する。
NRTは検証不要な手法の最先端性能を実現する。
論文 参考訳(メタデータ) (2026-02-12T04:15:46Z) - TRACE: A Framework for Analyzing and Enhancing Stepwise Reasoning in Vision-Language Models [9.607579442309639]
本稿では,トランスペアレント推論と一貫性評価のためのフレームワークであるTRACEを紹介する。
TRACEleverages Auxiliary Reasoning Setsは複雑な問題を分解する。
実験の結果, ARS間の整合性は最終回答の正しさと相関していることがわかった。
TRACEは信頼できない推論パスと信頼できない推論パスを区別する信頼領域を定義する。
論文 参考訳(メタデータ) (2025-12-05T18:40:18Z) - Beware of Reasoning Overconfidence: Pitfalls in the Reasoning Process for Multi-solution Tasks [54.31998314008198]
大きな言語モデル(LLM)は、単一の正しい答えを必要とするタスクの推論において優れているが、マルチソリューションタスクでは不十分である。
我々はこの制限を、不完全解集合における不完全確実性を表現する傾向という、不確実な過信(textbfreasoning overconfidence)に起因している。
この仮説は, 思考経路の狭いセットに早急に収束すると, 過信が生じることを示唆するものである。
論文 参考訳(メタデータ) (2025-12-01T14:35:06Z) - Preference Learning for AI Alignment: a Causal Perspective [55.2480439325792]
私たちはこの問題を因果パラダイムに枠組み化し、永続的な課題を特定するための因果関係の豊富なツールボックスを提供します。
因果推論の文献を継承し、信頼性の高い一般化に必要な重要な仮定を特定する。
そこで本研究では, 因果関係に基づくアプローチがモデルロバスト性をいかに改善するかを, ナイーブ報酬モデルの障害モードを例示する。
論文 参考訳(メタデータ) (2025-06-06T10:45:42Z) - Retrieval is Not Enough: Enhancing RAG Reasoning through Test-Time Critique and Optimization [58.390885294401066]
Retrieval-augmented Generation (RAG) は知識基底型大規模言語モデル(LLM)を実現するためのパラダイムとして広く採用されている。
RAGパイプラインは、モデル推論が得られた証拠と整合性を維持するのに失敗することが多く、事実上の矛盾や否定的な結論につながる。
批判駆動アライメント(CDA)に基づく新しい反復的枠組みであるAlignRAGを提案する。
AlignRAG-autoは、動的に洗練を終了し、批判的な反復回数を事前に指定する必要がなくなる自律的な変種である。
論文 参考訳(メタデータ) (2025-04-21T04:56:47Z) - Towards Robust Uncertainty-Aware Incomplete Multi-View Classification [11.617211995206018]
不完全なMVCシナリオにおけるEDLに基づく手法を強化するために、Alternating Progressive Learning Network (APLN)を提案する。
APLNは、まず粗い計算を適用し、次にデータを潜在空間にマッピングすることで、破損した観測データからのバイアスを緩和する。
また、矛盾する証拠をよりよく扱うために、コンフリクト対応のDempster-Shaferコンビネーションルール(DSCR)を導入します。
論文 参考訳(メタデータ) (2024-09-10T07:18:57Z) - Towards CausalGPT: A Multi-Agent Approach for Faithful Knowledge Reasoning via Promoting Causal Consistency in LLMs [55.66353783572259]
Causal-Consistency Chain-of-Thoughtは、基礎モデルの忠実さと因果性を強化するために、マルチエージェントコラボレーションを活用する。
我々のフレームワークは、広範囲かつ包括的な評価を通じて、最先端の手法よりも大きな優位性を示す。
論文 参考訳(メタデータ) (2023-08-23T04:59:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。