論文の概要: CC-VQA: Conflict- and Correlation-Aware Method for Mitigating Knowledge Conflict in Knowledge-Based Visual Question Answering
- arxiv url: http://arxiv.org/abs/2602.23952v1
- Date: Fri, 27 Feb 2026 11:56:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-02 19:48:24.40446
- Title: CC-VQA: Conflict- and Correlation-Aware Method for Mitigating Knowledge Conflict in Knowledge-Based Visual Question Answering
- Title(参考訳): CC-VQA:知識に基づく視覚的質問応答における知識衝突の軽減のための競合・相関認識手法
- Authors: Yuyang Hong, Jiaqi Gu, Yujin Lou, Lubin Fan, Qi Yang, Ying Wang, Kun Ding, Yue Wu, Shiming Xiang, Jieping Ye,
- Abstract要約: 知識に基づく視覚的質問応答(KB-VQA)は、知識集約的なタスクを扱う大きな可能性を示す。
視覚言語モデルにおける静的パラメトリック知識と動的に取得された情報との間には矛盾が生じる。
KB-VQAのトレーニングフリー・コンフリクト対応・相関対応手法としてtextbfCC-VQAを提案する。
- 参考スコア(独自算出の注目度): 53.7094431951084
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Knowledge-based visual question answering (KB-VQA) demonstrates significant potential for handling knowledge-intensive tasks. However, conflicts arise between static parametric knowledge in vision language models (VLMs) and dynamically retrieved information due to the static model knowledge from pre-training. The outputs either ignore retrieved contexts or exhibit inconsistent integration with parametric knowledge, posing substantial challenges for KB-VQA. Current knowledge conflict mitigation methods primarily adapted from language-based approaches, focusing on context-level conflicts through engineered prompting strategies or context-aware decoding mechanisms. However, these methods neglect the critical role of visual information in conflicts and suffer from redundant retrieved contexts, which impair accurate conflict identification and effective mitigation. To address these limitations, we propose \textbf{CC-VQA}: a novel training-free, conflict- and correlation-aware method for KB-VQA. Our method comprises two core components: (1) Vision-Centric Contextual Conflict Reasoning, which performs visual-semantic conflict analysis across internal and external knowledge contexts; and (2) Correlation-Guided Encoding and Decoding, featuring positional encoding compression for low-correlation statements and adaptive decoding using correlation-weighted conflict scoring. Extensive evaluations on E-VQA, InfoSeek, and OK-VQA benchmarks demonstrate that CC-VQA achieves state-of-the-art performance, yielding absolute accuracy improvements of 3.3\% to 6.4\% compared to existing methods. Code is available at https://github.com/cqu-student/CC-VQA.
- Abstract(参考訳): 知識に基づく視覚的質問応答(KB-VQA)は、知識集約的なタスクを扱う大きな可能性を示す。
しかし、視覚言語モデル(VLM)における静的パラメトリック知識と、事前学習から静的モデル知識によって動的に取得される情報との間には矛盾が生じている。
出力は取得した文脈を無視したり、パラメトリック知識との一貫性のない統合を示し、KB-VQAにとって重大な課題を提起する。
現在の知識紛争軽減手法は、主に言語に基づくアプローチに適応し、エンジニアリングされたプロンプト戦略や文脈認識復号機構を通じてコンテキストレベルの競合に焦点を当てている。
しかし、これらの手法は、紛争における視覚情報の臨界的役割を無視し、冗長に回収された文脈に悩まされ、正確な紛争識別と効果的な緩和を損なう。
これらの制約に対処するため,KB-VQA のための新しいトレーニングフリー,コンフリクト対応,相関対応の手法である \textbf{CC-VQA} を提案する。
提案手法は,(1)内部および外部の知識コンテキスト間で視覚的意味的コンフリクト分析を行う視覚中心のコンフリクト推論,(2)低相関文に対する位置符号化圧縮と相関重み付きコンフリクトスコアを用いた適応復号を特徴とする相関ガイドエンコーディングとデコーディングの2つのコアコンポーネントから構成される。
E-VQA、InfoSeek、OK-VQAベンチマークの大規模な評価は、CC-VQAが最先端のパフォーマンスを達成し、既存の手法に比べて絶対精度が3.3\%から6.4\%向上したことを示している。
コードはhttps://github.com/cqu-student/CC-VQA.comで入手できる。
関連論文リスト
- Diagnosing Knowledge Conflict in Multimodal Long-Chain Reasoning [78.86309644343295]
長い連鎖推論におけるマルチモーダルな大言語モデル(MLLM)は、異なる知識源が矛盾する信号を提供するときにしばしば失敗する。
我々は、これらの失敗を知識の衝突という統一概念の下で形式化し、入力レベルの客観的衝突とプロセスレベルの効果的な衝突を区別する。
本研究は,知識衝突下でのマルチモーダル推論のメカニズムを考察し,長CoT障害の診断と制御を可能にする。
論文 参考訳(メタデータ) (2026-02-16T07:10:44Z) - That's Deprecated! Understanding, Detecting, and Steering Knowledge Conflicts in Language Models for Code Generation [55.78914774437411]
大規模言語モデル(LLM)は、パラメトリック知識とプロンプトに含まれる矛盾する情報との相違に直面して振る舞う。
このような対立を構築・解釈するためのドメインに依存しないフレームワークを提案する。
本研究では, アクティベーションレベルのステアリングが, ランダムベースライン上でのステアリング成功率を最大12.6%向上させることができることを示す。
論文 参考訳(メタデータ) (2025-10-21T22:27:56Z) - CoCoA: Confidence and Context-Aware Adaptive Decoding for Resolving Knowledge Conflicts in Large Language Models [24.693047847053023]
CoCoA(Confidence- and Context-Aware Adaptive Decoding)は、紛争解決の原則と忠実性の強化のための新しいトークンレベルアルゴリズムである。
CoCoAは、信頼を意識した尺度(エントロピーギャップと文脈ピーク性)とパラメトリック分布と文脈分布の一般化したばらつきを利用して紛争を解決する。
論文 参考訳(メタデータ) (2025-08-25T05:06:04Z) - Conflict-Aware Soft Prompting for Retrieval-Augmented Generation [13.671410389511498]
Retrieval-augmented Generation (RAG)は、外部知識を入力プロンプトに組み込むことで、大規模言語モデル(LLM)の能力を高める。
RAGはしばしば、誤った外部コンテキストと正しいパラメトリック知識の間の競合を解決できない。
コンテクストアセスタとベースLLMから構成されるCARE(Conflict-Aware Retrieval-Augmented Generation)を紹介する。
CAREはコンテキストメモリの競合を効果的に軽減し、QAとファクトチェックベンチマークの平均パフォーマンスは5.0%向上した。
論文 参考訳(メタデータ) (2025-08-21T05:36:29Z) - Insight Over Sight: Exploring the Vision-Knowledge Conflicts in Multimodal LLMs [55.74117540987519]
本稿では,マルチモーダル大言語モデル(MLLM)におけるコモンセンスレベル・ビジョン・知識衝突の問題について考察する。
MLLMにおけるこれらの競合をシミュレートし、評価するために設計された入力を生成するために、人間のループ品質制御を付加した自動フレームワークを導入する。
このフレームワークを用いて、374のオリジナル画像と1,122の高品質な質問応答対からなる診断ベンチマークを構築した。
論文 参考訳(メタデータ) (2024-10-10T17:31:17Z) - Unraveling Cross-Modality Knowledge Conflicts in Large Vision-Language Models [33.76903352835436]
LVLM(Large Vision-Language Models)は、マルチモーダル入力をキャプチャし、推論する能力を示す。
これらのモデルは、そのビジョンと言語コンポーネント間の表現された知識の不整合から生じるパラメトリックな知識の衝突を招きやすい。
我々は、それらを検出し、解釈し、緩和するための体系的なアプローチを提案する。
論文 参考訳(メタデータ) (2024-10-04T17:59:28Z) - AdaCAD: Adaptively Decoding to Balance Conflicts between Contextual and Parametric Knowledge [57.66282463340297]
知識の衝突は、大きな言語モデルの文脈における情報と、そのパラメータに格納された知識との相違から生じる。
コンフリクトの度合いに基づいて動的に調整の重みを推定する,AdaCADと呼ばれる細粒度なインスタンスレベルのアプローチを提案する。
ADACADは静的コントラストベースラインよりも平均QA精度14.21%(絶対)のデコードベースラインを一貫して上回り、要約の事実性を6.19倍(AlignScore)向上させることを示す。
論文 参考訳(メタデータ) (2024-09-11T16:35:18Z) - Multi-Modal Prompt Learning on Blind Image Quality Assessment [65.0676908930946]
画像品質評価(IQA)モデルは意味情報から大きな恩恵を受け、異なる種類のオブジェクトを明瞭に扱うことができる。
十分な注釈付きデータが不足している従来の手法では、セマンティックな認識を得るために、CLIPイメージテキスト事前学習モデルをバックボーンとして使用していた。
近年のアプローチでは、このミスマッチに即時技術を使って対処する試みがあるが、これらの解決策には欠点がある。
本稿では、IQAのための革新的なマルチモーダルプロンプトベースの手法を提案する。
論文 参考訳(メタデータ) (2024-04-23T11:45:32Z) - Discerning and Resolving Knowledge Conflicts through Adaptive Decoding with Contextual Information-Entropy Constraint [20.543282448771336]
本稿では,知識が相反するかどうかを識別し,解決するための適応的復号法を提案する。
実験により、COIECDは現実的なデータセットにおける知識の衝突に対して強い性能と堅牢性を示すことが示された。
論文 参考訳(メタデータ) (2024-02-19T07:10:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。