論文の概要: That's Deprecated! Understanding, Detecting, and Steering Knowledge Conflicts in Language Models for Code Generation
- arxiv url: http://arxiv.org/abs/2510.19116v1
- Date: Tue, 21 Oct 2025 22:27:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:14.817864
- Title: That's Deprecated! Understanding, Detecting, and Steering Knowledge Conflicts in Language Models for Code Generation
- Title(参考訳): コード生成のための言語モデルにおける知識紛争の理解、検出、ステアリング
- Authors: Jaesung Bae, Cameron Churchwell, Mitchell Hermon, Tsun-An Hsieh, Jocelyn Xu, Yekaterina Yegorova, Mark Hasegawa-Johnson, Heng Ji,
- Abstract要約: 大規模言語モデル(LLM)は、パラメトリック知識とプロンプトに含まれる矛盾する情報との相違に直面して振る舞う。
このような対立を構築・解釈するためのドメインに依存しないフレームワークを提案する。
本研究では, アクティベーションレベルのステアリングが, ランダムベースライン上でのステアリング成功率を最大12.6%向上させることができることを示す。
- 参考スコア(独自算出の注目度): 55.78914774437411
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper investigates how large language models (LLMs) behave when faced with discrepancies between their parametric knowledge and conflicting information contained in a prompt. Building on prior question-answering (QA) research, we extend the investigation of knowledge conflicts to the realm of code generation. We propose a domain-agnostic framework for constructing and interpreting such conflicts, along with a novel evaluation method and dataset tailored to code conflict scenarios. Our experiments indicate that sufficiently large LLMs encode the notion of a knowledge conflict in their parameters, enabling us to detect knowledge conflicts with up to \textbf{80.65\%} accuracy. Building on these insights, we show that activation-level steering can achieve up to a \textbf{12.6\%} improvement in steering success over a random baseline. However, effectiveness depends critically on balancing model size, task domain, and steering direction. The experiment code and data will be made publicly available after acceptance.
- Abstract(参考訳): 本稿では,大規模言語モデル(LLM)がパラメトリック知識とプロンプトに含まれる矛盾する情報との相違に直面するとき,どのように振る舞うかを考察する。
質問応答(QA)の先行研究に基づいて、知識衝突の調査をコード生成の領域にまで広げる。
本稿では、コード競合シナリオに適した新しい評価手法とデータセットとともに、これらの競合の構築と解釈のためのドメインに依存しないフレームワークを提案する。
実験の結果,LLMは知識の衝突をパラメータにエンコードし,知識の衝突を最大80.65\%の精度で検出できることがわかった。
これらの知見に基づいて、アクティベーションレベルのステアリングは、ランダムなベースライン上でのステアリング成功において、最大で \textbf{12.6\%} の改善を達成できることを示す。
しかし、有効性はモデルのサイズ、タスクドメイン、および操舵方向のバランスに大きく依存します。
実験コードとデータは受理後に公開されます。
関連論文リスト
- FaithfulRAG: Fact-Level Conflict Modeling for Context-Faithful Retrieval-Augmented Generation [37.28571879699906]
検索システムで強化された大規模言語モデル(LLM)は、知識集約的なタスクを扱う上で大きな可能性を示している。
本稿では,モデルパラメトリック知識と検索コンテキストの相違を明示的にモデル化することにより,知識の対立を解決する新しいフレームワークであるFaithfulRAGを提案する。
論文 参考訳(メタデータ) (2025-06-10T16:02:54Z) - Task Matters: Knowledge Requirements Shape LLM Responses to Context-Memory Conflict [13.091464232666835]
大規模言語モデルは文脈知識とパラメトリックメモリの両方を必要とするが、これらの情報源は一致しない。
本稿では,モデルの信念とキュレートされた知識集合との間の不一致を自動的に検出する,モデルに依存しない診断フレームワークを用いて,この問題を考察する。
競合によるパフォーマンス劣化は、タスクの知識依存と相関している。
論文 参考訳(メタデータ) (2025-06-06T19:20:23Z) - Unraveling Cross-Modality Knowledge Conflicts in Large Vision-Language Models [33.76903352835436]
LVLM(Large Vision-Language Models)は、マルチモーダル入力をキャプチャし、推論する能力を示す。
これらのモデルは、そのビジョンと言語コンポーネント間の表現された知識の不整合から生じるパラメトリックな知識の衝突を招きやすい。
我々は、それらを検出し、解釈し、緩和するための体系的なアプローチを提案する。
論文 参考訳(メタデータ) (2024-10-04T17:59:28Z) - AdaCAD: Adaptively Decoding to Balance Conflicts between Contextual and Parametric Knowledge [57.66282463340297]
知識の衝突は、大きな言語モデルの文脈における情報と、そのパラメータに格納された知識との相違から生じる。
コンフリクトの度合いに基づいて動的に調整の重みを推定する,AdaCADと呼ばれる細粒度なインスタンスレベルのアプローチを提案する。
ADACADは静的コントラストベースラインよりも平均QA精度14.21%(絶対)のデコードベースラインを一貫して上回り、要約の事実性を6.19倍(AlignScore)向上させることを示す。
論文 参考訳(メタデータ) (2024-09-11T16:35:18Z) - Studying Large Language Model Behaviors Under Context-Memory Conflicts With Real Documents [54.953320616069654]
Retrieval-augmented Generationは、完全なパラメトリック言語モデルの多くの問題を緩和する。
RAGでは、コンテキストで提供される文書からモデルの知識を更新することができる。
本稿では,そのような知識紛争を現実的に研究するための枠組みを提案する。
論文 参考訳(メタデータ) (2024-04-24T17:59:36Z) - Robust and Scalable Model Editing for Large Language Models [75.95623066605259]
LLM編集のスケーラビリティと堅牢性を向上させるため,EREN(Reading Notesによる編集モデル)を提案する。
既存の技術とは異なり、複数の編集から知識を統合することができ、構文的に類似しているが意味的に無関係な入力に正しく反応する。
論文 参考訳(メタデータ) (2024-03-26T06:57:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。