論文の概要: Diagnosing Retrieval Bias Under Multiple In-Context Knowledge Updates in Large Language Models
- arxiv url: http://arxiv.org/abs/2603.12271v1
- Date: Wed, 18 Feb 2026 11:11:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:42.194718
- Title: Diagnosing Retrieval Bias Under Multiple In-Context Knowledge Updates in Large Language Models
- Title(参考訳): 大規模言語モデルにおける複数文脈知識更新に基づく検索バイアスの診断
- Authors: Boyu Qiao, Sean Guo, Xian Yang, Kun Li, Wei Zhou, Songlin Hu, Yunya Song,
- Abstract要約: マルチアップデートシナリオには、検索で競合する複数の歴史的に有効なバージョンが含まれているが、未調査のままである。
我々は、動的知識インスタンス(DKI)評価フレームワークを導入し、更新された値のシーケンスと組み合わせたキューと同じ事実の複数更新をモデル化する。
最新状態の精度が大幅に低下する一方で,更新が増加するにつれて,検索バイアスが増大するのを観察する。
- 参考スコア(独自算出の注目度): 19.498411614667294
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: LLMs are widely used in knowledge-intensive tasks where the same fact may be revised multiple times within context. Unlike prior work focusing on one-shot updates or single conflicts, multi-update scenarios contain multiple historically valid versions that compete at retrieval, yet remain underexplored. This challenge resembles the AB-AC interference paradigm in cognitive psychology: when the same cue A is successively associated with B and C, the old and new associations compete during retrieval, leading to bias. Inspired by this, we introduce a Dynamic Knowledge Instance (DKI) evaluation framework, modeling multi-updates of the same fact as a cue paired with a sequence of updated values, and assess models via endpoint probing of the earliest (initial) and latest (current) states. Across diverse LLMs, we observe that retrieval bias intensifies as updates increase, earliest-state accuracy stays high while latest-state accuracy drops substantially. Diagnostic analyses of attention, hidden-state similarity, and output logits further reveal that these signals become flatter and weakly discriminative on errors, providing little stable basis for identifying the latest update. Finally, cognitively inspired heuristic intervention strategies yield only modest gains and do not eliminate the bias. Our results reveal a persistent challenge in tracking and following knowledge updates in long contexts.
- Abstract(参考訳): LLMは、同じ事実がコンテキスト内で複数回修正されるような知識集約的なタスクで広く使用されている。
ワンショット更新やシングルコンフリクトにフォーカスする以前の作業とは異なり、マルチアップデートシナリオには、検索で競合する複数の歴史的に有効なバージョンが含まれているが、未調査のままである。
この課題は、認知心理学におけるAB-AC干渉パラダイム(英語版)に似ており、同じキューAがBとCと連続的に関連付けられている場合、古い協会と新しい協会が検索中に競い合い、バイアスをもたらす。
そこで我々は、動的知識インスタンス(DKI)評価フレームワークを導入し、更新された値のシーケンスと組み合わせたキューと同じ事実のマルチアップデートをモデル化し、最初期の(初期)状態と最新の(現在の)状態のエンドポイント探索によるモデルを評価する。
様々なLDMにおいて,更新が増加するにつれて検索バイアスが増大し,最新状態の精度が著しく低下する一方,初期状態の精度は高いままである。
注意、隠れ状態の類似性、出力ロジットの診断分析により、これらの信号が誤りに対してより平坦で弱い識別力を持つことが明らかとなり、最新の更新を特定するための安定した基盤はほとんど得られない。
最後に、認知にインスパイアされたヒューリスティックな介入戦略は、緩やかな利得しか得られず、バイアスを排除しない。
この結果から,長期にわたる知識更新の追跡と追跡において,永続的な課題が明らかとなった。
関連論文リスト
- Demystifying deep search: a holistic evaluation with hint-free multi-hop questions and factorised metrics [89.1999907891494]
We present WebDetective, a benchmark of hint-free multi-hop questions with a control Wikipedia sandbox。
25の最先端モデルに対する我々の評価は、すべてのアーキテクチャにまたがる体系的な弱点を明らかにしている。
私たちはエージェントワークフローであるEvidenceLoopを開発し、ベンチマークが特定する課題を明示的にターゲットしています。
論文 参考訳(メタデータ) (2025-10-01T07:59:03Z) - Temporal-Difference Variational Continual Learning [77.92320830700797]
複数の先行推定の正則化効果を統合する新たな学習目標を提案する。
提案手法は, 変分CL法より優れたカタストロフィックフォーミングを効果的に緩和する。
論文 参考訳(メタデータ) (2024-10-10T10:58:41Z) - Perception Matters: Enhancing Embodied AI with Uncertainty-Aware Semantic Segmentation [24.32551050538683]
Embodied AIは、探索されていない環境での行動に大きな進歩を遂げた。
現在の探索法は主に、日付付き知覚モデルに焦点をあて、時間的集約を無視し、地上の真実から試験時にノイズの多い知覚へ直接移行する。
本研究は,アグリゲーション間の知覚確率と不確かさを校正し,決定を下すことによって,同定された問題に対処する。
論文 参考訳(メタデータ) (2024-08-05T08:14:28Z) - Dissecting Deep RL with High Update Ratios: Combatting Value Divergence [21.282292112642747]
ネットワークパラメータをリセットすることなく、深層強化学習アルゴリズムが学習能力を維持できることを示す。
我々は,大規模な更新率での学習を可能にする,単純な単球正規化を採用している。
論文 参考訳(メタデータ) (2024-03-09T19:56:40Z) - A Closer Look at Debiased Temporal Sentence Grounding in Videos:
Dataset, Metric, and Approach [53.727460222955266]
テンポラル・センテンス・グラウンディング・イン・ビデオ(TSGV)は、未編集のビデオに自然言語文を埋め込むことを目的としている。
最近の研究では、現在のベンチマークデータセットには明らかなモーメントアノテーションバイアスがあることが判明している。
偏りのあるデータセットによる膨らませ評価を緩和するため、基礎的リコールスコアを割引する新しい評価基準「dR@n,IoU@m」を導入する。
論文 参考訳(メタデータ) (2022-03-10T08:58:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。