論文の概要: Lost in the Middle: An Emergent Property from Information Retrieval Demands in LLMs
- arxiv url: http://arxiv.org/abs/2510.10276v1
- Date: Sat, 11 Oct 2025 16:22:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 18:06:29.871446
- Title: Lost in the Middle: An Emergent Property from Information Retrieval Demands in LLMs
- Title(参考訳): 中間損失:LLMにおける情報検索需要の創発的特性
- Authors: Nikolaus Salvatore, Hao Wang, Qiong Zhang,
- Abstract要約: 大きな言語モデル(LLM)は、重要な情報が長いコンテキストの中間にあるときにしばしば劣化する。
我々は,この行動が情報損失の欠陥を示すだけでなく,事前学習中に異なる情報検索要求に適応することを提案する。
このU字型性能曲線は、LLMが長期記憶と短期記憶の要求をシミュレートする2つの単純な記憶パラダイムでスクラッチから訓練されるときに現れることを示す。
- 参考スコア(独自算出の注目度): 9.799025120435108
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The performance of Large Language Models (LLMs) often degrades when crucial information is in the middle of a long context, a "lost-in-the-middle" phenomenon that mirrors the primacy and recency effects in human memory. We propose that this behavior is not simply a flaw indicative of information loss but an adaptation to different information retrieval demands during pre-training: some tasks require uniform recall across the entire input (a long-term memory demand), while others prioritize the most recent information (a short-term memory demand). Consistent with this view, we show that this U-shaped performance curve emerges when LLMs (GPT-2 and Llama variants) are trained from scratch on two simple human memory paradigms simulating long-term and short-term memory demands. Our analysis reveals that while the recency effect directly aligns with short-term memory demand in the training data, the primacy effect is induced by the uniform long-term memory demand and is additionally influenced by the model's autoregressive properties and the formation of attention sinks. Our main findings from simple human memory paradigms also generalize to a sequence completion task, which more closely resembles the next-token prediction process in LLM pre-training. Together, our findings reveal how information retrieval demands, model architecture, and structural attention dynamics during model training can jointly produce positional bias observed in LLMs.
- Abstract(参考訳): LLM(Large Language Models)の性能は、重要な情報が長いコンテキストの中間にあるときに劣化することが多い。
我々は,この動作が,情報損失を示すだけでなく,事前学習中に異なる情報検索要求に適応するだけでなく,入力全体(長期記憶要求)を均一にリコールする必要があるタスクや,最新の情報(短期記憶要求)を優先するタスクも提案する。
この観点から,LLM(GPT-2 と Llama の変種)をスクラッチから訓練し,長期記憶と短期記憶の要求をシミュレートした2つの単純な記憶パラダイムを用いて,U字型性能曲線が出現することを示す。
本研究は, 学習データにおいて, 遅延効果が短期記憶需要と直接一致しているのに対して, プライマリシー効果は, 均一な長期記憶需要によって引き起こされ, また, モデルの自動回帰特性やアテンションシンクの形成にも影響されることを明らかにする。
簡単なメモリのパラダイムから得られた主な発見は、LLM事前学習における次点予測プロセスとよりよく似たシーケンス完了タスクにも一般化される。
この結果から,LLMにおける情報検索要求,モデルアーキテクチャ,およびモデルトレーニング中の構造的注意のダイナミクスが協調して位置バイアスを発生させることが明らかとなった。
関連論文リスト
- Analyzing and Mitigating Object Hallucination: A Training Bias Perspective [108.09666587800781]
我々は,LVLMのトレーニングデータから,特定の対象を隠蔽した反ファクト画像からなる新しいベンチマークPOPEv2を提案する。
現在のLVLMはトレーニングバイアスに悩まされており、トレーニングデータを完全に活用できず、トレーニング中に見られる画像に対してより頻繁に幻覚を与えることができません。
Obliviateは,学習バイアスアンラーニングによる物体幻覚の軽減を目的とした,効率的で軽量な未学習手法である。
論文 参考訳(メタデータ) (2025-08-06T15:51:02Z) - Memorization or Interpolation ? Detecting LLM Memorization through Input Perturbation Analysis [8.725781605542675]
大規模言語モデル(LLM)は,大規模なデータセットのトレーニングを通じて,優れたパフォーマンスを実現する。
LLMは、真の一般化ではなく、トレーニングデータの冗長な再現のような振る舞いを示すことができる。
本稿では, LLMにおける暗記検出のための新しい手法であるPEARLを紹介する。
論文 参考訳(メタデータ) (2025-05-05T20:42:34Z) - Generalization v.s. Memorization: Tracing Language Models' Capabilities Back to Pretraining Data [76.90128359866462]
本稿では,出力確率と事前学習データ頻度の相関を計測する,記憶化,分布記憶化という拡張概念を導入する。
本研究は, より単純で知識集約的なタスクにおいて, 記憶がより大きな役割を担い, 一般化が, より困難で推論に基づくタスクの鍵であることを示す。
論文 参考訳(メタデータ) (2024-07-20T21:24:40Z) - SHERL: Synthesizing High Accuracy and Efficient Memory for Resource-Limited Transfer Learning [63.93193829913252]
本稿では,リソース制限シナリオに対するSHERLと呼ばれる革新的なMETL戦略を提案する。
初期経路では、中間出力は反冗長動作によって統合される。
遅延ルートでは、最小限の遅延事前トレーニングされたレイヤを利用することで、メモリオーバーヘッドのピーク需要を軽減できる。
論文 参考訳(メタデータ) (2024-07-10T10:22:35Z) - Parameter-Efficient and Memory-Efficient Tuning for Vision Transformer: A Disentangled Approach [87.8330887605381]
本稿では,学習可能なパラメータをわずかに限定して,事前学習した視覚変換器を下流認識タスクに適用する方法を示す。
学習可能で軽量なモジュールを用いてタスク固有のクエリを合成する。
本手法はメモリ制約下での最先端性能を実現し,実環境における適用性を示す。
論文 参考訳(メタデータ) (2024-07-09T15:45:04Z) - Causal Estimation of Memorisation Profiles [58.20086589761273]
言語モデルにおける記憶の理解は、実践的および社会的意味を持つ。
覚書化(英: Memorisation)とは、モデルがそのインスタンスを予測できる能力に対して、あるインスタンスでトレーニングを行うことによる因果的影響である。
本稿では,計量学の差分差分設計に基づく,新しい,原理的,効率的な記憶推定法を提案する。
論文 参考訳(メタデータ) (2024-06-06T17:59:09Z) - Adaptive Memory Replay for Continual Learning [29.333341368722653]
新たなデータが利用可能になれば、ファンデーションモデルの更新は破滅的な忘れに繋がる」
連続学習のための適応型メモリリプレイの枠組みを導入し、過去のデータのサンプリングをマルチアームバンディット問題と表現する。
我々は,学習効率を犠牲にすることなく,最大10%の忘れ込みを低減しつつ,高い性能を維持するアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2024-04-18T22:01:56Z) - A Memory Model for Question Answering from Streaming Data Supported by
Rehearsal and Anticipation of Coreference Information [19.559853775982386]
本稿では,ストリーミングデータから質問応答タスクを解くための重要な情報に入力を処理しながら,リハーサルと予測を行うメモリモデルを提案する。
我々は,bAbIデータセットと大規模テキスト(Narrative QA)およびビデオ(ActivityNet-QA)質問応答データセットを用いて,我々のモデルを検証した。
論文 参考訳(メタデータ) (2023-05-12T15:46:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。