論文の概要: Mitigating Posterior Salience Attenuation in Long-Context LLMs with Positional Contrastive Decoding
- arxiv url: http://arxiv.org/abs/2506.08371v2
- Date: Wed, 11 Jun 2025 03:10:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-12 16:13:48.052598
- Title: Mitigating Posterior Salience Attenuation in Long-Context LLMs with Positional Contrastive Decoding
- Title(参考訳): 位置コントラストデコーディングによる長期LLMにおける後部サリエンス減衰の緩和
- Authors: Zikai Xiao, Ziyang Wang, Wen Ma, Yan Zhang, Wei Shen, Yan Wang, Luqi Gong, Zuozhu Liu,
- Abstract要約: 後天無力化(PSA)現象は,長期の経時的パフォーマンス低下と相関する。
本研究では,長時間の注意から得られるロジットと設計した局所的な注意から得られるロジットとを対比した,訓練不要な位置コントラストデコーディング(PCD)を提案する。
PCDは、長いコンテキストのベンチマークで最先端のパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 20.49289663830352
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: While Large Language Models (LLMs) support long contexts, they struggle with performance degradation within the context window. Current solutions incur prohibitive training costs, leaving statistical behaviors and cost-effective approaches underexplored. From the decoding perspective, we identify the Posterior Salience Attenuation (PSA) phenomenon, where the salience ratio correlates with long-text performance degradation. Notably, despite the attenuation, gold tokens still occupy high-ranking positions in the decoding space. Motivated by it, we propose the training-free Positional Contrastive Decoding (PCD) that contrasts the logits derived from long-aware attention with those from designed local-aware attention, enabling the model to focus on the gains introduced by large-scale short-to-long training. Through the analysis of long-term decay simulation, we demonstrate that PCD effectively alleviates attention score degradation. Experimental results show that PCD achieves state-of-the-art performance on long-context benchmarks.
- Abstract(参考訳): 大きな言語モデル(LLM)は長いコンテキストをサポートするが、コンテキストウィンドウ内でのパフォーマンス低下に悩まされる。
現在のソリューションでは、統計的行動やコスト効率の低いアプローチが探索されていないため、禁止的なトレーニングコストが発生している。
復号化の観点から,PSA(Posterior Salience Attenuation)現象を同定する。
特に、減衰にもかかわらず、金のトークンはデコード空間の上位の位置を占める。
そこで本研究では,長期的注意から得られるロジットと設計した局所的注意からのロジットとを対比し,大規模短期訓練による利得に着目した学習自由な位置コントラストデコーディング(PCD)を提案する。
長期劣化シミュレーションの解析を通じて,PCDは注目スコアの劣化を効果的に軽減することを示した。
実験結果から,PCDは長文ベンチマークで最先端の性能を達成できることがわかった。
関連論文リスト
- Writing-RL: Advancing Long-form Writing via Adaptive Curriculum Reinforcement Learning [55.41828729623907]
本稿では,適応型カリキュラム強化学習フレームワーク「Ling-RL: An Adaptive Curriculum Reinforcement Learning」について紹介する。
フレームワークは3つの重要なコンポーネントで構成されている。高い学習可能性を持つサンプルを優先するMargin-aware Data Selection戦略、差別的な学習信号を提供するPairwise Comparison Rewardメカニズム、動的参照スケジューリングアプローチである。
論文 参考訳(メタデータ) (2025-06-06T05:40:39Z) - Seek in the Dark: Reasoning via Test-Time Instance-Level Policy Gradient in Latent Space [82.75174050101108]
テスト時間インスタンスレベルの適応(TTIA)を通じて推論を強化するフレームワークであるLatentSeekを紹介した。
LatentSeekは、GSM8K、MATH-500、AIME2024など、さまざまな推論ベンチマークで評価されている。
結果は、LatentSeekが一貫して強力なベースラインを上回っていることを示している。
論文 参考訳(メタデータ) (2025-05-19T16:26:02Z) - Dynamic Attention-Guided Context Decoding for Mitigating Context Faithfulness Hallucinations in Large Language Models [26.51079570548107]
大型言語モデル (LLM) は、しばしば文脈に忠実な幻覚を示す。
単一パスデコーディングにおける注意分布と不確実性信号を利用する軽量なフレームワークである動的注意誘導コンテキストデコーディング(DAGCD)を提案する。
論文 参考訳(メタデータ) (2025-01-02T05:07:06Z) - HoPE: A Novel Positional Encoding Without Long-Term Decay for Enhanced Context Awareness and Extrapolation [19.42279057349193]
位置符号化(PE)は、長く続く帰納的意見に基づいて、長期的な腐敗を示すように設計されている。
我々は、LLMがコンテキスト内情報の正確な検索を要求するタスクに適用されるようになったため、LLMの時代において長期の崩壊は時代遅れであると主張している。
論文 参考訳(メタデータ) (2024-10-28T17:01:52Z) - Enhancing Systematic Decompositional Natural Language Inference Using Informal Logic [51.967603572656266]
我々は,分解包含を注釈付けするための一貫した理論的なアプローチを導入する。
我々の新しいデータセットRDTEは、前回の分解エンターメントデータセットよりもかなり高い内部整合性(+9%)を持つことがわかった。
また,RDTE による知識蒸留によるエンテーメント分類器の訓練や,エンテーメントツリー推論エンジンへの導入により,精度と検証精度が向上することが確認された。
論文 参考訳(メタデータ) (2024-02-22T18:55:17Z) - Same Task, More Tokens: the Impact of Input Length on the Reasoning Performance of Large Language Models [48.35385912526338]
本稿では,入力長がLarge Language Models(LLMs)の能力に与える影響について検討する。
同一サンプルの複数バージョンを用いて入力長の影響を分離し,それぞれが異なる長さ,タイプ,位置のパディングで拡張した。
劣化傾向はデータセットのすべてのバージョンに現れるが、強度は異なる。
論文 参考訳(メタデータ) (2024-02-19T16:04:53Z) - Effective Long-Context Scaling of Foundation Models [90.57254298730923]
最大32,768個のトークンの効率的なコンテキストウィンドウをサポートする長文LLMを提示する。
我々のモデルは、ほとんどの通常のタスクにおいて一貫した改善を達成し、Llama 2よりも長いコンテキストタスクを大幅に改善します。
論文 参考訳(メタデータ) (2023-09-27T21:41:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。