論文の概要: Revisiting Long-context Modeling from Context Denoising Perspective
- arxiv url: http://arxiv.org/abs/2510.05862v1
- Date: Tue, 07 Oct 2025 12:32:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-08 17:57:08.247317
- Title: Revisiting Long-context Modeling from Context Denoising Perspective
- Title(参考訳): 文脈記述の視点からの長期コンテキストモデリングの再検討
- Authors: Zecheng Tang, Baibei Ji, Juntao Li, Lijun Wu, Haijia Gui, Min Zhang,
- Abstract要約: LCM(Long-context Model)は、コンテキスト内で暗黙的な臨界情報を見つけることで、さらなる予測を行う。
近年の研究では、LCMは文脈的ノイズ、すなわち無関係なトークンの影響を受けやすいことがしばしば明らかになっている。
本稿では,実測値である統合勾配(IG)スコアを提案し,コンテキスト内の雑音情報を検出し定量化する。
- 参考スコア(独自算出の注目度): 47.73358822870211
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Long-context models (LCMs) have demonstrated great potential in processing long sequences, facilitating many real-world applications. The success of LCMs can be attributed to their ability to locate implicit critical information within the context for further prediction. However, recent research reveals that LCMs are often susceptible to contextual noise, i.e., irrelevant tokens, that can mislead model attention. In this paper, we conduct a fine-grained analysis of the context noise and propose an effective metric, the Integrated Gradient (IG) score, to detect and quantify the noise information within the context. Our findings reveal that even simple mitigation of detected context noise can substantially boost the model's attention on critical tokens and benefit subsequent predictions. Building on this insight, we propose Context Denoising Training (CDT), a straightforward yet effective training strategy that improves attention on critical tokens while reinforcing their influence on model predictions. Extensive experiments across four tasks, under both context window scaling and long-context alignment settings, demonstrate the superiority of CDT. Notably, when trained with CDT, an open-source 8B model can achieve performance (50.92) comparable to GPT-4o (51.00).
- Abstract(参考訳): 長いコンテキストモデル(LCM)は、長いシーケンスを処理する大きな可能性を示しており、多くの現実世界のアプリケーションを容易にしている。
LCMの成功は、さらなる予測のためにコンテキスト内で暗黙的な臨界情報を見つける能力に起因していると考えられる。
しかし、最近の研究では、LCMは文脈的ノイズ、すなわち無関係なトークンに影響を受けやすいことがしばしば明らかになっている。
本稿では,文脈雑音のきめ細かい分析を行い,実測値である統合勾配(IG)スコアを提案し,文脈内の雑音情報を検出し定量化する。
この結果から,検出された文脈雑音の簡易緩和さえも,重要なトークンに対するモデルの注意を著しく高め,その後の予測に役立てることができることがわかった。
この知見に基づいて,重要なトークンに対する注意を向上するとともに,モデル予測への影響を補強する,単純かつ効果的なトレーニング戦略であるコンテキスト認知トレーニング(CDT)を提案する。
コンテキストウィンドウスケーリングと長期コンテキストアライメント設定の両方の4つのタスクにわたる大規模な実験は、CDTの優位性を実証している。
特にCDTでトレーニングすると、オープンソースの8BモデルはGPT-4o (51.00)に匹敵する性能(50.92)を達成することができる。
関連論文リスト
- Towards Monotonic Improvement in In-Context Reinforcement Learning [18.67894044930047]
In-Context Reinforcement Learning (ICRL)は、新しいタスクに迅速に適応できるエージェントを開発するための有望なパラダイムとして登場した。
最近のアプローチでは、オンラインRLからモノトニックポリシー改善データに関する大規模なシーケンスモデルをトレーニングしており、テスト時間のパフォーマンスを継続的に改善することを目指している。
学習時間とテスト時間の両方でコンテキスト値を推定する2つの手法を提案する。
論文 参考訳(メタデータ) (2025-09-27T09:42:19Z) - Beyond RAG vs. Long-Context: Learning Distraction-Aware Retrieval for Efficient Knowledge Grounding [5.353135097018941]
Retrieval-Augmented Generation (RAG) は、Large Language Models (LLM) を外部の最新の情報に基盤付けるためのフレームワークである。
本稿では,適応型検索システムLDAR(Learning Distraction-Aware Retrieval)を提案する。
論文 参考訳(メタデータ) (2025-09-26T04:40:42Z) - Don't Take Things Out of Context: Attention Intervention for Enhancing Chain-of-Thought Reasoning in Large Language Models [32.71672086718058]
CoT (Few-shot Chain-of-Thought) は大規模言語モデル (LLM) の推論能力を著しく向上させる
我々は、COTのデモで分離されたセグメント、単語、トークンが、予期せずLCMの生成過程を乱す可能性があることを観察する。
デモの注意パターンを動的に解析し,これらのトークンを正確に識別するFew-shot Attention Intervention法(FAI)を提案する。
論文 参考訳(メタデータ) (2025-03-14T07:46:33Z) - Adaptive Distraction: Probing LLM Contextual Robustness with Automated Tree Search [76.54475437069395]
大きな言語モデル(LLM)は、意味的に一貫性があるがタスクに依存しないコンテキスト情報に直面している場合、元のパフォーマンスを維持するのに苦労することが多い。
本稿では,木探索に基づく動的散逸生成フレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-03T18:43:36Z) - RobustFT: Robust Supervised Fine-tuning for Large Language Models under Noisy Response [23.45168175163634]
監視された微調整(SFT)は、特定のドメインやタスクに大規模言語モデル(LLM)を適用する上で重要な役割を果たす。
本稿では,下流のタスクデータに対してノイズ検出とレバーベリングを行う頑健なSFTフレームワーク(RobustFT)を提案する。
5つのデータセットにわたる複数のLLMで実施された大規模な実験は、ノイズの多いシナリオにおけるRobostFTの例外的なパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-12-19T15:00:18Z) - Critical Tokens Matter: Token-Level Contrastive Estimation Enhances LLM's Reasoning Capability [53.51560766150442]
臨界トークンは推論軌道内の要素であり、誤った結果に大きな影響を及ぼす。
本稿では,これらのトークンをロールアウトサンプリングによって識別する新しいフレームワークを提案する。
クリティカルトークンの識別と置換がモデル精度を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2024-11-29T18:58:22Z) - Impact of Noisy Supervision in Foundation Model Learning [91.56591923244943]
本論文は、事前学習データセットにおけるノイズの性質を包括的に理解し分析する最初の研究である。
雑音の悪影響を緩和し、一般化を改善するため、特徴空間に適応するチューニング法(NMTune)を提案する。
論文 参考訳(メタデータ) (2024-03-11T16:22:41Z) - Sorting through the noise: Testing robustness of information processing
in pre-trained language models [5.371816551086117]
本稿では,意図しないコンテンツに関連性のあるコンテキスト情報を配置するモデルの頑健さについて検討する。
モデルが従来の文脈から関連する事実を理解・適用するために単純な文脈に現れるが、注意散らしながら無関係なコンテンツの存在は、混乱したモデル予測に明らかな影響を与えている。
論文 参考訳(メタデータ) (2021-09-25T16:02:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。