論文の概要: Towards robust long-context understanding of large language model via active recap learning
- arxiv url: http://arxiv.org/abs/2601.13734v1
- Date: Tue, 20 Jan 2026 08:42:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:23.231304
- Title: Towards robust long-context understanding of large language model via active recap learning
- Title(参考訳): アクティブ・リキャップ学習による大規模言語モデルの頑健な長文理解に向けて
- Authors: Chenyu Hui,
- Abstract要約: 本研究では,長期的文脈理解における大規模言語モデル(LLM)の拡張フレームワークであるアクティブ・リキャップ・ラーニング(ARL)を提案する。
ARLは、推論時に連続した事前学習と振り返りの要約の間、ターゲットのシーケンス構成を通じて、以前のコンテンツを再検討し、要約することを可能にする。
実験の結果、ARLはRULERを26.8%改善し、LongBenchを9.44%改善した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we propose active recap learning (ARL), a framework for enhancing large language model (LLM) in understanding long contexts. ARL enables models to revisit and summarize earlier content through targeted sequence construction during contined pretraining and retrospective summarization at inference. First, we identify key tokens in prepared long context based on loss gaps between long and short forward contexts and find most revant preceding paragraphs, then summarize them using an LLM. Second, ARL equips models with the ability to autonomously generate and utilize these retrospective summaries during inference, thereby establishing a recursive memory mechanism across paragraphs. Experimental results show substantial gains, with ARL achieving a 26.8% improvement on RULER and a 9.44% improvement on LongBench. Overall, ARL offers a simple yet effective continued pretraining-based approach to strengthen long-context understanding, advancing scalable memory augmentation in LLM
- Abstract(参考訳): 本稿では,長期的文脈理解における大規模言語モデル(LLM)の強化を目的とした,アクティブ・リキャップ学習(ARL)を提案する。
ARLは、推論時に連続した事前学習と振り返りの要約の間、ターゲットのシーケンス構成を通じて、以前のコンテンツを再検討し、要約することを可能にする。
まず、長文と短文の文脈間の損失ギャップに基づいて、準備された長文のキートークンを識別し、最もレバレッジな段落を見つけ、LLMを用いて要約する。
第2に、ARLは、推論中にこれらの振り返りサマリーを自律的に生成し、活用する能力を持つモデルを備え、段落間で再帰的記憶機構を確立する。
実験の結果、ARLはRULERを26.8%改善し、LongBenchを9.44%改善した。
全体として、ARLは、LLMにおける長期コンテキスト理解を強化し、拡張性のあるメモリ拡張を向上するための、シンプルで効果的な継続事前学習ベースのアプローチを提供する。
関連論文リスト
- Rethinking On-policy Optimization for Query Augmentation [49.87723664806526]
本稿では,様々なベンチマークにおいて,プロンプトベースとRLベースのクエリ拡張の最初の体系的比較を示す。
そこで我々は,検索性能を最大化する擬似文書の生成を学習する,新しいハイブリッド手法 On-policy Pseudo-document Query Expansion (OPQE) を提案する。
論文 参考訳(メタデータ) (2025-10-20T04:16:28Z) - Reinforcement Learning on Pre-Training Data [55.570379963147424]
我々は,大規模言語モデル(LLM)を最適化するための新しい訓練時間スケーリングパラダイムである,事前学習データ(R)の強化学習を紹介する。
Rは、有意義な軌道を自律的に探索し、事前学習データから学び、強化学習(RL)を通してその能力を向上させる。
複数のモデルにわたる一般領域および数学的推論ベンチマークの広範な実験は、Rの有効性を検証した。
論文 参考訳(メタデータ) (2025-09-23T17:10:40Z) - Reinforcement Learning Meets Large Language Models: A Survey of Advancements and Applications Across the LLM Lifecycle [66.80133103857703]
強化学習(RL)は、大規模言語モデル(LLM)の推論とアライメント性能を著しく向上させた。
本調査は, RL と LLM の交差点における最新の発展とフロンティアの動向を研究者や実践者に提示することを目的としている。
論文 参考訳(メタデータ) (2025-09-20T13:11:28Z) - Scaling Up RL: Unlocking Diverse Reasoning in LLMs via Prolonged Training [121.5858973157225]
本研究では,長期強化学習が多種多様な推論領域にまたがる小言語モデルに及ぼす影響について検討する。
我々は,長期的パフォーマンス向上の鍵となる重要な要素として,制御KL正規化,クリッピング率,定期参照ポリシーリセットを導入する。
私たちのモデルは、数学の+14.7%、コーディングの+13.9%、論理パズルの+54.8%など、強力なベースラインよりも大幅に改善されている。
論文 参考訳(メタデータ) (2025-07-16T17:59:24Z) - Reasoning Under 1 Billion: Memory-Augmented Reinforcement Learning for Large Language Models [53.4530106173067]
強化学習(RL)を伴う大規模言語モデル(LLM)は、複雑な推論タスクにおいて有望な改善を示す。
RLは10億のパラメータを持つ小さなLLMでは、効果的に探索するために必要な事前訓練能力が欠如しているため、依然として困難である。
この研究は、この課題に対処するためにエピソード記憶を活用する、新しい本質的なモチベーションアプローチを導入する。
論文 参考訳(メタデータ) (2025-04-03T04:46:17Z) - SEAL: Scaling to Emphasize Attention for Long-Context Retrieval [8.805524738976075]
我々は、長期文脈検索(SEAL)における注意を強調するためのスケーリングと呼ばれる新しいアプローチを導入する。
我々は、特定の注意ヘッドが長文検索と密接に結びついていることを観察し、検索スコアと正あるいは負の相関を示す。
本稿では、これらのヘッドを強調するために生成されたデータを活用する学習ベースのメカニズムを提案する。
論文 参考訳(メタデータ) (2025-01-25T14:09:39Z) - Long-Context LLMs Meet RAG: Overcoming Challenges for Long Inputs in RAG [36.754491649652664]
Retrieval-augmented Generation (RAG)は、大規模言語モデル(LLM)に外部の知識ソースを利用する権限を与える。
本稿では, 回収した「ハードネガティブ」の有害な影響について考察する。
これを緩和し、長文LLMベースのRAGの堅牢性を高めるために、トレーニングフリーとトレーニングベースの両方のアプローチを提案する。
論文 参考訳(メタデータ) (2024-10-08T12:30:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。