論文の概要: Document Reconstruction Unlocks Scalable Long-Context RLVR
- arxiv url: http://arxiv.org/abs/2602.08237v1
- Date: Mon, 09 Feb 2026 03:23:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:25.050122
- Title: Document Reconstruction Unlocks Scalable Long-Context RLVR
- Title(参考訳): 拡張性のある長期RLVRをアンロックするドキュメント再構築
- Authors: Yao Xiao, Lei Wang, Yue Deng, Guanzheng Chen, Ziqi Jin, Jung-jae Kim, Xiaoli Li, Roy Ka-wei Lee, Lidong Bing,
- Abstract要約: RLVR(Reinforcement Learning with Verifiable Rewards)は、Large Language Models(LLM)の機能強化(長文)のための重要なパラダイムとなっている。
我々は,LLMの長期的文脈能力を高めるための教師なしのアプローチについて検討し,重度の人的アノテーションや教師モデルの監督の必要性を排除した。
提案手法の有効性をRULERとLongBenchv2の2つのベンチマークで検証した。
- 参考スコア(独自算出の注目度): 60.74632963522131
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement Learning with Verifiable Rewards~(RLVR) has become a prominent paradigm to enhance the capabilities (i.e.\ long-context) of Large Language Models~(LLMs). However, it often relies on gold-standard answers or explicit evaluation rubrics provided by powerful teacher models or human experts, which are costly and time-consuming. In this work, we investigate unsupervised approaches to enhance the long-context capabilities of LLMs, eliminating the need for heavy human annotations or teacher models' supervision. Specifically, we first replace a few paragraphs with special placeholders in a long document. LLMs are trained through reinforcement learning to reconstruct the document by correctly identifying and sequencing missing paragraphs from a set of candidate options. This training paradigm enables the model to capture global narrative coherence, significantly boosting long-context performance. We validate the effectiveness of our method on two widely used benchmarks, RULER and LongBench~v2. While acquiring noticeable gains on RULER, it can also achieve a reasonable improvement on LongBench~v2 without any manually curated long-context QA data. Furthermore, we conduct extensive ablation studies to analyze the impact of reward design, data curation strategies, training schemes, and data scaling effects on model performance. We publicly release our code, data, and models.
- Abstract(参考訳): Reinforcement Learning with Verifiable Rewards~(RLVR)は、Large Language Models~(LLMs)の機能強化(すなわち、長文)のための重要なパラダイムとなっている。
しかし、それはしばしば、コストと時間を要する強力な教師モデルや人間専門家によって提供される、ゴールドスタンダードの回答や明示的な評価ルーブに頼っている。
本研究では,LLMの長期的文脈能力を高めるための教師なしアプローチについて検討し,重度の人的アノテーションや教師モデルの監督の必要性を排除した。
具体的には、まずいくつかの段落を、長い文書で特別なプレースホルダーに置き換えます。
LLMは、文書を正しく識別し、候補の集合から欠落した段落をシークエンシングすることで、文書を再構築する強化学習を通じて訓練される。
このトレーニングパラダイムにより、モデルがグローバルな物語のコヒーレンスをキャプチャし、長いコンテキストのパフォーマンスを大幅に向上させることができる。
提案手法の有効性をRULERとLongBench〜v2の2つのベンチマークで検証した。
RULERの顕著なゲインを取得しながら、手作業による長期コンテキストQAデータなしでLongBench~v2の合理的な改善を達成できる。
さらに、報奨設計、データキュレーション戦略、トレーニングスキーム、およびデータスケーリング効果がモデル性能に与える影響を分析するために、広範囲にわたるアブレーション研究を行う。
コード、データ、モデルを公開しています。
関連論文リスト
- Writing-RL: Advancing Long-form Writing via Adaptive Curriculum Reinforcement Learning [55.41828729623907]
本稿では,適応型カリキュラム強化学習フレームワーク「Ling-RL: An Adaptive Curriculum Reinforcement Learning」について紹介する。
フレームワークは3つの重要なコンポーネントで構成されている。高い学習可能性を持つサンプルを優先するMargin-aware Data Selection戦略、差別的な学習信号を提供するPairwise Comparison Rewardメカニズム、動的参照スケジューリングアプローチである。
論文 参考訳(メタデータ) (2025-06-06T05:40:39Z) - LongReward: Improving Long-context Large Language Models with AI Feedback [54.3321542678909]
LongRewardは、4次元の長文モデル応答に対して報酬を与える新しい方法である。
実験の結果,LongRewardはモデル長文性能を大幅に向上するだけでなく,短い命令に従う能力も向上することがわかった。
論文 参考訳(メタデータ) (2024-10-28T17:50:42Z) - Large Language Models as Foundations for Next-Gen Dense Retrieval: A Comprehensive Empirical Assessment [16.39696580487218]
BERTやT5のような事前訓練された言語モデルは、高密度検索のための重要なバックボーンエンコーダとして機能する。
近年,大規模言語モデル (LLM) をレトリバーとして使用し,様々なタスクでSOTA性能を達成している。
論文 参考訳(メタデータ) (2024-08-22T08:16:07Z) - Structured Packing in LLM Training Improves Long Context Utilization [11.484631908171465]
本研究では,意味的相互依存を高めるための学習データの構造化について検討する。
本研究では,SPLiCe(Structured Packing for Long Context)法を提案する。
我々はSPLiCeを様々なサイズのモデルで実証的に検証した。
論文 参考訳(メタデータ) (2023-12-28T16:25:52Z) - Effective Long-Context Scaling of Foundation Models [90.57254298730923]
最大32,768個のトークンの効率的なコンテキストウィンドウをサポートする長文LLMを提示する。
我々のモデルは、ほとんどの通常のタスクにおいて一貫した改善を達成し、Llama 2よりも長いコンテキストタスクを大幅に改善します。
論文 参考訳(メタデータ) (2023-09-27T21:41:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。