論文の概要: SPELL: Self-Play Reinforcement Learning for evolving Long-Context Language Models
- arxiv url: http://arxiv.org/abs/2509.23863v1
- Date: Sun, 28 Sep 2025 13:08:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:19.491807
- Title: SPELL: Self-Play Reinforcement Learning for evolving Long-Context Language Models
- Title(参考訳): SPELL: 長期言語モデルの進化のためのセルフプレイ強化学習
- Authors: Ziyi Yang, Weizhou Shen, Ruijun Chen, Chenliang Li, Fanqi Wan, Ming Yan, Xiaojun Quan, Fei Huang,
- Abstract要約: SPELLは、長文推論のためのスケーラブルでラベルなしの最適化を可能にする。
本稿では、文書長を徐々に向上させる自動カリキュラムと、モデルの進化する機能に質問の難しさを適応させる報奨関数を導入する。
- 参考スコア(独自算出の注目度): 79.01078135582127
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Progress in long-context reasoning for large language models (LLMs) has lagged behind other recent advances. This gap arises not only from the intrinsic difficulty of processing long texts, but also from the scarcity of reliable human annotations and programmatically verifiable reward signals. In this paper, we propose SPELL, a multi-role self-play reinforcement learning framework that enables scalable, label-free optimization for long-context reasoning. SPELL integrates three cyclical roles-questioner, responder, and verifier-within a single model to enable continual self-improvement. The questioner generates questions from raw documents paired with reference answers; the responder learns to solve these questions based on the documents; and the verifier evaluates semantic equivalence between the responder's output and the questioner's reference answer, producing reward signals to guide continual training. To stabilize training, we introduce an automated curriculum that gradually increases document length and a reward function that adapts question difficulty to the model's evolving capabilities. Extensive experiments on six long-context benchmarks show that SPELL consistently improves performance across diverse LLMs and outperforms equally sized models fine-tuned on large-scale annotated data. Notably, SPELL achieves an average 7.6-point gain in pass@8 on the strong reasoning model Qwen3-30B-A3B-Thinking, raising its performance ceiling and showing promise for scaling to even more capable models.
- Abstract(参考訳): 大規模言語モデル(LLM)の長文推論の進歩は、他の最近の進歩に遅れを取っている。
このギャップは、長いテキストを処理するのが本質的に困難であるだけでなく、信頼できる人間のアノテーションやプログラムで検証可能な報酬信号が不足していることからも生じる。
本稿では,長文推論のためのスケーラブルなラベルなし最適化を実現するマルチロール・セルフプレイ強化学習フレームワークSPELLを提案する。
SPELLは3つの循環型ロールクエチオナー、応答器、検証器を1つのモデルに統合し、連続的な自己改善を可能にする。
質問者は、基準回答と組み合わせた原文から質問を生成し、応答者は、文書に基づいてこれらの質問を解くことを学習し、検証者は、応答者の出力と質問者の基準回答との意味的等価性を評価し、報酬信号を生成して継続的なトレーニングを案内する。
学習を安定させるために、文書の長さを徐々に増加させる自動カリキュラムと、モデルの進化する能力に質問の難しさを適応させる報酬関数を導入する。
6つの長文ベンチマークの大規模な実験により、SPELLは様々なLLMをまたいだパフォーマンスを一貫して改善し、大規模アノテートデータに微調整された等サイズのモデルより優れていることが示された。
特にSPELLは、強力な推論モデルQwen3-30B-A3B-Thinkingでパス@8の平均7.6ポイントのゲインを達成し、パフォーマンスの天井を高くし、さらに有能なモデルへのスケーリングを約束している。
関連論文リスト
- Writing-RL: Advancing Long-form Writing via Adaptive Curriculum Reinforcement Learning [55.41828729623907]
本稿では,適応型カリキュラム強化学習フレームワーク「Ling-RL: An Adaptive Curriculum Reinforcement Learning」について紹介する。
フレームワークは3つの重要なコンポーネントで構成されている。高い学習可能性を持つサンプルを優先するMargin-aware Data Selection戦略、差別的な学習信号を提供するPairwise Comparison Rewardメカニズム、動的参照スケジューリングアプローチである。
論文 参考訳(メタデータ) (2025-06-06T05:40:39Z) - Teaching Large Language Models to Maintain Contextual Faithfulness via Synthetic Tasks and Reinforcement Learning [80.27561080938747]
CANOEは、人間のアノテーションを使わずに、下流のさまざまなタスクにまたがる大きな言語モデルの忠実性の幻覚を減らすためのフレームワークである。
Dual-GRPOはルールベースの強化学習手法であり、合成された短値QAデータから得られる3つのルールベースの報酬を含む。
実験の結果、CANOEは11のタスクにまたがるLLMの忠実さを大幅に改善し、最も進歩したLLMよりも優れていた。
論文 参考訳(メタデータ) (2025-05-22T10:10:07Z) - Fast-Slow Thinking for Large Vision-Language Model Reasoning [22.084891053164686]
質問特徴に基づく推論深度を適応するフレームワークである textbfFAST を提案する。
FASTは、ベースモデルと比較して10%以上改善され、最先端の精度が達成される。
論文 参考訳(メタデータ) (2025-04-25T16:11:23Z) - SPaR: Self-Play with Tree-Search Refinement to Improve Instruction-Following in Large Language Models [88.29990536278167]
SPaRは、木探索の自己精製を統合して、有効かつ同等な選好ペアを得るセルフプレイフレームワークである。
実験により,SPaRで誘導された3回の反復で訓練されたLLaMA3-8Bモデルが,一般機能を失うことなくIFEvalベンチマークでGPT-4-Turboを上回った。
論文 参考訳(メタデータ) (2024-12-16T09:47:43Z) - GATEAU: Selecting Influential Samples for Long Context Alignment [59.579128690086385]
GATEAUは、長距離依存関係に富む影響力のあるサンプルを同定する。
選択されたサンプルに基づいて訓練されたモデルは、より良い指示追従と長文理解能力を示す。
論文 参考訳(メタデータ) (2024-10-21T04:30:53Z) - Advancing Large Language Model Attribution through Self-Improving [32.77250400438304]
大規模言語モデル(LLM)の帰属能力向上のためのフレームワークSTARTを提案する。
STARTは、サンプリングされた応答から構築されたきめ細かい選好監視信号を反復的に利用し、堅牢で包括的で帰属可能な生成を促進する。
ロングフォームQAとマルチステップ推論をカバーする3つのオープンドメイン質問回答データセットの実験は、平均25.13%のパフォーマンス向上を示している。
論文 参考訳(メタデータ) (2024-10-17T07:55:33Z) - Training With "Paraphrasing the Original Text" Improves Long-Context Performance [19.48556587305737]
大きな言語モデル(LLM)は進化を続けており、長いコンテキスト入力を扱うように設計されている。
本研究では,LLMの学習能力を高めることを目的とした長文タスクのための学習データ設計手法を提案する。
LlamaおよびQwenのモデルを用いたLongBenchおよびNaturalQuestions Multi-document-QAデータセットの実験により,平均スコアが最大8.48%,4.48%向上した。
論文 参考訳(メタデータ) (2023-12-18T13:40:16Z) - Self-Convinced Prompting: Few-Shot Question Answering with Repeated
Introspection [13.608076739368949]
本稿では,大規模事前学習型言語モデルの可能性を活用する新しいフレームワークを提案する。
我々のフレームワークは、典型的な数発の連鎖プロンプトの出力を処理し、応答の正しさを評価し、回答を精査し、最終的には新しい解を生成する。
論文 参考訳(メタデータ) (2023-10-08T06:36:26Z) - Read before Generate! Faithful Long Form Question Answering with Machine
Reading [77.17898499652306]
LFQA(Long-form Question answering)は、ある質問に対する段落長の回答を生成することを目的としている。
生成と機械読取を協調的にモデル化する新しいエンドツーエンドフレームワークを提案する。
論文 参考訳(メタデータ) (2022-03-01T10:41:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。