論文の概要: Reinforced Fast Weights with Next-Sequence Prediction
- arxiv url: http://arxiv.org/abs/2602.16704v1
- Date: Wed, 18 Feb 2026 18:53:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-19 15:58:30.693513
- Title: Reinforced Fast Weights with Next-Sequence Prediction
- Title(参考訳): 次列予測による強化型高速重量計
- Authors: Hee Seung Hwang, Xindi Wu, Sanghyuk Chun, Olga Russakovsky,
- Abstract要約: REFINEは、次のシーケンス予測(NSP)目標の下で高速ウェイトモデルをトレーニングする強化学習フレームワークである。
REFINEは、ニードル・イン・ア・ヘイスタック検索、長文質問応答、LongBenchにおける多様なタスクにおいて、NTPによる微調整を監督している。
- 参考スコア(独自算出の注目度): 42.710296902935426
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Fast weight architectures offer a promising alternative to attention-based transformers for long-context modeling by maintaining constant memory overhead regardless of context length. However, their potential is limited by the next-token prediction (NTP) training paradigm. NTP optimizes single-token predictions and ignores semantic coherence across multiple tokens following a prefix. Consequently, fast weight models, which dynamically update their parameters to store contextual information, learn suboptimal representations that fail to capture long-range dependencies. We introduce REFINE (Reinforced Fast weIghts with Next sEquence prediction), a reinforcement learning framework that trains fast weight models under the next-sequence prediction (NSP) objective. REFINE selects informative token positions based on prediction entropy, generates multi-token rollouts, assigns self-supervised sequence-level rewards, and optimizes the model with group relative policy optimization (GRPO). REFINE is applicable throughout the training lifecycle of pre-trained language models: mid-training, post-training, and test-time training. Our experiments on LaCT-760M and DeltaNet-1.3B demonstrate that REFINE consistently outperforms supervised fine-tuning with NTP across needle-in-a-haystack retrieval, long-context question answering, and diverse tasks in LongBench. REFINE provides an effective and versatile framework for improving long-context modeling in fast weight architectures.
- Abstract(参考訳): ファストウェイトアーキテクチャは、コンテクスト長に関わらず一定のメモリオーバーヘッドを維持することで、長期コンテキストモデリングのためのアテンションベースのトランスフォーマーに代わる有望な代替手段を提供する。
しかし、その潜在能力は、NTPトレーニングパラダイムによって制限されている。
NTPは単一トークンの予測を最適化し、プレフィックスに続く複数のトークン間のセマンティックコヒーレンスを無視する。
その結果、コンテキスト情報を格納するためにパラメータを動的に更新する高速ウェイトモデルでは、長距離依存関係をキャプチャできない最適下界表現を学習する。
Reinforced Fast WeIghts with Next sEquence Predictionは,NSP(Next-sequence Prediction)の目的の下で高速な重みモデルをトレーニングする強化学習フレームワークである。
REFINEは、予測エントロピーに基づいて情報トークンの位置を選択し、マルチトークンロールアウトを生成し、自己教師付きシーケンスレベルの報酬を割り当て、グループ相対ポリシー最適化(GRPO)でモデルを最適化する。
REFINEは、トレーニング中のトレーニング、後トレーニング、テストタイムトレーニングといった、トレーニング済みの言語モデルのトレーニングライフサイクルを通じて適用することができる。
LaCT-760MとDeltaNet-1.3Bの実験により、REFINEは、ニードル・イン・ア・ヘイスタック検索、長文質問応答、LongBenchにおける多種多様なタスクにおいて、NTPによる微調整を継続的に上回ることを示した。
REFINEは、高速な重み付けアーキテクチャにおける長文モデリングを改善するための効果的で汎用的なフレームワークを提供する。
関連論文リスト
- Next Concept Prediction in Discrete Latent Space Leads to Stronger Language Models [62.054835560934066]
Next Concept Predictionは、Next Token Predictionの上に構築された、ジェネレーティブな事前学習パラダイムである。
我々のモデルであるConceptLMは、ベクトル量子化を用いて隠れ状態の定量化を行い、概念語彙を構築する。
13のベンチマークの結果、NCPは従来のトークンレベルのモデルよりも一貫したパフォーマンス向上をもたらすことが示された。
論文 参考訳(メタデータ) (2026-02-09T18:33:31Z) - Context-level Language Modeling by Learning Predictive Context Embeddings [79.00607069677393]
textbfContextLMは、固有のtextbfnext-context予測目標で標準事前学習を強化するフレームワークである。
このメカニズムは、将来のトークンチャンクから派生したエラー信号を利用して、マルチトークンコンテキストの予測表現を学ぶようモデルを訓練する。
GPT2およびPythiaモデルファミリーの実験では、1.5ドルBのパラメータまでスケールし、ContextLMがパープレキシティとダウンストリームのタスクパフォーマンスの両方で一貫した改善を提供することを示した。
論文 参考訳(メタデータ) (2025-10-23T07:09:45Z) - Beyond Multi-Token Prediction: Pretraining LLMs with Future Summaries [35.39150917025755]
将来の要約予測(FSP)は、長期的な未来のコンパクトな表現を予測するために補助ヘッドを訓練する。
FSPは数学、推論、コーディングベンチマークで NTP と MTP の両方の改善を提供する。
論文 参考訳(メタデータ) (2025-10-16T14:52:52Z) - Holdout-Loss-Based Data Selection for LLM Finetuning via In-Context Learning [19.677969862434708]
本稿では,データ選択と再重み付けのための理論的に基礎的,資源効率のよいフレームワークを提案する。
In-Context Approximation (ICA) は、モデルが候補の例でトレーニングした後のホールドアウト損失を推定する。
モデルパラメータの進化に伴い, ICAスコアから指数重みを導出し, 勾配更新を動的に再加重する。
論文 参考訳(メタデータ) (2025-10-16T09:00:39Z) - Contextually Enhanced ES-dRNN with Dynamic Attention for Short-Term Load
Forecasting [1.1602089225841632]
提案手法は,コンテキストトラックとメイントラックという,同時に訓練された2つのトラックから構成される。
RNNアーキテクチャは、階層的な拡張を積み重ねた複数の繰り返し層で構成され、最近提案された注意的再帰細胞を備えている。
このモデルは点予測と予測間隔の両方を生成する。
論文 参考訳(メタデータ) (2022-12-18T07:42:48Z) - Fine-Tuning Pre-Trained Language Models Effectively by Optimizing
Subnetworks Adaptively [32.001304911395756]
微調整時の大規模事前学習モデルの動的選択(DPS)アルゴリズムを提案する。
GLUEベンチマークの実験では、DPSは全体的な性能と安定性の点で従来の微調整法よりも優れていた。
論文 参考訳(メタデータ) (2022-11-03T08:32:12Z) - DSEE: Dually Sparsity-embedded Efficient Tuning of Pre-trained Language
Models [152.29364079385635]
事前訓練されたモデルが大きくなればなるほど、微調整のプロセスは時間がかかり、計算コストがかかる可能性がある。
本稿では,重み更新と最終モデルの重み付けに先立って,疎度を活用することで,資源・パラメータ効率の微調整を行うフレームワークを提案する。
提案するフレームワークは,Dually Sparsity-Embeded Efficient Tuning (DSEE)と呼ばれ,パラメータ効率のよい微調整とリソース効率の推論という2つの重要な目標を達成することを目的としている。
論文 参考訳(メタデータ) (2021-10-30T03:29:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。