論文の概要: LongAct: Harnessing Intrinsic Activation Patterns for Long-Context Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2604.14922v1
- Date: Thu, 16 Apr 2026 12:06:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-17 21:29:31.882648
- Title: LongAct: Harnessing Intrinsic Activation Patterns for Long-Context Reinforcement Learning
- Title(参考訳): LongAct:長期強化学習における本質的活性化パターンのハーネス化
- Authors: Bowen Ping, Zijun Chen, Tingfeng Hui, Qize Yu, Chenxuan Li, Junchi Yan, Baobao Chang,
- Abstract要約: LongActは、均一からサリエンシ誘導によるスパースアップデートへ移行する戦略である。
これらの重要な活性化に関連する重みのみを選択的に更新することにより、LongBench v2の約8%の改善が達成される。
- 参考スコア(独自算出の注目度): 54.6434454250226
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement Learning (RL) has emerged as a critical driver for enhancing the reasoning capabilities of Large Language Models (LLMs). While recent advancements have focused on reward engineering or data synthesis, few studies exploit the model's intrinsic representation characteristics to guide the training process. In this paper, we first observe the presence of high-magnitude activations within the query and key vectors when processing long contexts. Drawing inspiration from model quantization -- which establishes the criticality of such high-magnitude activations -- and the insight that long-context reasoning inherently exhibits a sparse structure, we hypothesize that these weights serve as the pivotal drivers for effective model optimization. Based on this insight, we propose LongAct, a strategy that shifts from uniform to saliency-guided sparse updates. By selectively updating only the weights associated with these significant activations, LongAct achieves an approximate 8% improvement on LongBench v2 and enhances generalization on the RULER benchmark. Furthermore, our method exhibits remarkable universality, consistently boosting performance across diverse RL algorithms such as GRPO and DAPO. Extensive ablation studies suggest that focusing on these salient features is key to unlocking long-context potential.
- Abstract(参考訳): Reinforcement Learning (RL) は,Large Language Models (LLMs) の推論能力を高める重要なドライバとして登場した。
近年の進歩は報酬工学やデータ合成に重点を置いているが、本質的な表現特性を利用してトレーニングプロセスを導く研究はほとんどない。
本稿では,長いコンテキストの処理において,クエリとキーベクトル内での高次アクティベーションの存在を最初に観察する。
このような高次アクティベーションの臨界性を確立するモデル量子化からのインスピレーションと、長文推論が本質的にスパース構造を示すという知見を導き、これらの重みが効果的なモデル最適化の要となると仮定する。
この知見に基づいて、均一性からサリエンシ誘導によるスパース更新へ移行する戦略であるLongActを提案する。
これらの重要なアクティベーションに関連する重みのみを選択的に更新することにより、LongBench v2の約8%の改善を実現し、RULERベンチマークの一般化を向上する。
さらに,本手法は,GRPOやDAPOなど多種多様なRLアルゴリズムの性能向上に寄与する。
広範囲にわたるアブレーション研究は、これらの健全な特徴に焦点をあてることが、長いコンテキストのポテンシャルを解き放つ鍵であることを示唆している。
関連論文リスト
- Insight-V++: Towards Advanced Long-Chain Visual Reasoning with Multimodal Large Language Models [65.4947731385794]
基礎画像中心モデルであるInsight-Vから進化した統合多エージェント視覚推論フレームワークを提案する。
空間的時間的推論を強化し、評価ロバスト性を向上させる2つの新しいアルゴリズムST-GRPOとJ-GRPOを導入する。
LLaVA-NeXTやQwen2.5-VLといったベースモデルの実験は、挑戦的な画像とビデオの推論ベンチマーク間で大きなパフォーマンス向上を示している。
論文 参考訳(メタデータ) (2026-03-18T15:28:07Z) - LongR: Unleashing Long-Context Reasoning via Reinforcement Learning with Dense Utility Rewards [57.993003392037174]
LongRは動的"Think-and-Read"メカニズムを統合することで、長時間コンテキストのパフォーマンスを向上させるフレームワークである。
LongRは様々なRLアルゴリズムのパフォーマンスを継続的に向上する。
論文 参考訳(メタデータ) (2026-02-05T15:26:47Z) - Nemotron-Cascade: Scaling Cascaded Reinforcement Learning for General-Purpose Reasoning Models [71.9060068259379]
汎用推論モデルを構築するために,ケースド・ドメインワイド強化学習を提案する。
私たちの14Bモデルは、RLの後、LiveCodeBench v5/v6 ProでSFTの教師であるDeepSeek-R1-0528を上回り、インフォマティクスにおける2025 International Olympiad in Informatics (IOI)における銀の医療性能を上回りました。
論文 参考訳(メタデータ) (2025-12-15T18:02:35Z) - Tailored Primitive Initialization is the Secret Key to Reinforcement Learning [61.29280885291581]
強化学習(RL)は、大規模言語モデル(LLM)の推論能力を高めるための強力なパラダイムとして登場した。
多様な,高品質な推論プリミティブによるLLMの初期化は,安定かつサンプル効率のよいRLトレーニングを実現する上で不可欠である,と我々は主張する。
そこで我々は,新しい推論プリミティブを自動的に発見し,キュレートする微調整パイプラインであるTailorを提案する。
論文 参考訳(メタデータ) (2025-11-16T03:12:40Z) - Scaling Up RL: Unlocking Diverse Reasoning in LLMs via Prolonged Training [121.5858973157225]
本研究では,長期強化学習が多種多様な推論領域にまたがる小言語モデルに及ぼす影響について検討する。
我々は,長期的パフォーマンス向上の鍵となる重要な要素として,制御KL正規化,クリッピング率,定期参照ポリシーリセットを導入する。
私たちのモデルは、数学の+14.7%、コーディングの+13.9%、論理パズルの+54.8%など、強力なベースラインよりも大幅に改善されている。
論文 参考訳(メタデータ) (2025-07-16T17:59:24Z) - Activation Control for Efficiently Eliciting Long Chain-of-thought Ability of Language Models [45.938663388013445]
本報告では,最後の数層における高影響活性化の小さなセットが,長大な推論特性を支配していることを示す。
これらのアクティベーションを増幅し、"待機"トークンを挿入することで、トレーニングなしで長いCoT機能を呼び出すことができます。
論文 参考訳(メタデータ) (2025-05-23T10:07:18Z) - Benchmarking General-Purpose In-Context Learning [19.40952728849431]
In-context Learning (ICL) は、生成モデルに新しいタスクを効果的に、かつ効率的にオンザフライで対処する権限を与える。
本稿では,より広い範囲の課題に対処するためのICLの拡張について検討する。
GPICLの機能のトレーニングと評価に特化して開発されたベンチマークを2つ導入する。
論文 参考訳(メタデータ) (2024-05-27T14:50:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。