論文の概要: The Multiple Ticket Hypothesis: Random Sparse Subnetworks Suffice for RLVR
- arxiv url: http://arxiv.org/abs/2602.01599v1
- Date: Mon, 02 Feb 2026 03:43:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.882608
- Title: The Multiple Ticket Hypothesis: Random Sparse Subnetworks Suffice for RLVR
- Title(参考訳): マルチチケット仮説:RLVRに適したランダムスパースサブネット
- Authors: Israel Adewuyi, Solomon Okibe, Vladmir Ivanov,
- Abstract要約: Ticket仮説はスパースワークが完全なモデル性能と一致し、パラメータの冗長性を示唆することを示した。
最近の研究は、更新がパラメータのスパース部分に集中していることを示しており、この基礎となる冗長性に証拠を与えている。
我々は、この冗長性を最大限に活用するための最も単純な方法、すなわち、極端な間隔でランダムに選択されたパラメータのサブセットのみを訓練する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The Lottery Ticket Hypothesis demonstrated that sparse subnetworks can match full-model performance, suggesting parameter redundancy. Meanwhile, in Reinforcement Learning with Verifiable Rewards (RLVR), recent work has shown that updates concentrate on a sparse subset of parameters, which further lends evidence to this underlying redundancy. We study the simplest possible way to exploit this redundancy: training only a randomly selected subset of parameters at extreme sparsities. Empirically, we find that training just 1\% of parameters matches or exceeds full-parameter RLVR finetuning across 3 models and 2 task domains. Moreover, different random masks show minimal overlap ($\leq 0.005$ Jaccard similarity) and yet all succeed, suggesting pretrained models contain many viable sparse subnetworks rather than one privileged set. We term this the Multiple Ticket Hypothesis. We explain this phenomenon through the implicit per-step KL constraint in RLVR, which restricts updates to a low-dimensional subspace, enabling arbitrary sparse masks to succeed.
- Abstract(参考訳): Lottery Ticket仮説は、スパースサブネットワークが完全なモデル性能と一致し、パラメータの冗長性を示唆することを示した。
一方、Reinforcement Learning with Verifiable Rewards (RLVR)では、最近の研究により、更新はパラメータのまばらなサブセットに集中していることが示されている。
我々は、この冗長性を最大限に活用するための最も単純な方法、すなわち、極端な間隔でランダムに選択されたパラメータのサブセットのみを訓練する。
経験的に、パラメータのトレーニングは3つのモデルと2つのタスクドメインにわたるフルパラメータRLVRファインタニングと一致するか、あるいは超えるだけである。
さらに、異なるランダムマスクは最小の重複("\leq 0.005$ Jaccard similarity")を示すが、すべて成功し、事前訓練されたモデルは1つの特権セットではなく、多くの実行可能なスパースサブネットワークを含んでいることを示唆している。
これをMultiple Ticket仮説と呼ぶ。
我々はこの現象をRLVRにおける暗黙のステップごとのKL制約によって説明し、低次元の部分空間への更新を制限し、任意のスパースマスクを成功させる。
関連論文リスト
- Routing the Lottery: Adaptive Subnetworks for Heterogeneous Data [2.5157688901171995]
Lottery Ticket仮説は、大きなネットワークにはスパースワークや勝利チケットが含まれており、密集したネットワークのパフォーマンスに合わせて個別にトレーニングすることができると仮定している。
本稿では,適応チケット(Adaptive ticket)と呼ばれる,複数の専用プルーニングワークを発見する適応型プルーニングフレームワークであるRouting Lottery(RTL)を提案する。
我々の結果は、プラニングをデータ不均一性とモデル構造を整合させるメカニズムとして再考し、よりモジュラーでコンテキスト対応の深層学習への道を開いた。
論文 参考訳(メタデータ) (2026-01-29T18:56:41Z) - The Quest for Winning Tickets in Low-Rank Adapters [24.58659526975649]
Lottery Ticket仮説がパラメータ効率の良い微調整に拡張されるかどうかを検討する。
我々の重要な発見は、LTHがLoRA(Lo-Rank Adaptation)メソッド内に保持されていることです。
そこで本研究では,課題関連部分空間に適合する低ランクアダプタを訓練し,サロワークを識別する手法であるPartial-LoRAを提案する。
論文 参考訳(メタデータ) (2025-12-27T06:39:08Z) - The Path Not Taken: RLVR Provably Learns Off the Principals [85.41043469428365]
スパーシティはモデル条件の最適化バイアスの表面積であることを示す。
我々はこれらの力学を三ゲージ理論で機械的に説明する。
本稿では,RLVRの学習力学のパラメータレベルの特徴付けを行う。
論文 参考訳(メタデータ) (2025-11-11T18:49:45Z) - Regularizing Subspace Redundancy of Low-Rank Adaptation [54.473090597164834]
本稿では、マッピング部分空間間の冗長性を明示的にモデル化し、低ランク適応のサブスペース冗長性を適応的に正規化する手法であるReSoRAを提案する。
提案手法は、視覚言語検索や標準的な視覚分類ベンチマークにおいて、様々なバックボーンやデータセットにまたがる既存のPETL手法を一貫して促進する。
トレーニングの監督として、ReSoRAは追加の推論コストなしで、プラグイン・アンド・プレイ方式で既存のアプローチにシームレスに統合することができる。
論文 参考訳(メタデータ) (2025-07-28T11:52:56Z) - Reinforcement Learning Fine-Tunes a Sparse Subnetwork in Large Language Models [0.0]
強化学習(Reinforcement Learning, RL)の微調整では、モデルのパラメータの大部分を更新する必要があると仮定されることが多い。
我々はこの現象をRLにより引き起こされるパラメータ更新空間と呼ぶ。
このスパースサブネットワークのみを微調整することで、完全なモデル性能が回復し、完全に微調整されたモデルとほぼ同じパラメータが得られることを示す。
論文 参考訳(メタデータ) (2025-07-23T01:02:17Z) - MaskPro: Linear-Space Probabilistic Learning for Strict (N:M)-Sparsity on Large Language Models [53.36415620647177]
半構造化された空間は、M$M$の重みからN$の要素を戦略的に保持することで、有望なソリューションを提供する。
既存の(N:M)互換のアプローチは通常、かなりのエラーに悩まされるルールベースの階層的な欲求探索と、禁止的なトレーニングコストを引き起こす勾配駆動学習の2つのカテゴリに分類される。
MaskProという新しい線形空間確率的フレームワークを提案する。これは、M$連続重みごとに事前のカテゴリー分布を学習し、その後、この分布を活用して(N:M)スパーシリティを$N$-wayサンプリングを通じて生成することを目的としている。
論文 参考訳(メタデータ) (2025-06-15T15:02:59Z) - Reinforcement Learning Finetunes Small Subnetworks in Large Language Models [27.55599230411277]
強化学習(Reinforcement Learning, RL)は、大規模な言語モデルにおいて、タスクのパフォーマンスと人間の価値との整合性を大幅に向上させる。
驚くべきことに、このような大きな利益は、パラメータの5%から30%の小さなサブネットワークだけを更新することによるものです。
本稿では,この現象をRLにより引き起こされるパラメータ更新時空間性と呼ぶ。
論文 参考訳(メタデータ) (2025-05-16T21:42:28Z) - Distributionally Robust Models with Parametric Likelihood Ratios [123.05074253513935]
3つの単純なアイデアにより、より広いパラメトリックな確率比のクラスを用いてDROでモデルを訓練することができる。
パラメトリック逆数を用いてトレーニングしたモデルは、他のDROアプローチと比較して、サブポピュレーションシフトに対して一貫して頑健であることがわかった。
論文 参考訳(メタデータ) (2022-04-13T12:43:12Z) - Dual Lottery Ticket Hypothesis [71.95937879869334]
Lottery Ticket hypothesis (LTH)は、スパースネットワークトレーニングを調査し、その能力を維持するための新しい視点を提供する。
本稿では,LTHの当選チケットをトレーニング可能なサブネットワークとして,その性能をベンチマークとして検討する。
本稿では,簡単なスパースネットワークトレーニング戦略であるランダムスパースネットワークトランスフォーメーション(RST)を提案し,DLTHを裏付ける。
論文 参考訳(メタデータ) (2022-03-08T18:06:26Z) - Towards Practical Lottery Ticket Hypothesis for Adversarial Training [78.30684998080346]
トレーニングプロセス中にはるかに高速に収束する,前述のサブネットワークのサブセットが存在することを示す。
本研究の実践的応用として,このようなサブネットワークは,対人訓練の総時間を短縮する上で有効であることを示す。
論文 参考訳(メタデータ) (2020-03-06T03:11:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。