論文の概要: Evaluating Parameter Efficient Methods for RLVR
- arxiv url: http://arxiv.org/abs/2512.23165v2
- Date: Tue, 30 Dec 2025 13:11:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-01 13:52:31.622891
- Title: Evaluating Parameter Efficient Methods for RLVR
- Title(参考訳): RLVRのパラメータ効率評価法
- Authors: Qingyu Yin, Yulun Wu, Zhennan Shen, Sunbowen Li, Zhilin Wang, Yanshu Li, Chak Tou Leong, Jiale Kang, Jinjin Gu,
- Abstract要約: RLVR(Reinforcement Learning with Verifiable Rewards)は、言語モデルにインセンティブを与え、検証可能なフィードバックを通じて推論能力を高める。
LoRAのような手法は一般的に使われているが、RLVRのための最適なPEFTアーキテクチャは未同定のままである。
本稿では,DeepSeek-R1-Distill 系における12以上のPEFT手法の数学的推論ベンチマークによる総合評価を行った。
- 参考スコア(独自算出の注目度): 38.45552186628944
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We systematically evaluate Parameter-Efficient Fine-Tuning (PEFT) methods under the paradigm of Reinforcement Learning with Verifiable Rewards (RLVR). RLVR incentivizes language models to enhance their reasoning capabilities through verifiable feedback; however, while methods like LoRA are commonly used, the optimal PEFT architecture for RLVR remains unidentified. In this work, we conduct the first comprehensive evaluation of over 12 PEFT methodologies across the DeepSeek-R1-Distill families on mathematical reasoning benchmarks. Our empirical results challenge the default adoption of standard LoRA with three main findings. First, we demonstrate that structural variants, such as DoRA, AdaLoRA, and MiSS, consistently outperform LoRA. Second, we uncover a spectral collapse phenomenon in SVD-informed initialization strategies (\textit{e.g.,} PiSSA, MiLoRA), attributing their failure to a fundamental misalignment between principal-component updates and RL optimization. Furthermore, our ablations reveal that extreme parameter reduction (\textit{e.g.,} VeRA, Rank-1) severely bottlenecks reasoning capacity. We further conduct ablation studies and scaling experiments to validate our findings. This work provides a definitive guide for advocating for more exploration for parameter-efficient RL methods.
- Abstract(参考訳): RLVR(Reinforcement Learning with Verifiable Rewards)のパラダイムの下で,パラメータ効率の良いファインチューニング(PEFT)手法を体系的に評価した。
RLVRは、検証可能なフィードバックによって推論能力を高めるために言語モデルにインセンティブを与えるが、LoRAのような手法は一般的に使われているが、RLVRの最適なPEFTアーキテクチャは未同定のままである。
本研究では,DeepSeek-R1-Distill 系における 12 以上のPEFT 手法の数学的推論ベンチマークによる総合評価を行った。
実験結果は,標準LoRAの既定採用に3つの主要な発見を伴って挑戦した。
まず,DoRA,AdaLoRA,MiSSなどの構造変種がLoRAを一貫して上回ることを示す。
次に,SVD インフォームド初期化戦略 (\textit{e g ,} PiSSA, MiLoRA) におけるスペクトル崩壊現象を明らかにする。
さらに,極端パラメータ還元 (\textit{e g ,} VeRA, Rank-1) は,キャパシティを著しくボトルネックにすることが明らかとなった。
我々はさらにアブレーション研究とスケーリング実験を行い、その結果を検証した。
この研究は、パラメータ効率のよいRL法のさらなる探索を提唱するための決定的なガイドを提供する。
関連論文リスト
- The Path Not Taken: RLVR Provably Learns Off the Principals [85.41043469428365]
スパーシティはモデル条件の最適化バイアスの表面積であることを示す。
我々はこれらの力学を三ゲージ理論で機械的に説明する。
本稿では,RLVRの学習力学のパラメータレベルの特徴付けを行う。
論文 参考訳(メタデータ) (2025-11-11T18:49:45Z) - CDE: Curiosity-Driven Exploration for Efficient Reinforcement Learning in Large Language Models [85.315711639214]
モデル固有の好奇心を利用して探索をガイドするフレームワークであるCuriosity-Driven Exploration (CDE)を紹介した。
アクターに対しては、生成された応答に対してパープレキシティを使用し、批判に対しては、マルチヘッドアーキテクチャからの値推定のばらつきを利用する。
理論的分析により,アクターのボーナスは本質的に過度に信頼された誤りを罰し,正しい反応の多様性を促進することが示唆された。
論文 参考訳(メタデータ) (2025-09-11T17:59:17Z) - Your Reward Function for RL is Your Best PRM for Search: Unifying RL and Search-Based TTS [62.22644307952087]
本稿では、RLベースと検索ベースTTSの最初の自然統合であるAIRL-Sを紹介する。
逆逆強化学習(AIRL)とグループ相対政策最適化(GRPO)を組み合わせることで、正しい推論トレースから高密度な動的PRMを直接学習する。
提案手法は,GPT-4oと一致して,ベースモデル上での平均9%の性能向上を図っている。
論文 参考訳(メタデータ) (2025-08-19T23:41:15Z) - Effective Inference-Free Retrieval for Learned Sparse Representations [19.54810957623511]
Learned Sparse Retrieval (LSR)は、学習された単語の袋にテキストをエンコードするために訓練済みの言語モデルを利用する効果的なIRアプローチである。
近年,新たな効率的な逆インデックスベース検索エンジンが提案されており,LSRモデルのトレーニングにおいて正規化の役割が変化したのか,という自然な疑問が投げかけられている。
より効率的なLSRエンコーダを生成するために、正規化を緩和できることが示される。
論文 参考訳(メタデータ) (2025-04-30T09:10:46Z) - Robust Federated Finetuning of LLMs via Alternating Optimization of LoRA [10.756801183126525]
ファインチューンなLoRAアダプタに交互に最適化を施した,フェデレートされたフレームワークであるRoLoRAを提案する。
理論解析と広範な実験の両方を用いて,RoLoRAの先行的アプローチに対する利点を実証する。
論文 参考訳(メタデータ) (2025-02-03T19:02:00Z) - SD-LoRA: Scalable Decoupled Low-Rank Adaptation for Class Incremental Learning [73.93639228235622]
基礎モデルによる継続的な学習は、シーケンシャルなタスクに取り組むための事前トレーニング中に得られた豊富な知識を活用するための有望なパラダイムとして現れてきた。
既存のプロンプトベースおよびローランク適応ベース(LoRAベース)メソッドでは、プロンプト/ローラプールの拡張や、以前のタスクのサンプルの保持がしばしば必要である。
クラスインクリメンタル学習のためのスケーラブルデカップリングLoRA(SD-LoRA)を提案する。
論文 参考訳(メタデータ) (2025-01-22T20:00:41Z) - Task-Specific Directions: Definition, Exploration, and Utilization in Parameter Efficient Fine-Tuning [65.31677646659895]
大規模な言語モデルは、下流タスクで素晴らしいパフォーマンスを示すが、全てのパラメータを完全に微調整する場合は、リソース消費がかなり必要である。
本稿では,タスク固有の方向(TSD)を明確に定義するフレームワークを提案し,その特性と実用化の課題について検討する。
次に、微調整過程におけるTLDの影響を最大化する新しいアプローチであるLoRA-Dashを導入する。
論文 参考訳(メタデータ) (2024-09-02T08:10:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。