論文の概要: Plasticity vs. Rigidity: The Impact of Low-Rank Adapters on Reasoning on a Micro-Budget
- arxiv url: http://arxiv.org/abs/2601.06677v1
- Date: Sat, 10 Jan 2026 20:29:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-13 19:08:00.937134
- Title: Plasticity vs. Rigidity: The Impact of Low-Rank Adapters on Reasoning on a Micro-Budget
- Title(参考訳): 塑性対剛性:マイクロ予算における低ランクアダプタの推論への影響
- Authors: Zohaib Khan, Omer Tafveez, Zoha Hayat Bhatti,
- Abstract要約: RLVR(Reinforcement Learning with Verifiable Rewards)とLoRA(Lo-Rank Adaptation)を使用して、1つのA40 GPU(48GB)のモデルを24時間以内にトレーニングする。
AIME 24では40.0%のPass@1(ベースラインよりも11.1%の絶対的な改善)を達成し、Pass@16を70.0%まで押し上げ、堅牢な探索能力を実証しました。
命令調整されたモデルは、その予算を利用して彼らのチェーンを延長し、報酬を最大化する一方で、非常に数学的に整合したモデルは性能の低下に悩まされた。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in mathematical reasoning typically rely on massive scale, yet the question remains: can strong reasoning capabilities be induced in small language models ($\leq1.5\text{B}$) under extreme constraints? We investigate this by training models on a single A40 GPU (48GB) for under 24 hours using Reinforcement Learning with Verifiable Rewards (RLVR) and Low-Rank Adaptation (LoRA). We find that the success of this ``micro-budget" regime depends critically on the interplay between adapter capacity and model initialization. While low-rank adapters ($r=8$) consistently fail to capture the complex optimization dynamics of reasoning, high-rank adapters ($r=256$) unlock significant plasticity in standard instruction-tuned models. Our best result achieved an impressive 40.0\% Pass@1 on AIME 24 (an 11.1\% absolute improvement over baseline) and pushed Pass@16 to 70.0\%, demonstrating robust exploration capabilities. However, this plasticity is not universal: while instruction-tuned models utilized the budget to elongate their chain-of-thought and maximize reward, heavily math-aligned models suffered performance collapse, suggesting that noisy, low-budget RL updates can act as destructive interference for models already residing near a task-specific optimum.
- Abstract(参考訳): 数学的推論の最近の進歩は、通常大規模に依存するが、疑問は残る: 強い推論能力は、極端な制約の下で、小さな言語モデル(\leq1.5\text{B}$)で引き起こせるか?
RLVR(Reinforcement Learning with Verifiable Rewards)とLoRA(Lo-Rank Adaptation)を用いて、1台のA40 GPU(48GB)を24時間以内にトレーニングすることでこれを検証した。
この「マイクロ予算」体制の成功は、アダプタ容量とモデル初期化の相互作用に大きく依存している。
低ランクのアダプタ (r=8$) は推論の複雑な最適化のダイナミクスを常に捉えないが、高ランクのアダプタ (r=256$) は標準の命令チューニングモデルにおいて重要な可塑性を解き放つ。
AIME 24では40.0\%のPass@1(ベースラインよりも11.1\%の絶対的な改善)を達成し、Pass@16を70.0\%にプッシュし、堅牢な探索能力を実証しました。
しかし、この可塑性は普遍的ではない: 命令で調整されたモデルは、彼らのチェーンを延長し、最大限の報酬を得るために予算を利用したが、重い数学で整列されたモデルはパフォーマンスの崩壊に悩まされ、ノイズの多い低予算のRL更新は、既にタスク固有の最適化の近くに住んでいるモデルの破壊的な干渉として機能する可能性があることを示唆している。
関連論文リスト
- Tiny Model, Big Logic: Diversity-Driven Optimization Elicits Large-Model Reasoning Ability in VibeThinker-1.5B [12.229008422568192]
本稿では,SSP(Spectrum-to-Signal Principle)を用いた1.5Bパラメータ密度モデルであるVibeThinker-1.5Bを紹介する。
VibeThinker-1.5Bの総トレーニングコストは7800ドルに過ぎず、クローズドソースモデルよりも優れた推論能力を示している。
注目すべきは、3つのベンチマークで400倍のDeepSeek R1を上回っていることだ。
論文 参考訳(メタデータ) (2025-11-09T04:37:36Z) - Planner-R1: Reward Shaping Enables Efficient Agentic RL with Smaller LLMs [10.044336754070203]
textscTravelPlannerベンチマークを用いて,大規模言語モデルを用いたエージェントRLについて検討した。
われわれのアプローチである textscNatural-R1 は、わずか180のトレーニングクエリで textbf56.9% のファイナルパスレートを達成した。
論文 参考訳(メタデータ) (2025-09-30T04:49:36Z) - Tina: Tiny Reasoning Models via LoRA [14.690462999984186]
Tinaは、コスト効率の高い小さな推論モデルのファミリーです。
我々は,最小限の資源のみを用いて,実質的な推論性能を開発可能であることを示す。
これは、既存のSOTAモデルで使用される計算後トレーニングコストのごく一部で達成される。
論文 参考訳(メタデータ) (2025-04-22T10:38:00Z) - Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model? [66.61292196146016]
RLVR(Reinforcement Learning with Verifiable Rewards)は近年,大規模言語モデル(LLM)の推論性能の向上に成功している。
本研究はRLVRの現状を批判的に考察する。
現在のトレーニング設定では、根本的な新しい推論パターンが生まれていないことが分かりました。
論文 参考訳(メタデータ) (2025-04-18T17:59:56Z) - Isolation and Induction: Training Robust Deep Neural Networks against
Model Stealing Attacks [51.51023951695014]
既存のモデル盗難防衛は、被害者の後部確率に偽りの摂動を加え、攻撃者を誤解させる。
本稿では,モデルステルス防衛のための新規かつ効果的なトレーニングフレームワークである分離誘導(InI)を提案する。
モデルの精度を損なうモデル予測に摂動を加えるのとは対照的に、我々はモデルを訓練して、盗むクエリに対して非形式的なアウトプットを生成する。
論文 参考訳(メタデータ) (2023-08-02T05:54:01Z) - Better Diffusion Models Further Improve Adversarial Training [97.44991845907708]
拡散確率モデル (DDPM) によって生成されたデータは, 対人訓練を改善することが認識されている。
本稿では,効率のよい最新の拡散モデルを用いて,肯定的な回答を与える。
我々の逆向きに訓練されたモデルは、生成されたデータのみを使用してRobustBench上で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-02-09T13:46:42Z) - Exploring Sparse Expert Models and Beyond [51.90860155810848]
Mixture-of-Experts (MoE) モデルは、無数のパラメータを持つが、一定の計算コストで有望な結果が得られる。
本稿では,専門家を異なるプロトタイプに分割し,上位1ドルのルーティングに$k$を適用する,エキスパートプロトタイピングというシンプルな手法を提案する。
この戦略は, モデル品質を向上させるが, 一定の計算コストを維持するとともに, 大規模モデルのさらなる探索により, 大規模モデルの訓練に有効であることが示唆された。
論文 参考訳(メタデータ) (2021-05-31T16:12:44Z) - Dynamic Model Pruning with Feedback [64.019079257231]
余分なオーバーヘッドを伴わずにスパーストレーニングモデルを生成する新しいモデル圧縮法を提案する。
CIFAR-10 と ImageNet を用いて本手法の評価を行い,得られたスパースモデルが高密度モデルの最先端性能に到達可能であることを示す。
論文 参考訳(メタデータ) (2020-06-12T15:07:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。