論文の概要: Learning to Reason in 13 Parameters
- arxiv url: http://arxiv.org/abs/2602.04118v1
- Date: Wed, 04 Feb 2026 01:20:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-05 19:45:11.331745
- Title: Learning to Reason in 13 Parameters
- Title(参考訳): 13のパラメータによる推論の学習
- Authors: John X. Morris, Niloofar Mireshghallah, Mark Ibrahim, Saeed Mahloujifar,
- Abstract要約: 本稿では,低ランクアダプタを1つのパラメータの小さなサイズにスケールするTinyLoRAを提案する。
我々は、bf16(26バイト)で13個の訓練されたパラメータしか持たないGSM8K上で、Qwen2.5から91%の精度で8Bパラメータサイズを訓練することができる。
- 参考スコア(独自算出の注目度): 32.38290220092279
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent research has shown that language models can learn to \textit{reason}, often via reinforcement learning. Some work even trains low-rank parameterizations for reasoning, but conventional LoRA cannot scale below the model dimension. We question whether even rank=1 LoRA is necessary for learning to reason and propose TinyLoRA, a method for scaling low-rank adapters to sizes as small as one parameter. Within our new parameterization, we are able to train the 8B parameter size of Qwen2.5 to 91\% accuracy on GSM8K with only 13 trained parameters in bf16 (26 total bytes). We find this trend holds in general: we are able to recover 90\% of performance improvements while training $1000x$ fewer parameters across a suite of more difficult learning-to-reason benchmarks such as AIME, AMC, and MATH500. Notably, we are only able to achieve such strong performance with RL: models trained using SFT require $100-1000x$ larger updates to reach the same performance.
- Abstract(参考訳): 近年の研究では、しばしば強化学習を通じて言語モデルが「textit{reason}」に学習できることが示されている。
推論のために低ランクパラメータ化を訓練する作業もあるが、従来のLoRAはモデル次元以下ではスケールできない。
我々は,低ランクアダプタを1つのパラメータにスケールするTinyLoRAを提案するために,ランク=1 LoRAも必要かどうかを疑問視する。
新しいパラメータ化では、bf16(26バイト)で13個のトレーニングされたパラメータだけで、GSM8K上で8BパラメータサイズをQwen2.5から91\%の精度でトレーニングできる。
AIME、AMC、MATH500といった、より難しい学習と推論のベンチマークスイートで、1,000x$未満のパラメータをトレーニングしながら、90%のパフォーマンス改善を回復できます。
SFTを使ってトレーニングされたモデルでは、同じパフォーマンスに到達するには100~1000ドル(約1万1000円)以上のアップデートが必要です。
関連論文リスト
- GaLore: Memory-Efficient LLM Training by Gradient Low-Rank Projection [133.45193150403537]
LLM(Large Language Models)のトレーニングは、重み付けやGPU状態の増大によって、メモリ上の重大な問題が発生する。
本研究では,メモリ効率のトレーニング戦略としてグラディエント・ローランド・プロジェクション(GaLore)を提案する。
私たちの8ビットのGaLoreは、BF16ベースラインと比較して、メモリを82.5%、トレーニング総メモリを63.3%削減します。
論文 参考訳(メタデータ) (2024-03-06T07:29:57Z) - MELoRA: Mini-Ensemble Low-Rank Adapters for Parameter-Efficient Fine-Tuning [71.50432879573614]
低ランク適応 (LoRA) は、適応過程が本質的に低次元であるという考えに基づいている。
我々は、より高階を維持しながらトレーニング可能なパラメータを少なくするミニアンサンブルな低ランクアダプタMELoRAを提案する。
実験結果から, 自然言語理解タスクの8倍のトレーニングパラメータ, 続くタスクの36倍のトレーニングパラメータが得られた。
論文 参考訳(メタデータ) (2024-02-27T07:14:12Z) - LoRA: Low-Rank Adaptation of Large Language Models [71.75808607987281]
Low-Rank Adaptation (LoRA)はトレーニング済みモデルの重みを凍結し、トレーニング可能な階数分解をTransformerアーキテクチャの各層に注入する。
GPT-3では、LoRAはトレーニング可能なパラメータの数を1万倍に減らし、計算ハードウェアの要求をフル微調整の3倍に削減できる。
論文 参考訳(メタデータ) (2021-06-17T17:37:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。