論文の概要: Tina: Tiny Reasoning Models via LoRA
- arxiv url: http://arxiv.org/abs/2504.15777v1
- Date: Tue, 22 Apr 2025 10:38:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-30 20:57:39.565698
- Title: Tina: Tiny Reasoning Models via LoRA
- Title(参考訳): Tina: LoRAによるTiny Reasoning Models
- Authors: Shangshang Wang, Julian Asilis, Ömer Faruk Akgül, Enes Burak Bilgin, Ollie Liu, Willie Neiswanger,
- Abstract要約: Tinaは、コスト効率の高い小さな推論モデルのファミリーです。
我々は,最小限の資源のみを用いて,実質的な推論性能を開発可能であることを示す。
これは、既存のSOTAモデルで使用される計算後トレーニングコストのごく一部で達成される。
- 参考スコア(独自算出の注目度): 14.690462999984186
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: How cost-effectively can strong reasoning abilities be achieved in language models? Driven by this fundamental question, we present Tina, a family of tiny reasoning models achieved with high cost-efficiency. Notably, Tina demonstrates that substantial reasoning performance can be developed using only minimal resources, by applying parameter-efficient updates during reinforcement learning (RL), using low-rank adaptation (LoRA), to an already tiny 1.5B parameter base model. This minimalist approach produces models that achieve reasoning performance which is competitive with, and sometimes surpasses, SOTA RL reasoning models built upon the same base model. Crucially, this is achieved at a tiny fraction of the computational post-training cost employed by existing SOTA models. In fact, the best Tina model achieves a >20\% reasoning performance increase and 43.33\% Pass@1 accuracy on AIME24, at only \$9 USD post-training and evaluation cost (i.e., an estimated 260x cost reduction). Our work reveals the surprising effectiveness of efficient RL reasoning via LoRA. We validate this across multiple open-source reasoning datasets and various ablation settings starting with a single, fixed set of hyperparameters. Furthermore, we hypothesize that this effectiveness and efficiency stem from LoRA rapidly adapting the model to the structural format of reasoning rewarded by RL, while largely preserving the base model's underlying knowledge. In service of accessibility and open research, we fully open-source all code, training logs, and model weights \& checkpoints.
- Abstract(参考訳): 言語モデルにおいて、強力な推論能力はどの程度のコスト効率で達成できるのか?
この根本的な疑問によって、私たちは、コスト効率の高い小さな推論モデルのファミリーであるTinaを紹介します。
特に、Tina氏は、低ランク適応(LoRA)を用いた強化学習(RL)中のパラメータ効率の更新を、既に小さな1.5Bパラメータベースモデルに適用することで、最小限のリソースのみを使用して、実質的な推論性能を開発できることを実証している。
この最小主義的アプローチは、同じベースモデル上に構築されたSOTA RL推論モデルと競合し、時には上回る推論性能を達成するモデルを生成する。
重要なことに、これは既存のSOTAモデルで使用される計算後トレーニングコストのごく一部で達成される。
実際、最高のティナモデルでは、AIME24の20倍の推論性能と43.33倍のPass@1の精度が達成され、後トレーニングと評価コストは9ドル(約260倍のコスト削減)である。
我々の研究は、LoRAによる効率的なRL推論の驚くべき効果を明らかにした。
複数のオープンソース推論データセットと、単一の固定されたハイパーパラメータセットから始まるさまざまなアブレーション設定にまたがってこれを検証する。
さらに, この有効性と効率性は, 基礎モデルの基盤となる知識を保ちながら, モデルがRLに報酬される構造的推論形式に迅速に適応することに起因すると仮定する。
アクセシビリティとオープンリサーチを提供するため、すべてのコード、ログのトレーニング、モデルの重み付けとチェックポイントを完全にオープンソースにしています。
関連論文リスト
- Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model? [67.30809748319486]
RLVR(Reinforcement Learning with Verifiable Rewards)は近年,LLMの推論能力の向上に成功している。
我々は、この仮定を再検討し、pass@textitkメトリックを大量のtextitk値で測定し、モデルの推論能力境界を探索する。
我々は、RLがエノノット、事実、根本的に新しい推論パターンを誘発することを発見した。
論文 参考訳(メタデータ) (2025-04-18T17:59:56Z) - R1-Zero's "Aha Moment" in Visual Reasoning on a 2B Non-SFT Model [70.77691645678804]
非SFT 2Bモデルのみを用いたマルチモーダル推論における創発的特性の再現に成功した最初の例を示す。
本モデルはCVBenchで59.47%の精度を達成し, ベースモデルを約30%, SFT設定を2%以上上回った。
さらに,RLとインストラクションモデルを用いてR1のような推論を行おうとする試みの失敗と知見を共有した。
論文 参考訳(メタデータ) (2025-03-07T04:21:47Z) - An Empirical Study on Eliciting and Improving R1-like Reasoning Models [90.52239241349504]
RLトレーニングのスケーリングは、そのような推論モデルを実装するための中心的なテクニックとなっている。
我々のRLトレーニングアプローチはQwen2.5-32Bベースモデルを継続的に改善することを示した。
また、ツール操作の利用についても検討し、大きな推論モデルの推論性能を大幅に向上させることを見出した。
論文 参考訳(メタデータ) (2025-03-06T15:34:27Z) - Training Language Models to Reason Efficiently [14.390800014819439]
我々は、強化学習を用いて、大きな推論モデルを訓練し、効率的に推論する。
精度を維持しながら不要な計算オーバーヘッドを最小限に抑えるため,本手法はモデルにインセンティブを与える。
2つのオープンウェイトな大推論モデルに対する実験は、ほとんどの精度を保ちながら、推論コストを著しく削減することを示した。
論文 参考訳(メタデータ) (2025-02-06T19:18:16Z) - Enhancing Analogical Reasoning in the Abstraction and Reasoning Corpus via Model-Based RL [6.143939145442195]
モデルに基づく強化学習は類推的推論の課題に適した手法であることを示す。
モデルベースRL法であるDreamerV3とモデルフリーRL法であるProximal Policy Optimizationを比較した。
この結果から,モデルベースRLはモデルフリーのRLよりも,単一タスクからの学習や一般化に優れるだけでなく,類似タスク間の推論において大きな優位性を示すことがわかった。
論文 参考訳(メタデータ) (2024-08-27T08:15:20Z) - PanGu-$\pi$: Enhancing Language Model Architectures via Nonlinearity
Compensation [97.78045712375047]
大規模言語モデル(LLM)のための新しい効率的なモデルアーキテクチャを提案する。
そこで,PanGu-$pi$-7Bは,約10%の推論速度を持つベンチマークに匹敵する性能が得られることを示す。
さらに,PanGu-$pi$-7Bを金融法と法律の高価値領域に導入し,実践的応用のためにYunShanというLLMを開発した。
論文 参考訳(メタデータ) (2023-12-27T11:49:24Z) - BYOM: Building Your Own Multi-Task Model For Free [69.63765907216442]
BYOM-FFTは完全微調整モデルのマージ用であり、BYOM-LoRAはLoRA微調整モデルのマージ用である。
コンピュータビジョンと自然言語処理タスクの実験により、提案手法は既存のマージ手法よりも大きなマージ率で優れていることが示された。
論文 参考訳(メタデータ) (2023-10-03T08:39:33Z) - A Comparative Study between Full-Parameter and LoRA-based Fine-Tuning on
Chinese Instruction Data for Instruction Following Large Language Model [8.21938165599387]
基礎モデルの選択、トレーニングデータセットのスケール、学習可能なパラメータ量、モデルのトレーニングコストは、すべて重要な要素である。
論文の結果の再現を容易にするため、データセット、モデル、コードを公開します。
論文 参考訳(メタデータ) (2023-04-17T09:36:36Z) - Towards Efficient Task-Driven Model Reprogramming with Foundation Models [52.411508216448716]
ビジョンファウンデーションモデルは、非常に大きなモデルキャパシティと幅広いトレーニングデータから恩恵を受け、印象的なパワーを示す。
しかし、実際には、下流のシナリオは限られた計算資源や効率上の考慮のため、小さなモデルしかサポートできない。
これは、ファンデーションモデルの現実的な応用に重要な課題をもたらします。
論文 参考訳(メタデータ) (2023-04-05T07:28:33Z) - Exploring Sparse Expert Models and Beyond [51.90860155810848]
Mixture-of-Experts (MoE) モデルは、無数のパラメータを持つが、一定の計算コストで有望な結果が得られる。
本稿では,専門家を異なるプロトタイプに分割し,上位1ドルのルーティングに$k$を適用する,エキスパートプロトタイピングというシンプルな手法を提案する。
この戦略は, モデル品質を向上させるが, 一定の計算コストを維持するとともに, 大規模モデルのさらなる探索により, 大規模モデルの訓練に有効であることが示唆された。
論文 参考訳(メタデータ) (2021-05-31T16:12:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。