論文の概要: Resa: Transparent Reasoning Models via SAEs
- arxiv url: http://arxiv.org/abs/2506.09967v1
- Date: Wed, 11 Jun 2025 17:44:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 06:35:03.176075
- Title: Resa: Transparent Reasoning Models via SAEs
- Title(参考訳): Resa:SAEによる透過的推論モデル
- Authors: Shangshang Wang, Julian Asilis, Ömer Faruk Akgül, Enes Burak Bilgin, Ollie Liu, Deqing Fu, Willie Neiswanger,
- Abstract要約: SAE-Tuningは、新規で効率的なスパースオートエンコーダチューニング手順によって訓練された1.5B推論モデルのファミリーである。
SAE-Tuningは、RL訓練後の特定のベースモデルに適用される前に、RL訓練後の推論性能の97%以上を維持している。
AIME24では43.33%のPass@1、AMC23では90%のPass@1などの推論性能を約1ドルで実現している。
- 参考スコア(独自算出の注目度): 14.617192915344349
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: How cost-effectively can we elicit strong reasoning in language models by leveraging their underlying representations? We answer this question with Resa, a family of 1.5B reasoning models trained via a novel and efficient sparse autoencoder tuning (SAE-Tuning) procedure. This method first trains an SAE to capture reasoning abilities from a source model, and then uses the trained SAE to guide a standard supervised fine-tuning process to elicit such abilities in a target model, all using verified question-answer data without any reasoning traces. Notably, when applied to certain base models before further RL post-training, SAE-Tuning retains >97% of its RL-trained counterpart's reasoning performance while reducing training costs by >2000x to roughly \$1 and training time by >450x to around 20 minutes. Furthermore, when applied to lightly RL-trained models (e.g., within 1 hour on 2 GPUs), it enables reasoning performance such as 43.33% Pass@1 on AIME24 and 90% Pass@1 on AMC23 for only around \$1 additional cost. Surprisingly, the reasoning abilities extracted via SAEs are potentially both generalizable and modular. Generality means abilities extracted from one dataset still elevate performance on a larger and overlapping corpus. Modularity means abilities extracted from Qwen or Qwen-Math can be attached to the R1-Distill model at test time, without any retraining, and yield comparable gains. Extensive ablations validate these findings and all artifacts are fully open-sourced.
- Abstract(参考訳): 言語モデルにおける強力な推論を,その基盤となる表現を活用することで,どの程度の費用対効果が期待できるのか?
本稿では,新しい,効率的なスパースオートエンコーダチューニング(SAE-Tuning)手法を用いて学習した1.5B推論モデルの家系であるResaを用いて,この問題に答える。
この方法はまず、ソースモデルから推論能力を取得するためにSAEを訓練し、次にトレーニングされたSAEを使用して、標準的な教師付き微調整プロセスをガイドし、ターゲットモデルでそのような能力を引き出す。
SAE-TuningはRLトレーニング後の特定のベースモデルに適用した場合、RLトレーニング後の推論性能の97%を保ち、トレーニングコストを約2000倍から約1ドルに下げ、トレーニング時間を450倍から約20分に短縮する。
さらに、軽量なRLトレーニングモデル(例:2GPUで1時間以内)に適用すると、AIME24では43.33%のPass@1、AMC23では90%のPass@1などの推論性能を1ドル程度の追加費用で実現している。
驚くべきことに、SAEによって抽出された推論能力は、一般化可能かつモジュラーである可能性がある。
一般性とは、あるデータセットから抽出された能力が、より大きな重複するコーパスのパフォーマンスを上昇させることを意味する。
モジュラリティ(Modularity)とは、Qwen または Qwen-Math から抽出された能力は、再トレーニングなしにテスト時に R1-Distill モデルにアタッチでき、比較利得が得られることを意味する。
これらの発見を徹底的に検証し、すべてのアーティファクトが完全にオープンソースにされている。
関連論文リスト
- Confidence Is All You Need: Few-Shot RL Fine-Tuning of Language Models [43.98994504606355]
大規模言語モデル(LLM)のための自己信頼による強化学習(RLSC)を提案する。
RLSCはモデル自身の自信を報奨信号として使用し、ラベル、選好モデル、報酬工学の必要性を排除している。
論文 参考訳(メタデータ) (2025-06-05T19:55:15Z) - Incentivizing LLMs to Self-Verify Their Answers [20.2584779107763]
大規模言語モデル(LLM)は複雑な推論タスクにおいて顕著な進歩を示している。
自明な回答を自己検証するために LLM をインセンティブとするフレームワークを提案する。
我々はQwen2.5-Math-7BとDeepSeek-R1-Distill-Qwen-1.5Bに基づいて自己検証モデルを訓練する。
論文 参考訳(メタデータ) (2025-06-02T06:54:29Z) - AceReason-Nemotron: Advancing Math and Code Reasoning through Reinforcement Learning [50.02117478165099]
大規模強化学習は, 強大・中小モデルの推論能力を大幅に向上させることができることを示す。
まずは算数のみのプロンプト、次にコードのみのプロンプトのトレーニングを行う。
論文 参考訳(メタデータ) (2025-05-22T08:50:47Z) - R1-Zero's "Aha Moment" in Visual Reasoning on a 2B Non-SFT Model [70.77691645678804]
非SFT 2Bモデルのみを用いたマルチモーダル推論における創発的特性の再現に成功した最初の例を示す。
本モデルはCVBenchで59.47%の精度を達成し, ベースモデルを約30%, SFT設定を2%以上上回った。
さらに,RLとインストラクションモデルを用いてR1のような推論を行おうとする試みの失敗と知見を共有した。
論文 参考訳(メタデータ) (2025-03-07T04:21:47Z) - An Empirical Study on Eliciting and Improving R1-like Reasoning Models [90.52239241349504]
RLトレーニングのスケーリングは、そのような推論モデルを実装するための中心的なテクニックとなっている。
我々のRLトレーニングアプローチはQwen2.5-32Bベースモデルを継続的に改善することを示した。
また、ツール操作の利用についても検討し、大きな推論モデルの推論性能を大幅に向上させることを見出した。
論文 参考訳(メタデータ) (2025-03-06T15:34:27Z) - Exploring the Limit of Outcome Reward for Learning Mathematical Reasoning [65.2421542320293]
推論能力は汎用知能の重要な構成要素である。
OpenAIのoシリーズモデルなどのプロプライエタリ企業による最近の進歩は、推論タスクに顕著な進歩をもたらした。
本稿では、数学的推論タスクのための textbfOutcome textbfREwtextbfArd ベースの強化 textbfLearning により達成できる性能限界を追求する新しい RL フレームワーク OREAL を提案する。
論文 参考訳(メタデータ) (2025-02-10T18:57:29Z) - Advancing Language Model Reasoning through Reinforcement Learning and Inference Scaling [52.34735382627312]
大規模言語モデル(LLM)は複雑な推論タスクにおいて顕著な能力を示した。
既存のアプローチは主に、効果的なテストタイムスケーリングを達成するために、模倣学習と苦労に依存しています。
我々は、探索を奨励し、推論スケーリングを理解することで、強化学習をスケールするためにT1を提案する。
論文 参考訳(メタデータ) (2025-01-20T18:33:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。