Fugu-MT 論文翻訳(概要): M1: Towards Scalable Test-Time Compute with Mamba Reasoning Models

論文の概要: M1: Towards Scalable Test-Time Compute with Mamba Reasoning Models

arxiv url: http://arxiv.org/abs/2504.10449v1
Date: Mon, 14 Apr 2025 17:38:25 GMT
ステータス: 翻訳完了
システム内更新日: 2025-04-22 21:44:29.150105
Title: M1: Towards Scalable Test-Time Compute with Mamba Reasoning Models
Title（参考訳）: M1: Mamba Reasoning Modelを使ったスケーラブルなテスト時間計算を目指す
Authors: Junxiong Wang, Wen-Ding Li, Daniele Paliotta, Daniel Ritter, Alexander M. Rush, Tri Dao,
Abstract要約: 本稿では,Mambaアーキテクチャ上に構築されたハイブリッド線形RNN推論モデルM1を紹介する。実験結果から,M1は従来の線形RNNモデルよりも優れていただけでなく,最先端のDeepSeek R1蒸留推論モデルの性能とも一致していることがわかった。
参考スコア（独自算出の注目度）: 72.75501495786297
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Effective reasoning is crucial to solving complex mathematical problems. Recent large language models (LLMs) have boosted performance by scaling test-time computation through long chain-of-thought reasoning. However, transformer-based models are inherently limited in extending context length due to their quadratic computational complexity and linear memory requirements. In this paper, we introduce a novel hybrid linear RNN reasoning model, M1, built on the Mamba architecture, which allows memory-efficient inference. Our approach leverages a distillation process from existing reasoning models and is further enhanced through RL training. Experimental results on the AIME and MATH benchmarks show that M1 not only outperforms previous linear RNN models but also matches the performance of state-of-the-art Deepseek R1 distilled reasoning models at a similar scale. We also compare our generation speed with a highly performant general purpose inference engine, vLLM, and observe more than a 3x speedup compared to a same size transformer. With throughput speedup, we are able to achieve higher accuracy compared to DeepSeek R1 distilled transformer reasoning models under a fixed generation time budget using self-consistency voting. Overall, we introduce a hybrid Mamba reasoning model and provide a more effective approach to scaling test-time generation using self-consistency or long chain of thought reasoning.
Abstract（参考訳）: 複雑な数学的問題を解くためには効果的な推論が不可欠である。最近の大規模言語モデル(LLM)は、長いチェーン・オブ・シークレット推論を通じてテスト時間計算をスケールすることで性能を向上している。しかし、トランスフォーマーベースのモデルは、2次計算複雑性と線形メモリ要求のため、コンテキスト長の延長に本質的に制限されている。本稿では,メモリ効率の高い推論が可能な,Mambaアーキテクチャ上に構築されたハイブリッド線形RNN推論モデルM1を紹介する。提案手法は既存の推論モデルからの蒸留プロセスを利用しており,RLトレーニングによりさらに拡張されている。 AIME および MATH ベンチマークによる実験結果から,M1 は従来の線形 RNN モデルより優れているだけでなく,最先端の Deepseek R1 蒸留推論モデルと類似のスケールで同等の性能を示した。また、生成速度を高性能汎用推論エンジンvLLMと比較し、同じサイズの変圧器と比較して3倍以上のスピードアップを観測する。スループットの高速化により、自己整合性投票を用いた固定時間予算下でのDeepSeek R1蒸留変圧器推論モデルと比較して高い精度を達成することができる。全体として、ハイブリッドなマンバ推論モデルを導入し、自己整合性や長い思考推論の連鎖を用いてテスト時間生成をスケールするためのより効果的なアプローチを提供する。

関連論文リスト

MesaNet: Sequence Modeling by Locally Optimal Test-Time Training [67.45211108321203]
我々は,最近提案されたMesa層の数値的に安定かつチャンクワイズ可能な並列化版を導入する。テストタイムの最適トレーニングにより、従来のRNNよりも言語モデリングの難易度が低く、ダウンストリームベンチマークのパフォーマンスが向上することを示す。
論文参考訳（メタデータ） (2025-06-05T16:50:23Z)
Thinking Slow, Fast: Scaling Inference Compute with Distilled Reasoners [72.37408197157453]
近年の進歩により、大規模言語モデル(LLM)の性能は、テスト時に計算資源をスケーリングすることで大幅に向上することが示されている。複雑性が低いモデルは、より優れた生成スループットを活用して、固定された計算予算のために同様の大きさのトランスフォーマーを上回りますか? この問題に対処し、強い四分法的推論器の欠如を克服するために、事前訓練された変換器から純およびハイブリッドのマンバモデルを蒸留する。
論文参考訳（メタデータ） (2025-02-27T18:08:16Z)
Towards Thinking-Optimal Scaling of Test-Time Compute for LLM Reasoning [113.49074603075032]
近年の研究では、モデルをより長い思考の連鎖(CoTs)を通して考える時間を増やすことで、複雑な推論タスクにおいて大幅な改善が得られることが示されている。より長いCoTによるスケーリングが、特定のドメインにおけるLarge Language Model(LLM)の推論性能を損なうかどうかを考察する。
論文参考訳（メタデータ） (2025-02-25T10:48:05Z)
Revisiting the Test-Time Scaling of o1-like Models: Do they Truly Possess Test-Time Scaling Capabilities? [61.85289698610747]
我々は,o1-like large language model (LLMs) が本当にテスト時間スケーリング機能を持っているか検討した。これらのo1型モデルの長いCoTは、常に精度を向上しないことがわかった。並列スケーリング戦略とCoT長特性を組み合わせた手法であるShortest Majority Voteを提案する。
論文参考訳（メタデータ） (2025-02-17T07:21:11Z)
O1-Pruner: Length-Harmonizing Fine-Tuning for O1-Like Reasoning Pruning [98.3430004984531]
精度を維持しながら推論オーバーヘッドを最小限に抑えるため,Longth-Harmonizing Fine-Tuning (O1-Pruner)を提案する。私たちのコードはもうすぐhttps://github.com/StarDewXXX/O1-Pruner.comで公開されます。
論文参考訳（メタデータ） (2025-01-22T01:35:11Z)
The Mamba in the Llama: Distilling and Accelerating Hybrid Models [76.64055251296548]
注目層からの線形射影重みを学術的なGPU資源で再利用することにより,大規模な変換器を線形RNNに蒸留する方法を示す。結果として得られたハイブリッドモデルは、チャットベンチマークのオリジナルのTransformerに匹敵するパフォーマンスを達成する。また,Mambaとハイブリッドモデルの推論速度を高速化するハードウェア対応投機的復号アルゴリズムを導入する。
論文参考訳（メタデータ） (2024-08-27T17:56:11Z)
Mamba: Linear-Time Sequence Modeling with Selective State Spaces [31.985243136674146]
ファンデーションモデルは、ほぼ普遍的にTransformerアーキテクチャとコアアテンションモジュールに基づいている。このようなモデルの重大な弱点は、コンテンツベースの推論を実行できないことである。我々はこれらの選択的なSSMを、注意やブロック(Mamba)を使わずに、単純化されたエンドツーエンドニューラルネットワークアーキテクチャに統合する(Mamba)。一般的なシーケンスモデルバックボーンとして、Mambaは言語、オーディオ、ゲノミクスといったいくつかのモードで最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2023-12-01T18:01:34Z)
A Data-driven feature selection and machine-learning model benchmark for the prediction of longitudinal dispersion coefficient [29.58577229101903]
縦方向分散(LD)係数の正確な予測は、関連するシミュレーションにおいて性能の飛躍をもたらすことができる。本研究では, 蒸留した局所最適値と代表MLモデルとの数値比較により, 大域的最適特徴集合を提案した。その結果,サポートベクタマシンは他のモデルよりも大幅に性能が向上していることがわかった。
論文参考訳（メタデータ） (2021-07-16T09:50:38Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。