論文の概要: Scaling Reasoning without Attention
- arxiv url: http://arxiv.org/abs/2505.22425v1
- Date: Wed, 28 May 2025 14:52:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-29 17:35:50.661581
- Title: Scaling Reasoning without Attention
- Title(参考訳): 注意せずに推論をスケールする
- Authors: Xueliang Zhao, Wei Wu, Lingpeng Kong,
- Abstract要約: アーキテクチャとデータ中心のイノベーションを通じて、両方の問題に対処する、注目のない言語モデルである。
我々のモデルは、自己アテンションとキー値キャッシュの必要性を排除し、固定メモリ、定数時間推論を可能にします。
ベンチマーク評価では、我々のモデル7Bは、強力なトランスフォーマーと同等のスケールのハイブリッドモデルよりも優れています。
- 参考スコア(独自算出の注目度): 44.42046576158219
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have made significant advances in complex reasoning tasks, yet they remain bottlenecked by two core challenges: architectural inefficiency due to reliance on Transformers, and a lack of structured fine-tuning for high-difficulty domains. We introduce \ourmodel, an attention-free language model that addresses both issues through architectural and data-centric innovations. Built on the state space dual (SSD) layers of Mamba-2, our model eliminates the need for self-attention and key-value caching, enabling fixed-memory, constant-time inference. To train it for complex reasoning, we propose a two-phase curriculum fine-tuning strategy based on the \textsc{PromptCoT} synthesis paradigm, which generates pedagogically structured problems via abstract concept selection and rationale-guided generation. On benchmark evaluations, \ourmodel-7B outperforms strong Transformer and hybrid models of comparable scale, and even surpasses the much larger Gemma3-27B by 2.6\% on AIME 24, 0.6\% on AIME 25, and 3.0\% on Livecodebench. These results highlight the potential of state space models as efficient and scalable alternatives to attention-based architectures for high-capacity reasoning.
- Abstract(参考訳): 大規模言語モデル(LLM)は複雑な推論タスクにおいて大きな進歩を遂げてきたが、トランスフォーマーへの依存によるアーキテクチャの非効率性、高微分ドメインのための構造化された微調整の欠如という2つの主要な課題にボトルネックを被ったままである。
アーキテクチャとデータ中心のイノベーションを通じて、両方の問題に対処する。
Mamba-2のステートスペース二重層(SSD)層上に構築された当社のモデルは,自己アテンションとキー値キャッシュの必要性を排除し,固定メモリ,定数時間推論を可能にする。
複雑な推論のために,抽象的な概念選択と合理化誘導生成を通じて,教育的に構造化された問題を生成できる「textsc{PromptCoT}」合成パラダイムに基づく2段階のカリキュラムの微調整戦略を提案する。
ベンチマーク評価では、 \ourmodel-7Bは強力なトランスフォーマーと同等規模のハイブリッドモデルより優れており、AIME 24では2.6\%、AIME 25では0.6\%、Livecodebenchでは3.0\%というはるかに大きなGemma3-27Bを上回ります。
これらの結果は、高容量推論のための注意に基づくアーキテクチャに代わる効率的でスケーラブルな代替手段として、状態空間モデルの可能性を強調している。
関連論文リスト
- Efficient Unstructured Pruning of Mamba State-Space Models for Resource-Constrained Environments [2.1797343876622097]
状態空間モデル(SSM)は、シーケンスモデリングのためのトランスフォーマーの強力な代替品として登場した。
そこで本研究では,Mambaモデルに適した非構造化プルーニングフレームワークを提案し,その性能を95%以上維持しながら,最大70%のパラメータ削減を実現した。
論文 参考訳(メタデータ) (2025-05-13T07:23:08Z) - Any Image Restoration via Efficient Spatial-Frequency Degradation Adaptation [158.37640586809187]
劣化した画像を1つのモデルで効率的に復元することは、ますます重要になっている。
我々のアプローチはAnyIRと呼ばれ、様々な劣化にまたがる固有の類似性を活用する統一された経路をとっています。
劣化認識と文脈的注意を融合させるため,空間周波数並列融合戦略を提案する。
論文 参考訳(メタデータ) (2025-04-19T09:54:46Z) - SegResMamba: An Efficient Architecture for 3D Medical Image Segmentation [2.979183050755201]
本稿では,SegResMambaという医用画像の効率的な3次元分割モデルを提案する。
我々のモデルは、他の最先端(SOTA)アーキテクチャと比較して、トレーニング中に半分未満のメモリを使用します。
論文 参考訳(メタデータ) (2025-03-10T18:40:28Z) - ContextFormer: Redefining Efficiency in Semantic Segmentation [48.81126061219231]
畳み込み法は、局所的な依存関係をうまく捉えるが、長距離関係に苦慮する。
ビジョントランスフォーマー(ViT)は、グローバルなコンテキストキャプチャでは優れるが、高い計算要求によって妨げられる。
我々は,リアルタイムセマンティックセグメンテーションの効率,精度,堅牢性のバランスをとるために,CNN と ViT の強みを活用したハイブリッドフレームワーク ContextFormer を提案する。
論文 参考訳(メタデータ) (2025-01-31T16:11:04Z) - State Space Models are Strong Text Rerankers [33.41687512973575]
Mambaのようなステートスペースモデル(SSM)は有望な利点を提供する。
その可能性にもかかわらず、SSMのテキストの再ランクにおける有効性は未定のままである。
Mambaアーキテクチャは、同様のサイズのトランスフォーマーベースのモデルに匹敵する、競合するテキストランキングのパフォーマンスを実現する。
論文 参考訳(メタデータ) (2024-12-18T21:42:15Z) - Restore Anything Model via Efficient Degradation Adaptation [129.38475243424563]
RAMは、様々な劣化にまたがる固有の類似性を活用して、効率的で包括的な復元を可能にする統一された経路を取る。
RAMのSOTA性能はRAMのSOTA性能を確認し、トレーニング可能なパラメータで約82%、FLOPで約85%のモデルの複雑さを減少させる。
論文 参考訳(メタデータ) (2024-07-18T10:26:53Z) - Transformers are SSMs: Generalized Models and Efficient Algorithms Through Structured State Space Duality [31.985243136674146]
Mamba のような状態空間モデル (SSM) は,小型・中規模での変換器の整合性や性能向上が示されている。
我々の状態空間双対性(SSD)フレームワークは、コア層が2~8倍高速なMambaの選択SSMの精細化である新しいアーキテクチャ(Mamba-2)を設計することができる。
論文 参考訳(メタデータ) (2024-05-31T17:50:01Z) - Hiformer: Heterogeneous Feature Interactions Learning with Transformers
for Recommender Systems [27.781785405875084]
本稿では,トランスフォーマーをベースとしたアーキテクチャに注目層を配置し,機能的インタラクションを自動的にキャプチャする手法を提案する。
我々は,Webスケールレコメンデータシステムにバニラトランスフォーマーアーキテクチャを適用する上で,2つの重要な課題を特定する。
論文 参考訳(メタデータ) (2023-11-10T05:57:57Z) - Parameter-Efficient Mixture-of-Experts Architecture for Pre-trained
Language Models [68.9288651177564]
量子多体物理学から行列積演算子(MPO)に基づく新しいMoEアーキテクチャを提案する。
分解されたMPO構造により、元のMoEアーキテクチャのパラメータを減らすことができる。
GPT2に基づく3つの有名な下流自然言語データセットの実験は、モデルキャパシティの向上における性能と効率の向上を示している。
論文 参考訳(メタデータ) (2022-03-02T13:44:49Z) - Discrete Auto-regressive Variational Attention Models for Text Modeling [53.38382932162732]
変分オートエンコーダ(VAE)はテキストモデリングに広く応用されている。
情報不足と後部崩壊という2つの課題に悩まされている。
本稿では,自己回帰変動注意モデル(DAVAM)を提案する。
論文 参考訳(メタデータ) (2021-06-16T06:36:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。