論文の概要: Decoder-Hybrid-Decoder Architecture for Efficient Reasoning with Long Generation
- arxiv url: http://arxiv.org/abs/2507.06607v1
- Date: Wed, 09 Jul 2025 07:27:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-10 17:37:43.503012
- Title: Decoder-Hybrid-Decoder Architecture for Efficient Reasoning with Long Generation
- Title(参考訳): Decoder-Hybrid-Decoder Architecture for Efficient Reasoning with Long Generation
- Authors: Liliang Ren, Congcong Chen, Haoran Xu, Young Jin Kim, Adam Atkinson, Zheng Zhan, Jiankai Sun, Baolin Peng, Liyuan Liu, Shuohang Wang, Hao Cheng, Jianfeng Gao, Weizhu Chen, Yelong Shen,
- Abstract要約: 我々は、レイヤ間の効率的なメモリ共有のためのシンプルで効果的なメカニズムであるGated Memory Unit(GMU)を紹介した。
これは、GMUを組み込んでSambaベースのセルフデコーダからメモリ読み出し状態を共有するデコーダ・ハイブリッド・デコーダアーキテクチャである。
- 参考スコア(独自算出の注目度): 129.45368843861917
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in language modeling have demonstrated the effectiveness of State Space Models (SSMs) for efficient sequence modeling. While hybrid architectures such as Samba and the decoder-decoder architecture, YOCO, have shown promising performance gains over Transformers, prior works have not investigated the efficiency potential of representation sharing between SSM layers. In this paper, we introduce the Gated Memory Unit (GMU), a simple yet effective mechanism for efficient memory sharing across layers. We apply it to create SambaY, a decoder-hybrid-decoder architecture that incorporates GMUs in the cross-decoder to share memory readout states from a Samba-based self-decoder. SambaY significantly enhances decoding efficiency, preserves linear pre-filling time complexity, and boosts long-context performance, all while eliminating the need for explicit positional encoding. Through extensive scaling experiments, we demonstrate that our model exhibits a significantly lower irreducible loss compared to a strong YOCO baseline, indicating superior performance scalability under large-scale compute regimes. Our largest model enhanced with Differential Attention, Phi4-mini-Flash-Reasoning, achieves significantly better performance than Phi4-mini-Reasoning on reasoning tasks such as Math500, AIME24/25, and GPQA Diamond without any reinforcement learning, while delivering up to 10x higher decoding throughput on 2K-length prompts with 32K generation length under the vLLM inference framework. We release our training codebase on open-source data at https://github.com/microsoft/ArchScale.
- Abstract(参考訳): 言語モデリングの最近の進歩は、効率的なシーケンスモデリングのための状態空間モデル(SSM)の有効性を実証している。
Samba や decoder-decoder アーキテクチャ YOCO のようなハイブリッドアーキテクチャはトランスフォーマーよりも有望な性能向上を示したが、以前の研究ではSSM 層間の表現共有の効率性について検討しなかった。
本稿では,レイヤ間のメモリ共有を効率的に行うための,シンプルかつ効果的な機構である Gated Memory Unit (GMU) を紹介する。
これは、Sambaベースの自己デコーダからメモリ読み出し状態を共有するために、クロスデコーダにGMUを組み込んだデコーダ・ハイブリッド・デコーダアーキテクチャである。
SambaYはデコーディングの効率を大幅に向上し、線形プリフィルタイムの複雑さを保ち、長いコンテキストのパフォーマンスを向上する。
大規模なスケール実験を通じて,我々のモデルが強いYOCOベースラインに比べてはるかに低い非既約損失を示し,大規模計算システムにおいて優れた性能のスケーラビリティを示すことを示す。
差分アテンションによって強化された最大のモデルであるPhi4-mini-Flash-Reasoningは、Mth500, AIME24/25, GPQA Diamondなどの推論タスクにおいてPhi4-mini-Reasoningよりも大幅に性能が向上し、2K長のプロンプトで最大10倍高い復号スループットをvLLM推論フレームワーク下で32K生成する。
オープンソースデータのトレーニングコードベースをhttps://github.com/microsoft/ArchScale.comでリリースしています。
関連論文リスト
- ACM-UNet: Adaptive Integration of CNNs and Mamba for Efficient Medical Image Segmentation [9.006936485052128]
ACM-UNetは医療画像のための汎用セグメンテーションフレームワークである。
軽量アダプタ機構を通じて、事前訓練されたCNNとMambaモデルが組み込まれている。
計算効率を保ちながら最先端の性能を達成する。
論文 参考訳(メタデータ) (2025-05-30T11:30:53Z) - Sliding Window Attention Training for Efficient Large Language Models [55.56483740523027]
SWATを導入し,スライディングウインドウ・アテンション・トレーニング(Sliding Window Attention Training)を用いて,より効率的な長文処理を実現する。
本稿ではまず,変圧器の非効率性を注目シンク現象とみなす。
我々は、ソフトマックスをシグモイド関数に置き換え、効率的な情報圧縮と保持のためにバランスの取れたALiBiとRotary Position Embeddingを利用する。
論文 参考訳(メタデータ) (2025-02-26T05:31:44Z) - Efficiently Serving Large Multimodal Models Using EPD Disaggregation [24.05805398635414]
Encode-Prefill-Decode Disaggregation(エンコード・プリフィル・デコード・デコード・デアグリゲーション)という,エンコード・プリフィル・デコード・デコード・デアグリゲーション(Encode-Prefill-Decode Disaggregation)というフレームワークを紹介した。
エンコーディングとプリフィルをバンドルする現在のシステムとは異なり、私たちのアプローチはこれらのステップを分離し、新たな機会と最適化を解放します。
一般的なLMMを用いた実験では、メモリ効率(ピークメモリ使用率の最大15倍)、バッチサイズ(最大22倍)、リクエストあたり10倍のイメージ、および2.2倍のKVキャッシュが大幅に向上した。
論文 参考訳(メタデータ) (2024-12-25T10:11:31Z) - Collaborative Decoding Makes Visual Auto-Regressive Modeling Efficient [52.96232442322824]
CoDe(Collaborative Decoding)は、Visual Auto-Regressive (VAR)フレームワーク用に設計された、新しい効率的なデコーディング戦略である。
CoDeは、大規模でのパラメータ要求の大幅な削減と、異なるスケールでの排他的生成パターンという、2つの重要な観察に乗じている。
CoDeは1.7倍のスピードアップを実現し、メモリ使用量を約50%削減し、画像品質を1.95から1.98に改善した。
論文 参考訳(メタデータ) (2024-11-26T15:13:15Z) - B'MOJO: Hybrid State Space Realizations of Foundation Models with Eidetic and Fading Memory [91.81390121042192]
我々はB'MOJOと呼ばれるモデル群を開発し、構成可能なモジュール内で理想的メモリと暗黙的メモリをシームレスに結合する。
B'MOJOのイデオティックメモリとフェードメモリを変調する能力は、32Kトークンまでテストされた長いシーケンスの推論をより良くする。
論文 参考訳(メタデータ) (2024-07-08T18:41:01Z) - S3D: A Simple and Cost-Effective Self-Speculative Decoding Scheme for Low-Memory GPUs [7.816840847892339]
投機的復号法(SD)は、LLM推論で実現可能な相当な高速化のために、かなりの量の研究の注目を集めている。
本研究では,Skippy Simultaneous Speculative Decoding (S3D)を提案する。
提案手法は,最小限のアーキテクチャ変更とデータトレーニングを必要としながら,最高のパフォーマンス・メモリ比の1つを達成した。
論文 参考訳(メタデータ) (2024-05-30T17:54:35Z) - You Only Cache Once: Decoder-Decoder Architectures for Language Models [132.4064488592704]
大規模言語モデルのためのデコーダ・デコーダアーキテクチャであるYOCOを導入する。
YOCOはキーと値のペアを一度だけキャッシュする。
全体的なモデルはデコーダのみのTransformerのように振る舞うが、YOCOは一度だけキャッシュする。
論文 参考訳(メタデータ) (2024-05-08T17:57:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。