論文の概要: Multi-Mixer Models: Flexible Sequence Modeling with Shared Representations
- arxiv url: http://arxiv.org/abs/2605.28769v1
- Date: Wed, 27 May 2026 17:26:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-28 17:38:56.248441
- Title: Multi-Mixer Models: Flexible Sequence Modeling with Shared Representations
- Title(参考訳): マルチミラーモデル:共有表現を用いたフレキシブルシーケンスモデリング
- Authors: Kevin Y. Li, Asher Trockman, Ananda Theertha Suresh, Ziteng Sun,
- Abstract要約: 我々は、異なるミキサーを切り替えて効率よく生成できるハイブリッドモデルOryxを提案する。
Oryxは、ミキサー間で少なくとも90%のパラメータを結び、注意と繰り返しモードが共有内部表現上で動作できるようにする。
Mamba-2 と Gated DeltaNet の 1.4B モデルで設計を検証した。
- 参考スコア(独自算出の注目度): 22.554254134162225
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Softmax attention is the cornerstone of modern large language models, but its memory scales linearly and compute quadratically with sequence length. Linear recurrent models, such as linear attention and state space models, have become widely studied as alternatives to attention due to their linear compute and constant memory. While these sub-quadratic token mixing methods, or mixers, achieve promising efficiency gains and competitive results on a wide range of benchmarks, current linear recurrent models still lag behind on tasks that require long-context retrieval or in-context learning. A growing body of work studies hybrid architectures that attempt to mitigate these trade-offs by statically interleaving or merging attention and recurrent blocks. In this work, we explore a new axis of developing hybrid models: across the token sequence. We propose Oryx, a hybrid model that can, throughout a sequence, flexibly switch between different mixers, for example quadratic attention for rich context utilization and linear recurrences for efficient generation. Oryx ties at least 90% of its parameters across mixers, enabling attention and recurrent modes to operate over shared internal representations. We validate our design with Mamba-2 and Gated DeltaNet variants, up to 1.4B models. Under fixed token budgets and a mixed-training strategy, Oryx achieves comparable or better performance than its single-mixer baselines. At the 1.4B scale, all instances of Oryx outperform their respective baselines by at least 0.7 percentage points on averaged language modeling tasks. On retrieval tasks, Oryx achieves performance comparable to the Transformer baseline even when processing only a tiny fraction (<10%) of the tokens in attention mode. These results suggest that attention and linear recurrent models can share internal representations, and motivate sequence-axis hybridization as a promising direction.
- Abstract(参考訳): ソフトマックス・アテンション(Softmax attention)は、現代の大規模言語モデルの基盤であるが、そのメモリは線形にスケールし、シーケンス長を2次的に計算する。
線形アテンションや状態空間モデルなどの線形リカレントモデルは、線形計算と定数メモリによる注意の代替として広く研究されている。
これらのサブクワッドラティックなトークンミキシング手法(またはミキサー)は、幅広いベンチマークで有望な効率向上と競争的な結果を達成するが、現在の線形リカレントモデルは、長いコンテキスト検索やコンテキスト内学習を必要とするタスクに遅れを取っている。
成長する研究機関は、静的にインターリーブしたり、注意と繰り返し発生するブロックをマージすることによって、これらのトレードオフを緩和しようとするハイブリッドアーキテクチャを研究している。
本研究では,トークン列にまたがるハイブリッドモデル開発の新しい軸について検討する。
本稿では,複数のミキサーを柔軟に切り替えることができるハイブリッドモデルであるOryxを提案する。
Oryxは、ミキサー間で少なくとも90%のパラメータを結び、注意と繰り返しモードが共有内部表現上で動作できるようにする。
Mamba-2 と Gated DeltaNet の 1.4B モデルで設計を検証した。
固定トークン予算と混合トレーニング戦略の下で、Oryxはシングルミキサーベースラインよりも同等または優れたパフォーマンスを達成する。
1.4Bスケールでは、Oryxのすべてのインスタンスは、平均的な言語モデリングタスクにおいて、それぞれのベースラインを少なくとも0.7%上回っている。
検索タスクでは、注意モードのトークンのごく一部(10%)しか処理していない場合でも、OryxはTransformerベースラインに匹敵するパフォーマンスを達成する。
これらの結果は、注意と線形リカレントモデルが内部表現を共有でき、シーケンス軸のハイブリダイゼーションを有望な方向として動機付けることを示唆している。
関連論文リスト
- A Systematic Analysis of Hybrid Linear Attention [11.722015123070957]
リニアモデルはしばしばリコール性能の制限に悩まされる。
本研究は, 効率的なハイブリッドモデルとして, 選択的ゲーティング, 階層的再帰, 制御的忘れを重要視する。
私たちのモデルはhttps://huggingface.co/collections/m-hugging-a-p/hybrid-linear-attention-research-686c488a63d609d2f2 0e2b1eでオープンソース化されています。
論文 参考訳(メタデータ) (2025-07-08T23:54:11Z) - Systems and Algorithms for Convolutional Multi-Hybrid Language Models at Scale [68.6602625868888]
本稿では,2つの簡単な観測に基づいて,畳み込み型マルチハイブリッドアーキテクチャを提案する。
ハイブリッドモデルのオペレータは、インコンテキストリコール、マルチトークンリコール、圧縮などのトークン操作タスクにカスタマイズできる。
我々は、最適化されたトランスフォーマーの1.2倍から2.9倍、以前の世代のハイブリッドの1.1倍から1.4倍の速さでエンドツーエンドを訓練する。
論文 参考訳(メタデータ) (2025-02-25T19:47:20Z) - Fluid: Scaling Autoregressive Text-to-image Generative Models with Continuous Tokens [53.99177152562075]
視覚における自己回帰モデルのスケールアップは、大きな言語モデルほど有益でないことが証明されている。
モデルが離散トークンを使用するか、連続トークンを使用するか、BERTやGPTのようなトランスフォーマーアーキテクチャを用いてランダムまたは固定順序でトークンを生成するか、という2つの重要な要素に焦点を当てる。
その結果,すべてのモデルが検証損失の点で効果的にスケールしているのに対して,評価性能はFID,GenEvalスコア,視覚的品質などによって異なる傾向を呈することがわかった。
論文 参考訳(メタデータ) (2024-10-17T17:59:59Z) - The Mamba in the Llama: Distilling and Accelerating Hybrid Models [76.64055251296548]
注目層からの線形射影重みを学術的なGPU資源で再利用することにより,大規模な変換器を線形RNNに蒸留する方法を示す。
結果として得られたハイブリッドモデルは、チャットベンチマークのオリジナルのTransformerに匹敵するパフォーマンスを達成する。
また,Mambaとハイブリッドモデルの推論速度を高速化するハードウェア対応投機的復号アルゴリズムを導入する。
論文 参考訳(メタデータ) (2024-08-27T17:56:11Z) - ModelMix: A New Model-Mixup Strategy to Minimize Vicinal Risk across Tasks for Few-scribble based Cardiac Segmentation [32.19827368497988]
そこで本研究では,モデルパラメータをモデルパラメータとして用いたスクリブル教師付きセグメンテーションに対する新しいアプローチを提案する。
ModelMixは、別々のエンコーダから畳み込みパラメータの凸組み合わせを使って仮想モデルを構築する。
次に、教師なしとスクリブル付きの両方の方法で、タスク間のビジナルリスクを最小限に抑えるために、モデルセットを正規化します。
論文 参考訳(メタデータ) (2024-06-19T05:58:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。