論文の概要: Provably Shorter Scratchpads in Hybrid DeltaNet-Attention Decoders
- arxiv url: http://arxiv.org/abs/2605.16640v1
- Date: Fri, 15 May 2026 21:16:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 17:57:46.888121
- Title: Provably Shorter Scratchpads in Hybrid DeltaNet-Attention Decoders
- Title(参考訳): ハイブリッドデルタネットアテンションデコーダにおけるスクラッチパッドの高速化
- Authors: Tomasz Steifer,
- Abstract要約: 本稿では,ハイブリッド型リカレントアテンションデコーダの表現力について検討する。
このようなハイブリッドアーキテクチャには,モデル表現性や効率性の面では,形式的な優位性があることが示される。
- 参考スコア(独自算出の注目度): 2.1219431687928525
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We investigate the expressive power of hybrid recurrent-attention decoders, a class of architectures used in recent open-source language models such as Qwen3-Next and its successors. These models combine Gated Attention heads with recurrent Gated DeltaNet heads. Is there a formal advantage, in terms of model expressivity or efficiency, to such a hybrid architecture? We show that there is. We define parity-conditioned retrieval task and show that under constant-precision assumption, a Qwen-style hybrid of Gated DeltaNet and Gated Attention solves this task with a constant scratchpad, or equivalently $O(1)$ chain-of-thought steps. In contrast, no similar solution exists for pure Gated DeltaNet models, while pure Gated Attention requires at least a polynomial scratchpad.
- Abstract(参考訳): 本稿では,Qwen3-Next などの最近のオープンソース言語モデルで使われているアーキテクチャのクラスである,ハイブリッド型リカレントアテンションデコーダの表現力について検討する。
これらのモデルは、Gated Attentionヘッドと繰り返しGated DeltaNetヘッドを組み合わせる。
このようなハイブリッドアーキテクチャに対して,モデル表現性や効率性の面では,形式的な優位性はあるのだろうか?
私たちはそこにあることを示します。
我々はパリティ条件付き検索タスクを定義し、一定精度の仮定の下で、Gated DeltaNet と Gated Attention の Qwen スタイルのハイブリッドが、このタスクを一定のスクラッチパッドまたは等価な$O(1)$チェーンオブ思考ステップで解決することを示す。
対照的に、純粋なGated DeltaNetモデルには同様のソリューションは存在しないが、純粋なGated Attentionは少なくとも多項式スクラッチパッドを必要とする。
関連論文リスト
- Preconditioned DeltaNet: Curvature-aware Sequence Modeling for Linear Recurrences [51.38664601405696]
我々はDeltaNet,GDN,KDAのプレコンディション付き変種を,効率的なチャンクワイズ並列アルゴリズムとともに導入する。
予備条件付きデルタルールの繰り返しは,340M,1Bスケールでの合成リコールベンチマークと言語モデリングにおいて一貫した性能向上をもたらす。
論文 参考訳(メタデータ) (2026-04-22T21:38:25Z) - Olmo Hybrid: From Theory to Practice and Back [112.70006263561073]
ハイブリッドモデルは, 変圧器と線形RNNの表現性を継承するだけでなく, 両方以上のタスクを表現できることを示す。
また,Olmo HybridはOlmo 3よりも高い性能を示し,プレトレーニングおよび中間トレーニングの評価を行った。
この結果から,注目層と繰り返し層を混合したハイブリッドモデルが,言語モデリングパラダイムの強力な拡張となることが示唆された。
論文 参考訳(メタデータ) (2026-04-03T20:36:34Z) - Expressivity-Efficiency Tradeoffs for Hybrid Sequence Models [50.45915413315706]
非ハイブリッドモデルに対する基本的な制限の存在を証明する。
我々は,これらの課題を確実に解決する,小さなサイズと作業メモリのハイブリッドモデルを構築した。
さらに,ハイブリッドモデルが非ハイブリッドモデルよりも長大化および分布外堅牢性を示すことを示す。
論文 参考訳(メタデータ) (2026-03-09T19:20:01Z) - PRISM: Progressive Rain removal with Integrated State-space Modeling [6.77452862511561]
画像デライン化は、雨天や水滴を除去する重要な視覚技術である。
現在の単一スケールモデルは、微細な回復とグローバルな一貫性に苦慮している。
本稿では,プログレッシブ3段階フレームワークである統合状態空間モデリング(Integrated State-space Modeling, PRISM)による降雨除去を提案する。
論文 参考訳(メタデータ) (2025-09-30T15:39:05Z) - Gated Delta Networks: Improving Mamba2 with Delta Rule [64.58149707073915]
Gated DeltaNetは、複数のベンチマークで、Mamba2やDeltaNetのような既存のモデルを一貫して上回っている。
我々は,Gated DeltaNet 層とスライディングウィンドウアテンション,あるいは Mamba2 層を組み合わせたハイブリッドアーキテクチャを開発し,学習効率の向上とタスク性能の向上を実現した。
論文 参考訳(メタデータ) (2024-12-09T13:09:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。