論文の概要: A Dual-Path Architecture for Scaling Compute and Capacity in LLMs
- arxiv url: http://arxiv.org/abs/2605.30202v1
- Date: Thu, 28 May 2026 16:41:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-30 02:45:56.543368
- Title: A Dual-Path Architecture for Scaling Compute and Capacity in LLMs
- Title(参考訳): LLMにおけるコンピュートとキャパシティのスケーリングのためのデュアルパスアーキテクチャ
- Authors: Markus Frey, Behzad Shomali, Joachim Koehler, Mehdi Ali,
- Abstract要約: 本稿では、フレキシブルにスケールできる新しいデュアルパスブロック、隠れ状態に適用されるシーケンシャルな演算数、キャパシティを提案する。
2つのFLOP予算において、我々のデュアルパスモデルは、言語モデリングと下流評価において一致した同型FLOPモデルを上回っていることを示す。
- 参考スコア(独自算出の注目度): 1.7347918181145063
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Looped transformers apply a shared block multiple times and have emerged as a parameter-efficient route to scaling compute in language models. However, at fixed FLOPs a looped model has strictly less capacity than a baseline transformer. We propose a novel dual-path block that can flexibly scale compute, the number of sequential operations applied to a hidden state, and capacity, the parameters available at a single step. For this we expose both axes as parallel pathways within a single layer: a deep sublayer re-applied K times with shared parameters, and a wide sublayer with an enlarged feed-forward network applied once. Independent per-token gates combine both axes and allow detailed per-token routing analyses. We show that across two FLOP budgets, our dual-path model surpasses iso-FLOP matched models on language modeling and downstream evaluations, while using fewer parameters than the baseline at matched FLOPs. The learned gates are directly interpretable and show systematic per-token allocation with function words and lexical content trend wide, while punctuation, symbols, and arithmetic tokens trend deep.
- Abstract(参考訳): ループ変換器は共有ブロックを複数回適用し、言語モデルの計算をスケールするためのパラメータ効率の高いルートとして登場した。
しかし、固定FLOPでは、ループモデルの容量はベースライン変換器よりも厳密に少ない。
本稿では,計算を柔軟にスケールできる新しいデュアルパスブロック,隠れ状態に適用するシーケンシャルな演算数,単一ステップで利用可能なパラメータであるキャパシティを提案する。
このために、我々は両方の軸を単一の層内の平行経路として公開する: 深いサブレイヤが共有パラメータでK回再適用され、フィードフォワードネットワークが拡張されたワイドサブレイヤが一度適用された。
独立したトーケンゲートは、両方の軸を結合し、トーケン毎の詳細なルーティング分析を可能にする。
2つのFLOP予算において、我々のデュアルパスモデルは、一致したFLOPのベースラインよりも少ないパラメータを使用しながら、言語モデルや下流評価において一致したイソ-FLOPモデルを上回ることを示す。
学習されたゲートは直接解釈可能であり、関数語と語彙内容の傾向が広く、句読点、記号、算術トークンが深い傾向を示す。
関連論文リスト
- Latent Recurrent Transformer: Architecture Exploration, Training Strategies, and Scaling Behavior [107.2098567818173]
Latent Recurrent Transformer (LRT) は自己回帰変換器の軽量化である。
LRTは、次のトークンのリカレントメモリとして、前のトークンから高レベルなソース層隠れステートを再利用する。
論文 参考訳(メタデータ) (2026-05-26T10:10:26Z) - LINA: Linear Autoregressive Image Generative Models with Continuous Tokens [56.80443965097921]
連続トークンを持つ自己回帰モデルは、特にテキスト・トゥ・イメージ(T2I)合成において、視覚生成に有望なパラダイムを形成する。
このフレームワーク内での計算効率のよい線形アテンションの設計法について検討する。
LINAは、線形注意に基づくシンプルで計算効率の良いT2Iモデルであり、ユーザ命令から高忠実度1024x1024画像を生成することができる。
論文 参考訳(メタデータ) (2026-01-30T06:44:33Z) - VersatileFFN: Achieving Parameter Efficiency in LLMs via Adaptive Wide-and-Deep Reuse [45.255254030425846]
We propose VersatileFFN, a novel feed-forward network that enables flexible use of parameters in width and depth dimensions。
困難を意識したゲーティングは、2つの経路を動的にバランスさせ、効率的な幅方向の経路を「簡単」トークンを操り、より深い反復的な洗練を「ハード」トークンに割り当てる。
多様なベンチマークとモデルスケールによる実験は、この方法の有効性を実証している。
論文 参考訳(メタデータ) (2025-12-16T16:08:23Z) - Multiverse: Your Language Models Secretly Decide How to Parallelize and Merge Generation [20.117825519637357]
並列生成が可能な新しい生成モデルであるMultiverseを導入する。
次に,データ,アルゴリズム,システムの共設計キュレーションを用いた実世界のマルチバース推論モデルを構築した。
データ作成のために,自動LLM支援パイプラインであるMultiverse Curatorを開発した。
また、並列推論をサポートするために、Multiverse Engineを実装しています。
論文 参考訳(メタデータ) (2025-06-11T17:59:23Z) - Accelerating Diffusion LLMs via Adaptive Parallel Decoding [60.407727995313074]
並列にサンプリングされたトークンの数を動的に調整する新しい手法であるアダプティブ並列復号法(APD)を導入する。
APDは、ダウンストリームベンチマークで最小限の品質劣化を伴って、非常に高いスループットを提供する。
論文 参考訳(メタデータ) (2025-05-31T06:10:10Z) - Ladder-residual: parallelism-aware architecture for accelerating large model inference with communication overlapping [36.71999572939612]
すべての残差ベースモデルに適用可能な,シンプルなアーキテクチャ変更であるLadder Residualを紹介する。
Ladder Residualをすべてのレイヤに適用することで、TPシャーディングを8デバイス以上使用することで、推論時にエンドツーエンドのウォールクロックを29%高速化することができる。
1Bおよび3Bラダー変換器をスクラッチからトレーニングし、標準の高密度変圧器ベースラインに匹敵する性能を観測する。
論文 参考訳(メタデータ) (2025-01-11T17:06:30Z) - 2BP: 2-Stage Backpropagation [0.0]
本稿では2段階バックプロパゲーション(2BP)を紹介する。
後方伝播ステップを2つの別々のステージに分割することで、アイドル計算時間を短縮できる。
2BPでは従来の手法に比べてスループットが1.70倍向上した。
論文 参考訳(メタデータ) (2024-05-28T11:02:01Z) - The Languini Kitchen: Enabling Language Modelling Research at Different
Scales of Compute [66.84421705029624]
本稿では,アクセル時間で測定された等価計算に基づくモデル比較を可能にする実験的プロトコルを提案する。
私たちは、既存の学術的ベンチマークを上回り、品質、多様性、文書の長さで上回る、大規模で多様で高品質な書籍データセットを前処理します。
この研究は、GPT-2アーキテクチャから派生したフィードフォワードモデルと、10倍のスループットを持つ新しいLSTMの形式でのリカレントモデルという2つのベースラインモデルも提供する。
論文 参考訳(メタデータ) (2023-09-20T10:31:17Z) - PSLT: A Light-weight Vision Transformer with Ladder Self-Attention and
Progressive Shift [139.17852337764586]
Vision Transformer (ViT) は、長距離依存をモデル化できるため、様々な視覚的タスクに対して大きな可能性を示している。
本稿では,複数の枝を持つラダー自己保持ブロックと,軽量トランスフォーマーバックボーンを開発するためのプログレッシブシフト機構を提案する。
論文 参考訳(メタデータ) (2023-04-07T05:21:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。