論文の概要: DASH: Fast Differentiable Architecture Search for Hybrid Attention in Minutes on a Single GPU
- arxiv url: http://arxiv.org/abs/2605.20936v1
- Date: Wed, 20 May 2026 09:21:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-21 19:19:56.595906
- Title: DASH: Fast Differentiable Architecture Search for Hybrid Attention in Minutes on a Single GPU
- Title(参考訳): DASH: 単一GPU上での分単位でのハイブリッドアテンションのための高速な微分可能なアーキテクチャ検索
- Authors: Weizhe Chen, Miao Zhang, Junpeng Jiang, Yaping Li, Weili Guan, Liqiang Nie,
- Abstract要約: DASHはハイブリットアテンションアーキテクチャ設計のための高速で微分可能な検索フレームワークである。
個別のレイヤワイド・アテンション・オペレーターを継続的アーキテクチャ・ロジットに配置する。
再利用可能な教師整列線形候補を作成し、モデルと演算子重みを凍結したアーキテクチャのみの探索を行う。
- 参考スコア(独自算出の注目度): 62.52524380866359
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Hybrid attention architectures are becoming an increasingly important paradigm for improving LLM inference efficiency while preserving model quality, making hybrid architecture design a central problem. Existing designs often rely on manual empirical rules or proxy-based selector signals for layer-wise operator allocation. Recent NAS-style systems such as Jet-Nemotron demonstrate the promise of automated hybrid architecture search. However, Jet-Nemotron's PostNAS search stages alone use 200B tokens, making such search pipelines difficult to use as routine methods for hybrid architecture design. We introduce DASH, a fast differentiable search framework for hybrid attention architecture design, which relaxes discrete layer-wise attention operator placement into continuous architecture logits, prepares reusable teacher-aligned linear candidates, and performs architecture-only search with model and operator weights frozen to significantly enhance search efficiency. On Qwen2.5-3B-Instruct, DASH consistently outperforms a comprehensive suite of existing selector-style hybrid attention design baselines, showing that direct differentiable search can discover stronger hybrid architectures. Moreover, DASH achieves stronger RULER performance than released Jet-Nemotron models while remaining competitive on overlapping short-context and general benchmarks. Notably, each DASH search run uses only 12.3M tokens and takes about 20 minutes on a single RTX Pro 6000 GPU, corresponding to merely 0.006% of the PostNAS search tokens reported by Jet-Nemotron. These results suggest that high-quality hybrid attention architectures can be obtained through minutes-level differentiable search, providing a promising direction for hybrid architecture design.
- Abstract(参考訳): ハイブリッドアテンションアーキテクチャは、モデル品質を維持しながらLLM推論効率を向上させるための重要なパラダイムとなりつつあり、ハイブリッドアーキテクチャ設計が中心的な問題となっている。
既存の設計は、しばしばレイヤーワイド演算子割り当てのための手動経験則やプロキシベースのセレクタ信号に依存している。
最近のNASスタイルのシステムであるJet-Nemotronは、自動ハイブリッドアーキテクチャサーチの可能性を実証している。
しかし、Jet-NemotronのPostNASサーチステージは200Bトークンのみを使用しており、このようなサーチパイプラインをハイブリッドアーキテクチャ設計のルーチン手法として使うのが困難である。
DASHはハイブリットアテンションアーキテクチャ設計のための高速な微分可能な検索フレームワークであり、連続的なアーキテクチャロジットへの個別のレイヤーワイズ演算子配置を緩和し、再利用可能な教師整列線形候補を作成し、探索効率を大幅に向上するためにモデルと演算子重みを凍結したアーキテクチャのみの探索を行う。
Qwen2.5-3B-Instructでは、DASHは既存のセレクタスタイルのハイブリッドアテンション設計ベースラインの包括的スイートよりも優れており、直接微分可能な検索がより強力なハイブリッドアーキテクチャを発見できることを示している。
さらに、DASHはリリースしたJet-Nemotronモデルよりも強力なRULER性能を達成しつつ、オーバーラップしたショートコンテクストと一般的なベンチマークで競争力を維持する。
注目すべきは、各DASHサーチランは12.3Mトークンしか使用せず、単一のRTX Pro 6000 GPUで約20分かかり、Jet-Nemotronが報告したPostNASサーチトークンの0.006%に相当する。
これらの結果から,高品質なハイブリットアテンションアーキテクチャは分レベルの微分可能探索によって得られることが示唆され,ハイブリットアテンションアーキテクチャ設計における有望な方向性が示唆された。
関連論文リスト
- EM-DARTS: Hierarchical Differentiable Architecture Search for Eye Movement Recognition [20.209756662832365]
微分可能なニューラルアーキテクチャサーチ(DARTS)は、高い探索効率でアーキテクチャ設計のマニュアルプロセスを自動化する。
眼球運動認識のためのDLアーキテクチャを自動設計する階層的微分可能なアーキテクチャ探索アルゴリズムEM-DARTSを提案する。
EM-DARTSは、最先端の認識性能につながる最適なアーキテクチャを実現できることを示す。
論文 参考訳(メタデータ) (2024-09-22T13:11:08Z) - Multi-conditioned Graph Diffusion for Neural Architecture Search [8.290336491323796]
本稿では、離散的な条件付きグラフ拡散プロセスを用いて、高性能ニューラルネットワークアーキテクチャを生成するグラフ拡散に基づくNAS手法を提案する。
6つの標準ベンチマークで有望な結果を示し、新しいアーキテクチャとユニークなアーキテクチャを高速に実現します。
論文 参考訳(メタデータ) (2024-03-09T21:45:31Z) - BossNAS: Exploring Hybrid CNN-transformers with Block-wisely
Self-supervised Neural Architecture Search [100.28980854978768]
BossNAS(Block-wisely Self-supervised Neural Architecture Search)の紹介
探索空間をブロックに分類し、アンサンブルブートストラッピングと呼ばれる新しい自己教師型トレーニングスキームを用いて各ブロックを個別に訓練する。
また,検索可能なダウンサンプリング位置を持つファブリック型cnnトランスフォーマ検索空間であるhytra search spaceを提案する。
論文 参考訳(メタデータ) (2021-03-23T10:05:58Z) - CM-NAS: Cross-Modality Neural Architecture Search for Visible-Infrared
Person Re-Identification [102.89434996930387]
VI-ReIDは、暗い環境での単一モダリティ人物ReIDの制限を突破し、クロスモダリティ歩行者のイメージを一致させることを目指しています。
既存の作品は、さまざまな2ストリームアーキテクチャを手動で設計して、モダリティ固有およびモダリティシャーブル表現を別々に学習する。
CM-NAS(Cross-Modality Neural Architecture Search)という手法を提案する。
論文 参考訳(メタデータ) (2021-01-21T07:07:00Z) - Towards Automated Neural Interaction Discovery for Click-Through Rate
Prediction [64.03526633651218]
CTR(Click-Through Rate)予測は、レコメンダシステムにおいて最も重要な機械学習タスクの1つである。
本稿では,AutoCTR と呼ばれる CTR 予測のための自動インタラクションアーキテクチャ探索フレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-29T04:33:01Z) - Fine-Grained Stochastic Architecture Search [6.277767522867666]
Fine-Grained Architecture Search (FiGS) は、より大きな候補アーキテクチャの集合を探索する微分可能な検索手法である。
FiGSは、構造化スパース正規化ペナルティを適用して、検索空間内の演算子を同時に選択・変更する。
既存の3つの検索空間にまたがって結果を示し、元の検索アルゴリズムのマッチングや性能を向上する。
論文 参考訳(メタデータ) (2020-06-17T01:04:14Z) - AlphaGAN: Fully Differentiable Architecture Search for Generative
Adversarial Networks [15.740179244963116]
GAN (Generative Adversarial Networks) はミニマックスゲーム問題として定式化され、ジェネレータは差別者に対する対戦学習によって実際のデータ分布にアプローチしようとする。
本研究は,ネットワークアーキテクチャの観点からのモデル学習を促進することを目的として,GANに自動アーキテクチャ探索の最近の進歩を取り入れた。
我々は,αGANと呼ばれる,生成的敵ネットワークのための,完全に差別化可能な検索フレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-16T13:27:30Z) - DDPNAS: Efficient Neural Architecture Search via Dynamic Distribution
Pruning [135.27931587381596]
DDPNASと呼ばれる効率よく統一されたNASフレームワークを提案する。
検索空間は動的に切断され,その分布はいくつかのエポック毎に更新される。
提案した効率的なネットワーク生成手法により,与えられた制約に対する最適なニューラルネットワークアーキテクチャを直接取得する。
論文 参考訳(メタデータ) (2019-05-28T06:35:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。