論文の概要: Composer: A Search Framework for Hybrid Neural Architecture Design
- arxiv url: http://arxiv.org/abs/2510.00379v1
- Date: Wed, 01 Oct 2025 00:51:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:20.306644
- Title: Composer: A Search Framework for Hybrid Neural Architecture Design
- Title(参考訳): Composer: ハイブリッドニューラルネットワーク設計のための検索フレームワーク
- Authors: Bilge Acun, Prasoon Sinha, Newsha Ardalani, Sangmin Bae, Alicia Golden, Chien-Yu Lin, Meghana Madhyastha, Fei Sun, Neeraja J. Yadwadkar, Carole-Jean Wu,
- Abstract要約: 計算プリミティブを異なる比率で組み合わせたハイブリッドモデルアーキテクチャは、トランスフォーマーを超える有望な性能を示している。
モジュール型ハイブリッドモデルアーキテクチャ検索フレームワークであるComposerの設計において、原則化されたアプローチを取ります。
Composer を用いて,Llama 3.2 より優れたハイブリッド LLM アーキテクチャを新たに発見する。
- 参考スコア(独自算出の注目度): 15.254101403488562
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Hybrid model architectures that combine computational primitives (e.g., Attention, MLP) in different ratios have shown promising performance beyond Transformers. Some studies have shown that different interleavings of primitives can affect model quality as well. However, prior works explore the hybrid model architecture design space manually. Due to the large design space and training costs, discovering hybrid models that combine key computational primitives for pre-training is challenging. In this work, we take a principled approach in designing a modular hybrid model architecture search framework -- Composer. Composer explores model architectures at a small scale and extrapolates the top-performing model architectures to a larger scale using our proposed scaling strategies. Using Composer, we discover new hybrid LLM architectures that outperform Llama 3.2. Compared to Llama 3.2 and previous state-of-the-art baselines, the new model architectures consistently reduce validation loss at parameter scales of 350M-3B and improve evaluation accuracy on the downstream tasks by up to 2.8-8.3% (1.1-3.1% on average) while improving both training and inference efficiency.
- Abstract(参考訳): 計算プリミティブ(例えば、注意、MLP)を異なる比率で組み合わせたハイブリッドモデルアーキテクチャは、トランスフォーマーを超える有望な性能を示している。
いくつかの研究は、プリミティブの異なるインターリービングがモデルの品質にも影響を及ぼすことを示した。
しかしながら、先行研究は、手動でハイブリッドモデルアーキテクチャ設計空間を探索する。
大規模な設計スペースとトレーニングコストのため、事前学習のために重要な計算プリミティブを組み合わせたハイブリッドモデルを見つけることは困難である。
本研究では,モジュール型ハイブリッドモデルアーキテクチャ検索フレームワークであるComposerの設計において,原則的なアプローチをとる。
Composerは、小規模でモデルアーキテクチャを探索し、提案したスケーリング戦略を用いて、最高のパフォーマンスのモデルアーキテクチャを大規模に外挿する。
Composer を用いて,Llama 3.2 より優れたハイブリッド LLM アーキテクチャを新たに発見する。
Llama 3.2や以前の最先端のベースラインと比較して、新しいモデルアーキテクチャは350M-3Bのパラメータスケールでの検証損失を一貫して減らし、下流タスクの評価精度を2.8-8.3%(平均1.1-3.1%)改善し、トレーニングと推論効率を改善した。
関連論文リスト
- Exploring Diffusion Transformer Designs via Grafting [82.91123758506876]
計算予算の少ない新しいアーキテクチャを実現するために,事前に訓練された拡散変換器(DiT)を編集する簡単な手法であるグラフト方式を提案する。
演算子置換からアーキテクチャ再構成に至るまで,事前訓練したDiTをグラフトすることで,新しい拡散モデルの設計を探索できることが示されている。
論文 参考訳(メタデータ) (2025-06-05T17:59:40Z) - STAR: Synthesis of Tailored Architectures [61.080157488857516]
本稿では, 適合型アーキテクチャ (STAR) の新規な合成手法を提案する。
提案手法は線形入力可変系の理論に基づく新しい探索空間を結合し,階層的な数値エンコーディングをアーキテクチャゲノムに支持する。STARゲノムは,複数のモデル品質と効率の指標に最適化するために,勾配のない進化的アルゴリズムで自動的に精製・組換えされる。
STARを用いて、多種多様な計算単位と相互接続パターンを活用し、品質、パラメータサイズ、および自動回帰言語モデリングのための推論キャッシュのフロンティアにおける高度に最適化されたトランスフォーマーとストライプハイブリッドモデルを改善する。
論文 参考訳(メタデータ) (2024-11-26T18:42:42Z) - Towards Automated Model Design on Recommender Systems [21.421326082345136]
重量共有を利用して豊富な解空間を探索する新しいパラダイムを導入する。
共同設計の観点からは,2倍FLOPs効率,1.8倍エネルギー効率,1.5倍の性能向上を実現している。
論文 参考訳(メタデータ) (2024-11-12T06:03:47Z) - Exploring the design space of deep-learning-based weather forecasting systems [56.129148006412855]
本稿では,異なる設計選択がディープラーニングに基づく天気予報システムに与える影響を系統的に分析する。
UNet、完全畳み込みアーキテクチャ、トランスフォーマーベースモデルなどの固定グリッドアーキテクチャについて検討する。
固定グリッドモデルの強靭な性能とグリッド不変アーキテクチャの柔軟性を組み合わせたハイブリッドシステムを提案する。
論文 参考訳(メタデータ) (2024-10-09T22:25:50Z) - HM3: Hierarchical Multi-Objective Model Merging for Pretrained Models [28.993221775758702]
モデルマージ(英: Model merging)は、複数の大きな事前訓練されたモデルを単一のモデルに組み合わせ、パフォーマンスを向上し、タスク適応性を高める手法である。
本稿では,よりフレキシブルで包括的なモデルマージ技術への大きな進歩を示す。
我々は、重みベクトルのオフラインサンプリングを用いてポリシーと価値ネットワークを訓練し、マージ戦略のオンライン最適化に使用される。
論文 参考訳(メタデータ) (2024-09-27T16:31:31Z) - Mechanistic Design and Scaling of Hybrid Architectures [114.3129802943915]
我々は、様々な計算プリミティブから構築された新しいハイブリッドアーキテクチャを特定し、テストする。
本研究では,大規模計算最適法則と新しい状態最適スケーリング法則解析を用いて,結果のアーキテクチャを実験的に検証する。
我々は,MAD合成法と計算-最適パープレキシティを相関させ,新しいアーキテクチャの正確な評価を可能にする。
論文 参考訳(メタデータ) (2024-03-26T16:33:12Z) - Slimmable Domain Adaptation [112.19652651687402]
重み付けモデルバンクを用いて、ドメイン間の一般化を改善するためのシンプルなフレームワーク、Slimmable Domain Adaptationを導入する。
私たちのフレームワークは、他の競合するアプローチを、複数のベンチマークにおいて非常に大きなマージンで上回ります。
論文 参考訳(メタデータ) (2022-06-14T06:28:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。