論文の概要: STAR: Synthesis of Tailored Architectures
- arxiv url: http://arxiv.org/abs/2411.17800v1
- Date: Tue, 26 Nov 2024 18:42:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-28 15:28:55.532557
- Title: STAR: Synthesis of Tailored Architectures
- Title(参考訳): STAR:台座建築の合成
- Authors: Armin W. Thomas, Rom Parnichkun, Alexander Amini, Stefano Massaroli, Michael Poli,
- Abstract要約: 本稿では, 適合型アーキテクチャ (STAR) の新規な合成手法を提案する。
提案手法は線形入力可変系の理論に基づく新しい探索空間を結合し,階層的な数値エンコーディングをアーキテクチャゲノムに支持する。STARゲノムは,複数のモデル品質と効率の指標に最適化するために,勾配のない進化的アルゴリズムで自動的に精製・組換えされる。
STARを用いて、多種多様な計算単位と相互接続パターンを活用し、品質、パラメータサイズ、および自動回帰言語モデリングのための推論キャッシュのフロンティアにおける高度に最適化されたトランスフォーマーとストライプハイブリッドモデルを改善する。
- 参考スコア(独自算出の注目度): 61.080157488857516
- License:
- Abstract: Iterative improvement of model architectures is fundamental to deep learning: Transformers first enabled scaling, and recent advances in model hybridization have pushed the quality-efficiency frontier. However, optimizing architectures remains challenging and expensive. Current automated or manual approaches fall short, largely due to limited progress in the design of search spaces and due to the simplicity of resulting patterns and heuristics. In this work, we propose a new approach for the synthesis of tailored architectures (STAR). Our approach combines a novel search space based on the theory of linear input-varying systems, supporting a hierarchical numerical encoding into architecture genomes. STAR genomes are automatically refined and recombined with gradient-free, evolutionary algorithms to optimize for multiple model quality and efficiency metrics. Using STAR, we optimize large populations of new architectures, leveraging diverse computational units and interconnection patterns, improving over highly-optimized Transformers and striped hybrid models on the frontier of quality, parameter size, and inference cache for autoregressive language modeling.
- Abstract(参考訳): トランスフォーマーが最初にスケーリングを実現し、モデルハイブリダイゼーションの最近の進歩は、品質と効率のフロンティアを押し上げました。
しかし、アーキテクチャの最適化は依然として困難でコストがかかる。
現在の自動的あるいは手動的なアプローチは、主に検索空間の設計の進歩が限られており、結果として生じるパターンやヒューリスティックが単純になったため、不足している。
そこで本研究では,Stored Architectures (STAR) の合成のための新しいアプローチを提案する。
提案手法は線形入力可変系の理論に基づく新しい検索空間を結合し,階層的な数値エンコーディングをアーキテクチャゲノムへ支援する。
STARゲノムは自動的に精製され、複数のモデルの品質と効率の指標に最適化するために勾配のない進化的アルゴリズムと組み合わされる。
STARを用いて、多種多様な計算単位と相互接続パターンを活用し、品質、パラメータサイズ、および自動回帰言語モデリングのための推論キャッシュのフロンティアにおける高度に最適化されたトランスフォーマーとストライプハイブリッドモデルを改善する。
関連論文リスト
- Towards Automated Model Design on Recommender Systems [21.421326082345136]
重量共有を利用して豊富な解空間を探索する新しいパラダイムを導入する。
共同設計の観点からは,2倍FLOPs効率,1.8倍エネルギー効率,1.5倍の性能向上を実現している。
論文 参考訳(メタデータ) (2024-11-12T06:03:47Z) - Automatically Learning Hybrid Digital Twins of Dynamical Systems [56.69628749813084]
Digital Twins (DT)は、現実世界のシステムの状態と時間力学をシミュレートする。
DTは、しばしばデータスカース設定で目に見えない条件に一般化するのに苦労します。
本稿では,HDTwinsを自律的に提案し,評価し,最適化するための進化的アルゴリズム(textbfHDTwinGen$)を提案する。
論文 参考訳(メタデータ) (2024-10-31T07:28:22Z) - Mechanistic Design and Scaling of Hybrid Architectures [114.3129802943915]
我々は、様々な計算プリミティブから構築された新しいハイブリッドアーキテクチャを特定し、テストする。
本研究では,大規模計算最適法則と新しい状態最適スケーリング法則解析を用いて,結果のアーキテクチャを実験的に検証する。
我々は,MAD合成法と計算-最適パープレキシティを相関させ,新しいアーキテクチャの正確な評価を可能にする。
論文 参考訳(メタデータ) (2024-03-26T16:33:12Z) - Orchid: Flexible and Data-Dependent Convolution for Sequence Modeling [4.190836962132713]
本稿では,従来の注意機構の2次複雑さに対処する新しいアーキテクチャであるOrchidを紹介する。
このアーキテクチャのコアには、新しいデータ依存のグローバル畳み込み層があり、入力シーケンスに条件付きカーネルを文脈的に適応させる。
言語モデリングや画像分類など,複数の領域にまたがるモデルの評価を行い,その性能と汎用性を強調した。
論文 参考訳(メタデータ) (2024-02-28T17:36:45Z) - Hybrid State Space-based Learning for Sequential Data Prediction with
Joint Optimization [0.0]
本稿では,従来の非線形予測モデルにおいて,ドメイン固有の特徴工学的問題の必要性を緩和するハイブリッドモデルを提案する。
基本モデルに対する新しい状態空間表現を導入し、ハイブリッドやアンサンブルの完全な状態空間表現を提供する。
このような新しい組み合わせと共同最適化により、広く公開されている実生活競合データセットの大幅な改善が示された。
論文 参考訳(メタデータ) (2023-09-19T12:00:28Z) - XVoxel-Based Parametric Design Optimization of Feature Models [11.32057097341898]
本稿では,XVoxelsと呼ばれる統一モデル表現スキームに基づくパラメトリック最適化手法を提案する。
提案手法は, その有効性を示すために, 複雑さの増大に関する一連のケーススタディにより検証された。
論文 参考訳(メタデータ) (2023-03-17T13:07:12Z) - Diffusing the Optimal Topology: A Generative Optimization Approach [6.375982344506753]
トポロジ最適化は、システム性能を最大化しながら制約セットを満たす最良の設計を見つけようとしている。
SIMPのような従来の反復最適化手法は計算コストがかかり、ローカルのミニマに留まることがある。
本研究では、SIMPのような古典最適化を深い生成モデルによって生成されるトポロジの精製機構として統合する生成最適化手法を提案する。
論文 参考訳(メタデータ) (2023-03-17T03:47:10Z) - Slimmable Domain Adaptation [112.19652651687402]
重み付けモデルバンクを用いて、ドメイン間の一般化を改善するためのシンプルなフレームワーク、Slimmable Domain Adaptationを導入する。
私たちのフレームワークは、他の競合するアプローチを、複数のベンチマークにおいて非常に大きなマージンで上回ります。
論文 参考訳(メタデータ) (2022-06-14T06:28:04Z) - Re-parameterizing Your Optimizers rather than Architectures [119.08740698936633]
本稿では,モデル固有の事前知識を構造学に取り入れ,汎用モデル(簡易モデル)の学習に使用する新しいパラダイムを提案する。
実装として,モデル固有のハイパーパラメータの集合に従って勾配を変更することによって,事前知識を付加する手法を提案する。
Reprでトレーニングされた単純なモデルに対しては、VGGスタイルのプレーンモデルに注目し、ReprでトレーニングされたそのようなシンプルなモデルがRep-VGGと呼ばれ、最近のよく設計されたモデルと同等に動作することを示す。
論文 参考訳(メタデータ) (2022-05-30T16:55:59Z) - AutoBERT-Zero: Evolving BERT Backbone from Scratch [94.89102524181986]
そこで本稿では,提案するハイブリッドバックボーンアーキテクチャを自動検索するOP-NASアルゴリズムを提案する。
提案するOP-NASの効率を向上させるために,探索アルゴリズムと候補モデルの評価を最適化する。
実験の結果、検索されたアーキテクチャ(AutoBERT-Zero)は、様々な下流タスクにおいてBERTとそのバリエーションの異なるモデル容量を著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2021-07-15T16:46:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。