論文の概要: Mechanistic Design and Scaling of Hybrid Architectures
- arxiv url: http://arxiv.org/abs/2403.17844v2
- Date: Mon, 19 Aug 2024 17:26:18 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-21 03:17:53.302634
- Title: Mechanistic Design and Scaling of Hybrid Architectures
- Title(参考訳): ハイブリッドアーキテクチャの力学設計とスケーリング
- Authors: Michael Poli, Armin W Thomas, Eric Nguyen, Pragaash Ponnusamy, Björn Deiseroth, Kristian Kersting, Taiji Suzuki, Brian Hie, Stefano Ermon, Christopher Ré, Ce Zhang, Stefano Massaroli,
- Abstract要約: 我々は、様々な計算プリミティブから構築された新しいハイブリッドアーキテクチャを特定し、テストする。
本研究では,大規模計算最適法則と新しい状態最適スケーリング法則解析を用いて,結果のアーキテクチャを実験的に検証する。
我々は,MAD合成法と計算-最適パープレキシティを相関させ,新しいアーキテクチャの正確な評価を可能にする。
- 参考スコア(独自算出の注目度): 114.3129802943915
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The development of deep learning architectures is a resource-demanding process, due to a vast design space, long prototyping times, and high compute costs associated with at-scale model training and evaluation. We set out to simplify this process by grounding it in an end-to-end mechanistic architecture design (MAD) pipeline, encompassing small-scale capability unit tests predictive of scaling laws. Through a suite of synthetic token manipulation tasks such as compression and recall, designed to probe capabilities, we identify and test new hybrid architectures constructed from a variety of computational primitives. We experimentally validate the resulting architectures via an extensive compute-optimal and a new state-optimal scaling law analysis, training over 500 language models between 70M to 7B parameters. Surprisingly, we find MAD synthetics to correlate with compute-optimal perplexity, enabling accurate evaluation of new architectures via isolated proxy tasks. The new architectures found via MAD, based on simple ideas such as hybridization and sparsity, outperform state-of-the-art Transformer, convolutional, and recurrent architectures (Transformer++, Hyena, Mamba) in scaling, both at compute-optimal budgets and in overtrained regimes. Overall, these results provide evidence that performance on curated synthetic tasks can be predictive of scaling laws, and that an optimal architecture should leverage specialized layers via a hybrid topology.
- Abstract(参考訳): ディープラーニングアーキテクチャの開発は、膨大な設計スペース、長いプロトタイピング時間、大規模モデルのトレーニングと評価に関連する高い計算コストのため、リソース要求のプロセスである。
我々は、これをエンドツーエンドのメカニスティックアーキテクチャ設計(MAD)パイプラインで基盤化し、スケール法則を予測できる小規模機能ユニットテストを含むことにより、このプロセスを単純化することにした。
様々な計算プリミティブから構築された新しいハイブリッドアーキテクチャを特定し,テストする。
我々は,70Mから7Bパラメータの500以上の言語モデルをトレーニングし,計算最適化と新しい状態最適スケーリング法則解析によって得られたアーキテクチャを実験的に検証した。
驚くべきことに、MAD合成は計算最適パープレキシティと相関し、分離されたプロキシタスクによる新しいアーキテクチャの正確な評価を可能にする。
MADによって発見された新しいアーキテクチャは、ハイブリダイゼーションやスパーシリティといった単純なアイデアに基づいて、計算最適化予算と過度にトレーニングされたレシエーションの両方において、スケーリングにおいて、最先端のTransformer、畳み込み、反復アーキテクチャ(Transformer++、Hyena、Mamba)より優れています。
全体として、これらの結果は、計算済みの合成タスクの性能がスケーリング法則の予測可能であり、最適なアーキテクチャはハイブリッドトポロジーを介して特殊な層を利用するべきであることを示す。
関連論文リスト
- AsCAN: Asymmetric Convolution-Attention Networks for Efficient Recognition and Generation [48.82264764771652]
本稿では,畳み込みブロックと変圧器ブロックを組み合わせたハイブリッドアーキテクチャAsCANを紹介する。
AsCANは、認識、セグメンテーション、クラス条件画像生成など、さまざまなタスクをサポートしている。
次に、同じアーキテクチャをスケールして、大規模なテキスト・イメージタスクを解決し、最先端のパフォーマンスを示す。
論文 参考訳(メタデータ) (2024-11-07T18:43:17Z) - A Realistic Simulation Framework for Analog/Digital Neuromorphic Architectures [73.65190161312555]
ARCANAは、混合信号ニューロモルフィック回路の特性を考慮に入れたスパイクニューラルネットワークシミュレータである。
その結果,ソフトウェアでトレーニングしたスパイクニューラルネットワークの挙動を,信頼性の高い推定結果として提示した。
論文 参考訳(メタデータ) (2024-09-23T11:16:46Z) - Neural Architecture Codesign for Fast Bragg Peak Analysis [1.7081438846690533]
我々は,高速かつリアルタイムなブラッグピーク解析のためのニューラルネットワーク符号の合理化のための自動パイプラインを開発した。
我々の手法では、ハードウェアコストを含むこれらのモデルを強化するために、ニューラルアーキテクチャ検索とAutoMLを使用し、よりハードウェア効率の良いニューラルアーキテクチャの発見に繋がる。
論文 参考訳(メタデータ) (2023-12-10T19:42:18Z) - Model-to-Circuit Cross-Approximation For Printed Machine Learning
Classifiers [4.865819809855699]
プリントエレクトロニクス(PE)は、オンデマンド製造、低い非再帰エンジニアリングコスト、サブセント製造コストを約束する。
PEにおける大きな特徴サイズは、PEにおける複雑なMLモデルの実現を禁止している。
本稿では,PEにおける複雑なMLモデルを実現するため,自動層間近似フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-14T22:11:34Z) - FlowNAS: Neural Architecture Search for Optical Flow Estimation [65.44079917247369]
本研究では,フロー推定タスクにおいて,より優れたエンコーダアーキテクチャを自動で見つけるために,FlowNASというニューラルアーキテクチャ探索手法を提案する。
実験の結果、スーパーネットワークから受け継いだ重み付きアーキテクチャは、KITTI上で4.67%のF1-allエラーを達成していることがわかった。
論文 参考訳(メタデータ) (2022-07-04T09:05:25Z) - Hysteretic Behavior Simulation Based on Pyramid Neural
Network:Principle, Network Architecture, Case Study and Explanation [0.0]
ニューラルネットワークに基づく代理モデルでは、効率と精度のバランスをとる大きな可能性を示している。
単一レベルの特徴に基づく連続的な情報フローと予測は、ネットワーク性能に悪影響を及ぼす。
ここでは重み付けされたピラミッドニューラルネットワークアーキテクチャを提案する。
論文 参考訳(メタデータ) (2022-04-29T16:42:00Z) - The Nonlinearity Coefficient -- A Practical Guide to Neural Architecture
Design [3.04585143845864]
我々は、アーキテクチャが比較的高いテストやトレーニング後のタスクのトレーニングエラーを達成できるかどうかを、トレーニングなしで予測できる手法を開発する。
その後、アーキテクチャ定義自体の観点でエラーを説明し、アーキテクチャを変更するツールを開発します。
最初の大きな貢献は、ニューラルネットワークアーキテクチャの'非線形性の度合い'がそのパフォーマンスの背後にある重要な因果的要因であることを示すことです。
論文 参考訳(メタデータ) (2021-05-25T20:47:43Z) - STONNE: A Detailed Architectural Simulator for Flexible Neural Network
Accelerators [5.326345912766044]
STONNEはサイクル精度が高く、高度にモジュール化され、高度に拡張可能なシミュレーションフレームワークである。
一般に公開されているBSV符号化MAERIの実装の性能結果にどのように近づくかを示す。
論文 参考訳(メタデータ) (2020-06-10T19:20:52Z) - A Semi-Supervised Assessor of Neural Architectures [157.76189339451565]
我々は、ニューラルネットワークの有意義な表現を見つけるためにオートエンコーダを用いる。
アーキテクチャの性能を予測するために、グラフ畳み込みニューラルネットワークを導入する。
論文 参考訳(メタデータ) (2020-05-14T09:02:33Z) - Stage-Wise Neural Architecture Search [65.03109178056937]
ResNetやNASNetのような現代の畳み込みネットワークは、多くのコンピュータビジョンアプリケーションで最先端の結果を得た。
これらのネットワークは、同じ解像度で表現を操作するレイヤのセットであるステージで構成されている。
各ステージにおけるレイヤー数の増加はネットワークの予測能力を向上させることが示されている。
しかし、結果として得られるアーキテクチャは、浮動小数点演算、メモリ要求、推論時間の観点から計算的に高価になる。
論文 参考訳(メタデータ) (2020-04-23T14:16:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。