論文の概要: Pretrained Hybrids with MAD Skills
- arxiv url: http://arxiv.org/abs/2406.00894v1
- Date: Sun, 2 Jun 2024 23:24:30 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-06 02:56:53.366213
- Title: Pretrained Hybrids with MAD Skills
- Title(参考訳): MADスキルを有するプレトレーニングハイブリッド
- Authors: Nicholas Roberts, Samuel Guo, Zhiqi Gao, Satya Sai Srinath Namburi GNVV, Sonia Cromp, Chengjun Wu, Chengyu Duan, Frederic Sala,
- Abstract要約: 我々は、ハイブリッド設計の課題に対処するフレームワークである$textbfManticore$を提案する。
我々のアプローチは、異なるアーキテクチャから事前訓練されたブロック間で機能を変換する単純なプロジェクタを組み込むことで、差別化可能なニューラルアーキテクチャサーチ(NAS)のアイデアを強化する。
Manticoreハイブリッドは、既存の手動設計のハイブリッドよりも優れており、Long Range Arena(LRA)タスクで高いパフォーマンスを実現し、事前訓練されたトランスフォーマーや状態空間モデルを改善することができる。
- 参考スコア(独自算出の注目度): 10.842787927886919
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While Transformers underpin modern large language models (LMs), there is a growing list of alternative architectures with new capabilities, promises, and tradeoffs. This makes choosing the right LM architecture challenging. Recently-proposed $\textit{hybrid architectures}$ seek a best-of-all-worlds approach that reaps the benefits of all architectures. Hybrid design is difficult for two reasons: it requires manual expert-driven search, and new hybrids must be trained from scratch. We propose $\textbf{Manticore}$, a framework that addresses these challenges. Manticore $\textit{automates the design of hybrid architectures}$ while reusing pretrained models to create $\textit{pretrained}$ hybrids. Our approach augments ideas from differentiable Neural Architecture Search (NAS) by incorporating simple projectors that translate features between pretrained blocks from different architectures. We then fine-tune hybrids that combine pretrained models from different architecture families -- such as the GPT series and Mamba -- end-to-end. With Manticore, we enable LM selection without training multiple models, the construction of pretrained hybrids from existing pretrained models, and the ability to $\textit{program}$ pretrained hybrids to have certain capabilities. Manticore hybrids outperform existing manually-designed hybrids, achieve strong performance on Long Range Arena (LRA) tasks, and can improve on pretrained transformers and state space models.
- Abstract(参考訳): Transformersは現代の大規模言語モデル(LM)の基盤となっているが、新しい機能、約束、トレードオフを備えた代替アーキテクチャのリストが増えている。
これにより、適切なLMアーキテクチャを選択するのが難しくなります。
最近提案された$\textit{hybrid architectures}$は、すべてのアーキテクチャの利点を享受するベスト・オブ・オール・ワールドのアプローチを求めます。
ハイブリッドデザインは2つの理由から難しい。手動のエキスパート主導の検索が必要であり、新しいハイブリッドをゼロからトレーニングする必要がある。
これらの課題に対処するフレームワークである$\textbf{Manticore}$を提案する。
Manticore $\textit{automates the design of hybrid architectures$ while reusing pretrained model to create $\textit{pretrained}$ hybrids。
我々のアプローチは、異なるアーキテクチャから事前訓練されたブロック間で機能を変換する単純なプロジェクタを組み込むことで、差別化可能なニューラルアーキテクチャサーチ(NAS)のアイデアを強化する。
そして、GPTシリーズやMambaなど、さまざまなアーキテクチャファミリの事前訓練されたモデルと、エンドツーエンドのモデルを組み合わせた微調整ハイブリッドを作ります。
Manticoreでは、複数のモデルをトレーニングせずにLM選択が可能となり、既存の事前学習モデルから事前学習されたハイブリッドを構築することができ、事前学習されたハイブリッドが特定の機能を持つことができる。
Manticoreハイブリッドは、既存の手動設計のハイブリッドよりも優れており、Long Range Arena(LRA)タスクで高いパフォーマンスを実現し、事前訓練されたトランスフォーマーや状態空間モデルを改善することができる。
関連論文リスト
- Automatically Learning Hybrid Digital Twins of Dynamical Systems [56.69628749813084]
Digital Twins (DT)は、現実世界のシステムの状態と時間力学をシミュレートする。
DTは、しばしばデータスカース設定で目に見えない条件に一般化するのに苦労します。
本稿では,HDTwinsを自律的に提案し,評価し,最適化するための進化的アルゴリズム(textbfHDTwinGen$)を提案する。
論文 参考訳(メタデータ) (2024-10-31T07:28:22Z) - HM3: Hierarchical Multi-Objective Model Merging for Pretrained Models [28.993221775758702]
モデルマージ(英: Model merging)は、複数の大きな事前訓練されたモデルを単一のモデルに組み合わせ、パフォーマンスを向上し、タスク適応性を高める手法である。
本稿では,よりフレキシブルで包括的なモデルマージ技術への大きな進歩を示す。
我々は、重みベクトルのオフラインサンプリングを用いてポリシーと価値ネットワークを訓練し、マージ戦略のオンライン最適化に使用される。
論文 参考訳(メタデータ) (2024-09-27T16:31:31Z) - The Mamba in the Llama: Distilling and Accelerating Hybrid Models [76.64055251296548]
注目層からの線形射影重みを学術的なGPU資源で再利用することにより,大規模な変換器を線形RNNに蒸留することが可能であることを示す。
その結果、注意層を4分の1含むハイブリッドモデルは、チャットベンチマークのオリジナルのTransformerに匹敵するパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-08-27T17:56:11Z) - Transformers to SSMs: Distilling Quadratic Knowledge to Subquadratic Models [92.36510016591782]
本稿では,事前学習したトランスフォーマーアーキテクチャを,状態空間モデル(SSM)などの代替アーキテクチャに蒸留する手法を提案する。
提案手法はMOHAWKと呼ばれ、3Bトークンと5Bトークンを用いたハイブリッドバージョン(Hybrid Phi-Mamba)を用いてPhi-1.5アーキテクチャに基づくMamba-2変異体を蒸留することができる。
Phi-Mambaは、スクラッチからモデルのトレーニングに使用されるトレーニングデータの1%未満を使用してはいるが、過去のオープンソース非トランスフォーマーモデルと比較して、大幅にパフォーマンスが向上している。
論文 参考訳(メタデータ) (2024-08-19T17:48:11Z) - Mechanistic Design and Scaling of Hybrid Architectures [114.3129802943915]
我々は、様々な計算プリミティブから構築された新しいハイブリッドアーキテクチャを特定し、テストする。
本研究では,大規模計算最適法則と新しい状態最適スケーリング法則解析を用いて,結果のアーキテクチャを実験的に検証する。
我々は,MAD合成法と計算-最適パープレキシティを相関させ,新しいアーキテクチャの正確な評価を可能にする。
論文 参考訳(メタデータ) (2024-03-26T16:33:12Z) - eP-ALM: Efficient Perceptual Augmentation of Language Models [70.47962271121389]
本稿では,既存モデルの適応性を向上するための直接的な取り組みを提案し,認識を伴う言語モデルの拡張を提案する。
視覚言語タスクに事前訓練されたモデルを適用するための既存のアプローチは、その効率を妨げているいくつかの重要なコンポーネントに依存している。
総パラメータの99%以上を凍結し,1つの直線射影層のみをトレーニングし,1つのトレーニング可能なトークンのみを予測することにより,我々のアプローチ(eP-ALM)は,VQAとCaptioningの他のベースラインよりも有意に優れていることを示す。
論文 参考訳(メタデータ) (2023-03-20T19:20:34Z) - Learning Hybrid Interpretable Models: Theory, Taxonomy, and Methods [0.0]
ハイブリッドモデルは解釈可能なモデルと複雑なブラックボックスの協調を含む。
古典的モデルに対するそのようなモデルの利点は2倍である。
システムの透明性のレベルをユーザが正確にコントロールできる。
論文 参考訳(メタデータ) (2023-03-08T08:35:29Z) - AI-Empowered Hybrid MIMO Beamforming [85.48860461696417]
ハイブリッドマルチインプット・マルチアウトプット(MIMO)システムは、アナログおよびデジタルのビームフォーミングの一部を実装している。
近年、ハイブリッドビームフォーミング設計にデータ支援人工知能(AI)ツールを使うことへの関心が高まっている。
本稿では、リアルタイムハイブリッドビームフォーミング設計を改善するために、データを活用するための候補戦略についてレビューする。
論文 参考訳(メタデータ) (2023-03-03T06:04:20Z) - Are Pre-trained Convolutions Better than Pre-trained Transformers? [42.33244035851147]
CNNベースの事前学習モデルは競争力があり、特定のシナリオではTransformerよりも優れています。
本稿で概説した知見は,事前学習とアーキテクチャの進歩が混在していることを示唆している。
論文 参考訳(メタデータ) (2021-05-07T15:13:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。