論文の概要: Pretrained Hybrids with MAD Skills
- arxiv url: http://arxiv.org/abs/2406.00894v2
- Date: Tue, 30 Sep 2025 00:35:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-01 17:09:03.820805
- Title: Pretrained Hybrids with MAD Skills
- Title(参考訳): MADスキルを有するプレトレーニングハイブリッド
- Authors: Nicholas Roberts, Samuel Guo, Zhiqi Gao, Satya Sai Srinath Namburi GNVV, Sonia Cromp, Chengjun Wu, Chengyu Duan, Frederic Sala,
- Abstract要約: ハイブリッドアーキテクチャの設計を自動化するフレームワークであるManticoreを提案する。
次に、異なるアーキテクチャファミリーの事前訓練されたモデルを組み合わせた微調整ハイブリッドを作ります。
マンティックオーレハイブリッドは、既存の手動設計のハイブリッドと一致し、ロングレンジアリーナで強い性能を達成し、事前訓練されたトランスフォーマーを改善する。
- 参考スコア(独自算出の注目度): 16.61184383478032
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While Transformers underpin modern large language models (LMs), there is a growing list of alternative architectures with new capabilities, promises, and tradeoffs. This makes choosing the right LM architecture challenging. Recently proposed hybrid architectures seek a best-of-all-worlds approach that reaps the benefits of all architectures. Hybrid design is difficult for two reasons: it requires manual expert-driven search, and new hybrids must be trained from scratch. We propose Manticore, a framework that addresses these challenges by automating the design of hybrid architectures while reusing pretrained models to create pretrained hybrids. Our approach augments ideas from differentiable Neural Architecture Search (NAS) by incorporating simple projectors that translate features between pretrained blocks from different architectures. We then fine-tune hybrids that combine pretrained models from different architecture families -- such as the GPT series and Mamba -- end-to-end. With Manticore, we enable LM selection without training multiple models, the construction of pretrained hybrids from existing pretrained models, and the ability to program pretrained hybrids to have certain capabilities. Manticore hybrids match existing manually designed hybrids, achieve strong performance on Long Range Arena, and improve on pretrained transformers and state space models on various natural language tasks.
- Abstract(参考訳): Transformersは現代の大規模言語モデル(LM)の基盤となっているが、新しい機能、約束、トレードオフを備えた代替アーキテクチャのリストが増えている。
これにより、適切なLMアーキテクチャを選択するのが難しくなります。
最近提案されたハイブリッドアーキテクチャは、すべてのアーキテクチャの利点を享受するベスト・オブ・オール・ワールドのアプローチを求めている。
ハイブリッドデザインは2つの理由から難しい。手動のエキスパート主導の検索が必要であり、新しいハイブリッドをゼロからトレーニングする必要がある。
我々は,これらの課題に対処するフレームワークであるManticoreを提案する。
我々のアプローチは、異なるアーキテクチャから事前訓練されたブロック間で機能を変換する単純なプロジェクタを組み込むことで、差別化可能なニューラルアーキテクチャサーチ(NAS)のアイデアを強化する。
そして、GPTシリーズやMambaなど、さまざまなアーキテクチャファミリの事前訓練されたモデルと、エンドツーエンドのモデルを組み合わせた微調整ハイブリッドを作ります。
Manticoreでは、複数のモデルをトレーニングせずにLM選択を可能とし、既存の事前学習モデルから事前学習されたハイブリッドを構築し、事前学習されたハイブリッドを特定の能力でプログラムすることができる。
Manticoreハイブリッドは、既存の手動設計のハイブリッドと一致し、Long Range Arena上での強力なパフォーマンスを実現し、様々な自然言語タスクにおける事前訓練されたトランスフォーマーと状態空間モデルを改善する。
関連論文リスト
- HaploOmni: Unified Single Transformer for Multimodal Video Understanding and Generation [69.34266162474836]
本稿では,マルチモーダル理解と生成を統一する単一トランスフォーマーを構築するための,効率的なトレーニングパラダイムについて検討する。
機能事前スケーリングとマルチモーダルAdaLN技術を導入し、クロスモーダル互換性の課題に対処する。
本稿では,新しいマルチモーダルトランスであるHaplo Omniを紹介する。
論文 参考訳(メタデータ) (2025-06-03T15:14:00Z) - Efficient Hybrid Language Model Compression through Group-Aware SSM Pruning [54.584665518334035]
注意と状態空間モデル(SSM)を組み合わせたハイブリッドアーキテクチャは、最先端の精度と実行時のパフォーマンスを達成する。
近年の研究では、アテンションのみのモデルに圧縮と蒸留を適用することで、トレーニングコストのごく一部でより小さく、より正確なモデルが得られることが示されている。
本稿では,SSMブロックの構造的整合性とそのシーケンスモデリング機能を維持するグループ対応プルーニング戦略を提案する。
論文 参考訳(メタデータ) (2025-04-15T17:26:29Z) - Scaling Laws for Native Multimodal Models [53.490942903659565]
我々は、ネイティブマルチモーダルモデルのアーキテクチャ設計を再考し、広範なスケーリング法の研究を行う。
我々の調査では、早期核融合アーキテクチャよりも後期核融合アーキテクチャに固有の利点は示されていない。
また,Mixture of Experts(MoEs)を組み込むことで,モダリティ固有の重みを学習し,性能を大幅に向上できることを示す。
論文 参考訳(メタデータ) (2025-04-10T17:57:28Z) - STAR: Synthesis of Tailored Architectures [61.080157488857516]
本稿では, 適合型アーキテクチャ (STAR) の新規な合成手法を提案する。
提案手法は線形入力可変系の理論に基づく新しい探索空間を結合し,階層的な数値エンコーディングをアーキテクチャゲノムに支持する。STARゲノムは,複数のモデル品質と効率の指標に最適化するために,勾配のない進化的アルゴリズムで自動的に精製・組換えされる。
STARを用いて、多種多様な計算単位と相互接続パターンを活用し、品質、パラメータサイズ、および自動回帰言語モデリングのための推論キャッシュのフロンティアにおける高度に最適化されたトランスフォーマーとストライプハイブリッドモデルを改善する。
論文 参考訳(メタデータ) (2024-11-26T18:42:42Z) - Automatically Learning Hybrid Digital Twins of Dynamical Systems [56.69628749813084]
Digital Twins (DT)は、現実世界のシステムの状態と時間力学をシミュレートする。
DTは、しばしばデータスカース設定で目に見えない条件に一般化するのに苦労します。
本稿では,HDTwinsを自律的に提案し,評価し,最適化するための進化的アルゴリズム(textbfHDTwinGen$)を提案する。
論文 参考訳(メタデータ) (2024-10-31T07:28:22Z) - HM3: Hierarchical Multi-Objective Model Merging for Pretrained Models [28.993221775758702]
モデルマージ(英: Model merging)は、複数の大きな事前訓練されたモデルを単一のモデルに組み合わせ、パフォーマンスを向上し、タスク適応性を高める手法である。
本稿では,よりフレキシブルで包括的なモデルマージ技術への大きな進歩を示す。
我々は、重みベクトルのオフラインサンプリングを用いてポリシーと価値ネットワークを訓練し、マージ戦略のオンライン最適化に使用される。
論文 参考訳(メタデータ) (2024-09-27T16:31:31Z) - The Mamba in the Llama: Distilling and Accelerating Hybrid Models [76.64055251296548]
注目層からの線形射影重みを学術的なGPU資源で再利用することにより,大規模な変換器を線形RNNに蒸留することが可能であることを示す。
その結果、注意層を4分の1含むハイブリッドモデルは、チャットベンチマークのオリジナルのTransformerに匹敵するパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-08-27T17:56:11Z) - Transformers to SSMs: Distilling Quadratic Knowledge to Subquadratic Models [92.36510016591782]
本稿では,事前学習したトランスフォーマーアーキテクチャを,状態空間モデル(SSM)などの代替アーキテクチャに蒸留する手法を提案する。
提案手法はMOHAWKと呼ばれ、3Bトークンと5Bトークンを用いたハイブリッドバージョン(Hybrid Phi-Mamba)を用いてPhi-1.5アーキテクチャに基づくMamba-2変異体を蒸留することができる。
Phi-Mambaは、スクラッチからモデルのトレーニングに使用されるトレーニングデータの1%未満を使用してはいるが、過去のオープンソース非トランスフォーマーモデルと比較して、大幅にパフォーマンスが向上している。
論文 参考訳(メタデータ) (2024-08-19T17:48:11Z) - Mechanistic Design and Scaling of Hybrid Architectures [114.3129802943915]
我々は、様々な計算プリミティブから構築された新しいハイブリッドアーキテクチャを特定し、テストする。
本研究では,大規模計算最適法則と新しい状態最適スケーリング法則解析を用いて,結果のアーキテクチャを実験的に検証する。
我々は,MAD合成法と計算-最適パープレキシティを相関させ,新しいアーキテクチャの正確な評価を可能にする。
論文 参考訳(メタデータ) (2024-03-26T16:33:12Z) - eP-ALM: Efficient Perceptual Augmentation of Language Models [70.47962271121389]
本稿では,既存モデルの適応性を向上するための直接的な取り組みを提案し,認識を伴う言語モデルの拡張を提案する。
視覚言語タスクに事前訓練されたモデルを適用するための既存のアプローチは、その効率を妨げているいくつかの重要なコンポーネントに依存している。
総パラメータの99%以上を凍結し,1つの直線射影層のみをトレーニングし,1つのトレーニング可能なトークンのみを予測することにより,我々のアプローチ(eP-ALM)は,VQAとCaptioningの他のベースラインよりも有意に優れていることを示す。
論文 参考訳(メタデータ) (2023-03-20T19:20:34Z) - Learning Hybrid Interpretable Models: Theory, Taxonomy, and Methods [0.0]
ハイブリッドモデルは解釈可能なモデルと複雑なブラックボックスの協調を含む。
古典的モデルに対するそのようなモデルの利点は2倍である。
システムの透明性のレベルをユーザが正確にコントロールできる。
論文 参考訳(メタデータ) (2023-03-08T08:35:29Z) - AI-Empowered Hybrid MIMO Beamforming [85.48860461696417]
ハイブリッドマルチインプット・マルチアウトプット(MIMO)システムは、アナログおよびデジタルのビームフォーミングの一部を実装している。
近年、ハイブリッドビームフォーミング設計にデータ支援人工知能(AI)ツールを使うことへの関心が高まっている。
本稿では、リアルタイムハイブリッドビームフォーミング設計を改善するために、データを活用するための候補戦略についてレビューする。
論文 参考訳(メタデータ) (2023-03-03T06:04:20Z) - Are Pre-trained Convolutions Better than Pre-trained Transformers? [42.33244035851147]
CNNベースの事前学習モデルは競争力があり、特定のシナリオではTransformerよりも優れています。
本稿で概説した知見は,事前学習とアーキテクチャの進歩が混在していることを示唆している。
論文 参考訳(メタデータ) (2021-05-07T15:13:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。