論文の概要: Hybrid Architectures for Language Models: Systematic Analysis and Design Insights
- arxiv url: http://arxiv.org/abs/2510.04800v1
- Date: Mon, 06 Oct 2025 13:30:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:52:59.879442
- Title: Hybrid Architectures for Language Models: Systematic Analysis and Design Insights
- Title(参考訳): 言語モデルのためのハイブリッドアーキテクチャ:システム分析と設計指針
- Authors: Sangmin Bae, Bilge Acun, Haroun Habeeb, Seungyeon Kim, Chien-Yu Lin, Liang Luo, Junjie Wang, Carole-Jean Wu,
- Abstract要約: Mambaのような構造化状態空間モデルと自己認識機構を結合した大規模言語モデルは、モデリング品質と計算効率の間の魅力的なバランスを達成できる。
本稿では,層間(逐次)もしくは層内(並列)融合に基づくハイブリッドアーキテクチャの総合評価を行う。
- 参考スコア(独自算出の注目度): 17.46576657832284
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent progress in large language models demonstrates that hybrid architectures--combining self-attention mechanisms with structured state space models like Mamba--can achieve a compelling balance between modeling quality and computational efficiency, particularly for long-context tasks. While these hybrid models show promising performance, systematic comparisons of hybridization strategies and analyses on the key factors behind their effectiveness have not been clearly shared to the community. In this work, we present a holistic evaluation of hybrid architectures based on inter-layer (sequential) or intra-layer (parallel) fusion. We evaluate these designs from a variety of perspectives: language modeling performance, long-context capabilities, scaling analysis, and training and inference efficiency. By investigating the core characteristics of their computational primitive, we identify the most critical elements for each hybridization strategy and further propose optimal design recipes for both hybrid models. Our comprehensive analysis provides practical guidance and valuable insights for developing hybrid language models, facilitating the optimization of architectural configurations.
- Abstract(参考訳): 大規模言語モデルの最近の進歩は、モデリング品質と計算効率の相違、特に長期的コンテキストタスクにおいて、ハイブリッドアーキテクチャが、Mambaのような構造化状態空間モデルと自己認識機構を組み合わせることで、説得力のあるバランスを達成できることを実証している。
これらのハイブリッドモデルは、有望な性能を示すが、ハイブリダイゼーション戦略の体系的比較と、それらの効果の背景にある重要な要因に関する分析は、コミュニティに明確に共有されていない。
本研究では,層間(逐次)もしくは層内(並列)融合に基づくハイブリッドアーキテクチャの総合評価を行う。
言語モデリング性能,長期コンテキスト能力,スケーリング分析,トレーニングおよび推論効率など,さまざまな観点からこれらの設計を評価する。
計算プリミティブのコア特性を調べることにより,各ハイブリダイゼーション戦略において最も重要な要素を特定し,両ハイブリッドモデルに最適な設計レシピを提案する。
我々の包括的分析は、アーキテクチャ構成の最適化を容易にし、ハイブリッド言語モデルを開発するための実践的なガイダンスと貴重な洞察を提供する。
関連論文リスト
- Efficient Attention Mechanisms for Large Language Models: A Survey [18.86171225316892]
トランスフォーマーベースのアーキテクチャは、大規模言語モデルの一般的な計算バックボーンとなっている。
最近の研究は、効率的な注意機構の2つの主要なカテゴリを紹介している。
対照的に、スパースアテンションテクニックは、固定パターン、ブロックワイドルーティング、クラスタリング戦略に基づいて、選択されたトークンのサブセットに注意を限定する。
論文 参考訳(メタデータ) (2025-07-25T18:08:10Z) - Efficient Design of Compliant Mechanisms Using Multi-Objective Optimization [50.24983453990065]
そこで本研究では,大きな角状脳卒中を許容できる適合型クロスヒンジ機構の合成について述べる。
キネトスタティックな性能測定に基づいて,多目的最適化問題を定式化する。
論文 参考訳(メタデータ) (2025-04-23T06:29:10Z) - Hybrid-Quantum Neural Architecture Search for The Proximal Policy Optimization Algorithm [0.0]
本研究は, 正規化進化アルゴリズムを用いて, 最適ハイブリッド量子アーキテクチャを探索することにより, 文献のギャップを解消しようとするものである。
また、このような結果に寄与した要因を説明し、効率的なハイブリッドアーキテクチャを設計するための優れたプラクティスをどう考えるべきかについて、より深い直感を得ることを期待しています。
論文 参考訳(メタデータ) (2025-01-18T06:39:05Z) - A Survey on Inference Optimization Techniques for Mixture of Experts Models [50.40325411764262]
大規模Mixture of Experts(MoE)モデルは、条件計算によるモデル容量と計算効率の向上を提供する。
これらのモデル上で推論をデプロイし実行することは、計算資源、レイテンシ、エネルギー効率において大きな課題を示す。
本調査では,システムスタック全体にわたるMoEモデルの最適化手法について分析する。
論文 参考訳(メタデータ) (2024-12-18T14:11:15Z) - Fine-tuning large language models for domain adaptation: Exploration of training strategies, scaling, model merging and synergistic capabilities [4.389938747401259]
本研究は、材料科学や工学などの分野における大規模言語モデル(LLM)に対する微調整戦略の効果について考察する。
複数の微調整モデルの融合は、親モデルの個々の貢献を超越した能力の出現につながる可能性がある。
論文 参考訳(メタデータ) (2024-09-05T11:49:53Z) - Learnable & Interpretable Model Combination in Dynamical Systems Modeling [0.0]
この研究は、動的システムモデリングにおいて、どのタイプのモデルが通常結合されるかを簡単に議論する。
本稿では,混合代数的,離散的,微分方程式に基づくモデルを表現可能なモデルのクラスを提案する。
最後に,モデルの任意の組み合わせを,容易に解釈可能な方法で記述できる新しいワイルドカードアーキテクチャを提案する。
論文 参考訳(メタデータ) (2024-06-12T11:17:11Z) - Mechanistic Design and Scaling of Hybrid Architectures [114.3129802943915]
我々は、様々な計算プリミティブから構築された新しいハイブリッドアーキテクチャを特定し、テストする。
本研究では,大規模計算最適法則と新しい状態最適スケーリング法則解析を用いて,結果のアーキテクチャを実験的に検証する。
我々は,MAD合成法と計算-最適パープレキシティを相関させ,新しいアーキテクチャの正確な評価を可能にする。
論文 参考訳(メタデータ) (2024-03-26T16:33:12Z) - A Pareto-optimal compositional energy-based model for sampling and
optimization of protein sequences [55.25331349436895]
深層生成モデルは、生命科学における逆問題に対する一般的な機械学習ベースのアプローチとして登場した。
これらの問題は、データ分布の学習に加えて、興味のある複数の特性を満たす新しい設計をサンプリングする必要があることが多い。
論文 参考訳(メタデータ) (2022-10-19T19:04:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。