論文の概要: Hybrid Architectures for Language Models: Systematic Analysis and Design Insights
- arxiv url: http://arxiv.org/abs/2510.04800v1
- Date: Mon, 06 Oct 2025 13:30:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:52:59.879442
- Title: Hybrid Architectures for Language Models: Systematic Analysis and Design Insights
- Title(参考訳): 言語モデルのためのハイブリッドアーキテクチャ:システム分析と設計指針
- Authors: Sangmin Bae, Bilge Acun, Haroun Habeeb, Seungyeon Kim, Chien-Yu Lin, Liang Luo, Junjie Wang, Carole-Jean Wu,
- Abstract要約: Mambaのような構造化状態空間モデルと自己認識機構を結合した大規模言語モデルは、モデリング品質と計算効率の間の魅力的なバランスを達成できる。
本稿では,層間(逐次)もしくは層内(並列)融合に基づくハイブリッドアーキテクチャの総合評価を行う。
- 参考スコア(独自算出の注目度): 17.46576657832284
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent progress in large language models demonstrates that hybrid architectures--combining self-attention mechanisms with structured state space models like Mamba--can achieve a compelling balance between modeling quality and computational efficiency, particularly for long-context tasks. While these hybrid models show promising performance, systematic comparisons of hybridization strategies and analyses on the key factors behind their effectiveness have not been clearly shared to the community. In this work, we present a holistic evaluation of hybrid architectures based on inter-layer (sequential) or intra-layer (parallel) fusion. We evaluate these designs from a variety of perspectives: language modeling performance, long-context capabilities, scaling analysis, and training and inference efficiency. By investigating the core characteristics of their computational primitive, we identify the most critical elements for each hybridization strategy and further propose optimal design recipes for both hybrid models. Our comprehensive analysis provides practical guidance and valuable insights for developing hybrid language models, facilitating the optimization of architectural configurations.
- Abstract(参考訳): 大規模言語モデルの最近の進歩は、モデリング品質と計算効率の相違、特に長期的コンテキストタスクにおいて、ハイブリッドアーキテクチャが、Mambaのような構造化状態空間モデルと自己認識機構を組み合わせることで、説得力のあるバランスを達成できることを実証している。
これらのハイブリッドモデルは、有望な性能を示すが、ハイブリダイゼーション戦略の体系的比較と、それらの効果の背景にある重要な要因に関する分析は、コミュニティに明確に共有されていない。
本研究では,層間(逐次)もしくは層内(並列)融合に基づくハイブリッドアーキテクチャの総合評価を行う。
言語モデリング性能,長期コンテキスト能力,スケーリング分析,トレーニングおよび推論効率など,さまざまな観点からこれらの設計を評価する。
計算プリミティブのコア特性を調べることにより,各ハイブリダイゼーション戦略において最も重要な要素を特定し,両ハイブリッドモデルに最適な設計レシピを提案する。
我々の包括的分析は、アーキテクチャ構成の最適化を容易にし、ハイブリッド言語モデルを開発するための実践的なガイダンスと貴重な洞察を提供する。
関連論文リスト
- Distributed Hybrid Parallelism for Large Language Models: Comparative Study and System Design Guide [15.92814573525633]
本稿では,集合的操作と分散並列戦略の総合的なレビューを行う。
本稿では、ハイブリッド並列化設計について検討し、モデル展開の異なる段階における通信重なりを強調した。
我々は、現在のLLMトレーニングパラダイムのオープンな課題と制限を強調し、次世代の大規模モデル開発に向けた有望な方向性を概説する。
論文 参考訳(メタデータ) (2026-02-09T19:01:13Z) - Understanding and Enhancing Mamba-Transformer Hybrids for Memory Recall and Language Modeling [59.84975924845338]
我々は、メモリ利用と全体的な性能のレンズを通してハイブリッドアーキテクチャを解析する。
逐次ハイブリッドはより短いコンテキストでより良く機能する一方、並列ハイブリッドはより長いコンテキストでより効果的である。
パラフレーズを付加したデータセットを継続的にトレーニングするデータ中心のアプローチを導入し、他の機能を保ちながらリコールをさらに強化する。
論文 参考訳(メタデータ) (2025-10-30T18:19:52Z) - The Geometry of Dialogue: Graphing Language Models to Reveal Synergistic Teams for Multi-Agent Collaboration [0.0]
大規模言語モデル(LLM)に基づくマルチエージェントチームは、単一モデルの能力を超える有望な戦略である。
しかしながら、ほとんどのモデルの本質的な不透明さは、効果的なコラボレーションに必要な内部特性を曖昧にしているため、最適なチームを作ることは重要な課題である。
事前知識を必要としない自動チーム構成のためのインタラクション中心のフレームワークを提案する。
論文 参考訳(メタデータ) (2025-10-30T11:04:15Z) - Efficient Attention Mechanisms for Large Language Models: A Survey [18.86171225316892]
トランスフォーマーベースのアーキテクチャは、大規模言語モデルの一般的な計算バックボーンとなっている。
最近の研究は、効率的な注意機構の2つの主要なカテゴリを紹介している。
対照的に、スパースアテンションテクニックは、固定パターン、ブロックワイドルーティング、クラスタリング戦略に基づいて、選択されたトークンのサブセットに注意を限定する。
論文 参考訳(メタデータ) (2025-07-25T18:08:10Z) - Efficient Design of Compliant Mechanisms Using Multi-Objective Optimization [50.24983453990065]
そこで本研究では,大きな角状脳卒中を許容できる適合型クロスヒンジ機構の合成について述べる。
キネトスタティックな性能測定に基づいて,多目的最適化問題を定式化する。
論文 参考訳(メタデータ) (2025-04-23T06:29:10Z) - Hybrid-Quantum Neural Architecture Search for The Proximal Policy Optimization Algorithm [0.0]
本研究は, 正規化進化アルゴリズムを用いて, 最適ハイブリッド量子アーキテクチャを探索することにより, 文献のギャップを解消しようとするものである。
また、このような結果に寄与した要因を説明し、効率的なハイブリッドアーキテクチャを設計するための優れたプラクティスをどう考えるべきかについて、より深い直感を得ることを期待しています。
論文 参考訳(メタデータ) (2025-01-18T06:39:05Z) - A Survey on Inference Optimization Techniques for Mixture of Experts Models [50.40325411764262]
大規模Mixture of Experts(MoE)モデルは、条件計算によるモデル容量と計算効率の向上を提供する。
これらのモデル上で推論をデプロイし実行することは、計算資源、レイテンシ、エネルギー効率において大きな課題を示す。
本調査では,システムスタック全体にわたるMoEモデルの最適化手法について分析する。
論文 参考訳(メタデータ) (2024-12-18T14:11:15Z) - STAR: Synthesis of Tailored Architectures [61.080157488857516]
本稿では, 適合型アーキテクチャ (STAR) の新規な合成手法を提案する。
提案手法は線形入力可変系の理論に基づく新しい探索空間を結合し,階層的な数値エンコーディングをアーキテクチャゲノムに支持する。STARゲノムは,複数のモデル品質と効率の指標に最適化するために,勾配のない進化的アルゴリズムで自動的に精製・組換えされる。
STARを用いて、多種多様な計算単位と相互接続パターンを活用し、品質、パラメータサイズ、および自動回帰言語モデリングのための推論キャッシュのフロンティアにおける高度に最適化されたトランスフォーマーとストライプハイブリッドモデルを改善する。
論文 参考訳(メタデータ) (2024-11-26T18:42:42Z) - Fine-tuning large language models for domain adaptation: Exploration of training strategies, scaling, model merging and synergistic capabilities [4.389938747401259]
本研究は、材料科学や工学などの分野における大規模言語モデル(LLM)に対する微調整戦略の効果について考察する。
複数の微調整モデルの融合は、親モデルの個々の貢献を超越した能力の出現につながる可能性がある。
論文 参考訳(メタデータ) (2024-09-05T11:49:53Z) - Learnable & Interpretable Model Combination in Dynamical Systems Modeling [0.0]
この研究は、動的システムモデリングにおいて、どのタイプのモデルが通常結合されるかを簡単に議論する。
本稿では,混合代数的,離散的,微分方程式に基づくモデルを表現可能なモデルのクラスを提案する。
最後に,モデルの任意の組み合わせを,容易に解釈可能な方法で記述できる新しいワイルドカードアーキテクチャを提案する。
論文 参考訳(メタデータ) (2024-06-12T11:17:11Z) - Mechanistic Design and Scaling of Hybrid Architectures [114.3129802943915]
我々は、様々な計算プリミティブから構築された新しいハイブリッドアーキテクチャを特定し、テストする。
本研究では,大規模計算最適法則と新しい状態最適スケーリング法則解析を用いて,結果のアーキテクチャを実験的に検証する。
我々は,MAD合成法と計算-最適パープレキシティを相関させ,新しいアーキテクチャの正確な評価を可能にする。
論文 参考訳(メタデータ) (2024-03-26T16:33:12Z) - A Pareto-optimal compositional energy-based model for sampling and
optimization of protein sequences [55.25331349436895]
深層生成モデルは、生命科学における逆問題に対する一般的な機械学習ベースのアプローチとして登場した。
これらの問題は、データ分布の学習に加えて、興味のある複数の特性を満たす新しい設計をサンプリングする必要があることが多い。
論文 参考訳(メタデータ) (2022-10-19T19:04:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。