論文の概要: Functional Component Ablation Reveals Specialization Patterns in Hybrid Language Model Architectures
- arxiv url: http://arxiv.org/abs/2603.22473v1
- Date: Mon, 23 Mar 2026 18:41:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-25 19:53:37.150101
- Title: Functional Component Ablation Reveals Specialization Patterns in Hybrid Language Model Architectures
- Title(参考訳): ハイブリッド言語モデルアーキテクチャにおける機能的コンポーネントアブレーションの特殊化パターン
- Authors: Hector Borobia, Elies Seguí-Mas, Guillermina Tormo-Carbó,
- Abstract要約: 2つのサブ-1Bハイブリッドモデルに適用した機能的コンポーネントアブレーションフレームワークを提案する。
両方のコンポーネントタイプが必須であり、どちらもバイパスされていないことが分かりました。
これらの結果は、ハイブリッドモデル圧縮、アーキテクチャ設計、フォールトトレラントデプロイメントのための実用的なガイダンスを提供する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Hybrid language models combining attention with state space models (SSMs) or linear attention offer improved efficiency, but whether both components are genuinely utilized remains unclear. We present a functional component ablation framework applied to two sub-1B hybrid models -- Qwen3.5-0.8B (sequential: Gated DeltaNet + softmax attention) and Falcon-H1-0.5B (parallel: Mamba-2 + attention) -- with a pure Transformer control (Qwen2.5-0.5B). Through group ablations, layer-wise sweeps, positional ablations, matched random controls, and perplexity analysis across five benchmarks, we establish four findings: (1) both component types are essential and neither is bypassed; (2) the alternative component (linear attention or SSM) is the primary language modeling backbone, causing >35,000x perplexity degradation when removed versus ~82x for attention; (3) component importance follows a positional gradient, with early layers being disproportionately critical; and (4) hybrid architectures exhibit 20-119x greater resilience to random layer removal than pure Transformers, revealing built-in functional redundancy between component types. These results provide actionable guidance for hybrid model compression, architecture design, and fault-tolerant deployment.
- Abstract(参考訳): ハイブリット言語モデルと状態空間モデル(SSM)や線形アテンションを組み合わせることで効率が向上するが、両方のコンポーネントが真に活用されているかどうかは不明だ。
本稿では,Qwen3.5-0.8B (Sequential: Gated DeltaNet + softmax attention) とFalcon-H1-0.5B (parallel: Mamba-2 + attention) の2つのサブ-1Bハイブリッドモデルに適用した機能的コンポーネントアブレーションフレームワークについて述べる。
1) 両コンポーネントタイプが必須であり、バイパスされないこと,(2) 代替コンポーネント(線形アテンションまたはSSM) が主言語モデリングバックボーンであること,(3) 初期レイヤが不均衡に重要であること,(3) コンポーネントの重要性は位置勾配に従うこと,(4) ハイブリッドアーキテクチャは、純粋なトランスフォーマーよりも20-119倍高いランダム層除去性を示し,コンポーネントタイプ間の機能的冗長性を明らかにすること,の4つの結果が得られた。
これらの結果は、ハイブリッドモデル圧縮、アーキテクチャ設計、フォールトトレラントデプロイメントのための実用的なガイダンスを提供する。
関連論文リスト
- LINA: Linear Autoregressive Image Generative Models with Continuous Tokens [56.80443965097921]
連続トークンを持つ自己回帰モデルは、特にテキスト・トゥ・イメージ(T2I)合成において、視覚生成に有望なパラダイムを形成する。
このフレームワーク内での計算効率のよい線形アテンションの設計法について検討する。
LINAは、線形注意に基づくシンプルで計算効率の良いT2Iモデルであり、ユーザ命令から高忠実度1024x1024画像を生成することができる。
論文 参考訳(メタデータ) (2026-01-30T06:44:33Z) - InternVLA-A1: Unifying Understanding, Generation and Action for Robotic Manipulation [77.07565723756119]
InternVLA-A1は動的予測機能を備えた視覚言語モデルである。
我々は、実世界のロボットデータ、合成シミュレーションデータ、人間のビデオなどを用いて、これらのモデルを異種データソース上で事前訓練する。
InternVLA-A1を実世界の12のロボットタスクとシミュレーションベンチマークで評価した。
論文 参考訳(メタデータ) (2026-01-05T18:54:29Z) - Every Attention Matters: An Efficient Hybrid Architecture for Long-Context Reasoning [73.10669391954801]
本稿では、Ring-mini-linear-2.0およびRing-flash-linear-2.0を含むRing-linearモデルシリーズについて述べる。
どちらのモデルも線形アテンションとソフトマックスアテンションを効果的に統合するハイブリッドアーキテクチャを採用している。
32億のパラメータ密度モデルと比較して、このシリーズは推論コストを1/10に削減し、元のRingシリーズと比較すると、コストも50%以上削減される。
論文 参考訳(メタデータ) (2025-10-22T07:59:38Z) - A Systematic Analysis of Hybrid Linear Attention [11.722015123070957]
リニアモデルはしばしばリコール性能の制限に悩まされる。
本研究は, 効率的なハイブリッドモデルとして, 選択的ゲーティング, 階層的再帰, 制御的忘れを重要視する。
私たちのモデルはhttps://huggingface.co/collections/m-hugging-a-p/hybrid-linear-attention-research-686c488a63d609d2f2 0e2b1eでオープンソース化されています。
論文 参考訳(メタデータ) (2025-07-08T23:54:11Z) - TransXSSM: A Hybrid Transformer State Space Model with Unified Rotary Position Embedding [19.42637769220759]
本稿では,Transformer層とSSM層を協調的に統合したハイブリッドアーキテクチャであるTransXSSMを紹介する。
4Kで、TransXSSMは標準のTransformerモデルと比較して、それぞれ42.3%と29.5%のトレーニング速度と推論速度を示す。
この結果から,ハイブリッドモデルにおける位置整合性は統一的位置整合性によって解決され,効率的かつ高性能な長コンテキストモデリングが可能であることが示唆された。
論文 参考訳(メタデータ) (2025-06-11T08:26:51Z) - HyMamba: Mamba with Hybrid Geometry-Feature Coupling for Efficient Point Cloud Classification [7.139631485661567]
Geometry-Feature Coupled Pooling (GFCP)は局所的な特徴に隣接する幾何学的情報を動的に集約する。
提案したモデルは,特にModelNet40データセットにおいて,精度が95.99%に向上し,0.03Mの追加パラメータが得られた。さらに,ModelNetShotデータセットでは98.9%の精度を実現し,スパースサンプル下での堅牢な一般化能力を検証している。
論文 参考訳(メタデータ) (2025-05-16T10:30:20Z) - Hymba: A Hybrid-head Architecture for Small Language Models [65.94140459055244]
Hymbaは、ハイブリッドヘッド並列アーキテクチャを特徴とする、小さな言語モデルのファミリーである。
重要な情報を保持するプロンプトに先立って,学習可能なメタトークンを導入する。
このモデルは、層間鍵値共有と部分的スライディングウィンドウアテンションを組み込むことにより、さらに最適化される。
論文 参考訳(メタデータ) (2024-11-20T19:51:25Z) - MossFormer: Pushing the Performance Limit of Monaural Speech Separation
using Gated Single-Head Transformer with Convolution-Augmented Joint
Self-Attentions [26.862052778354016]
畳み込み強化された自己アテンションを持つシングルヘッドゲートトランスアーキテクチャであるtextitMossFormer を提案する。
MossFormer は、WSJ0-2/3mix と WHAM!
論文 参考訳(メタデータ) (2023-02-23T07:17:12Z) - Squeezeformer: An Efficient Transformer for Automatic Speech Recognition [99.349598600887]
Conformerは、そのハイブリッドアテンション・コンボリューションアーキテクチャに基づいて、様々な下流音声タスクの事実上のバックボーンモデルである。
Squeezeformerモデルを提案する。これは、同じトレーニングスキームの下で、最先端のASRモデルよりも一貫して優れている。
論文 参考訳(メタデータ) (2022-06-02T06:06:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。