論文の概要: Where Should LoRA Go? Component-Type Placement in Hybrid Language Models
- arxiv url: http://arxiv.org/abs/2604.22127v1
- Date: Fri, 24 Apr 2026 00:20:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-27 15:36:26.293632
- Title: Where Should LoRA Go? Component-Type Placement in Hybrid Language Models
- Title(参考訳): LoRAはどこへ行くべきか? ハイブリッド言語モデルにおけるコンポーネントタイプの配置
- Authors: Hector Borobia, Elies Seguí-Mas, Guillermina Tormo-Carbó,
- Abstract要約: 2つのハイブリッドアーキテクチャにまたがるコンポーネント型LoRA配置について検討する。
注意経路は、トレーニング可能なパラメータを5~10倍少なくすることで、フルモデル適応を一貫して上回ります。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Hybrid language models that interleave attention with recurrent components are increasingly competitive with pure Transformers, yet standard LoRA practice applies adapters uniformly without considering the distinct functional roles of each component type. We systematically study component-type LoRA placement across two hybrid architectures -- Qwen3.5-0.8B (sequential, GatedDeltaNet + softmax attention) and Falcon-H1-0.5B (parallel, Mamba-2 SSM + attention) -- fine-tuned on three domains and evaluated on five benchmarks. We find that the attention pathway -- despite being the minority component -- consistently outperforms full-model adaptation with 5-10x fewer trainable parameters. Crucially, adapting the recurrent backbone is destructive in sequential hybrids (-14.8 pp on GSM8K) but constructive in parallel ones (+8.6 pp). We further document a transfer asymmetry: parallel hybrids exhibit positive cross-task transfer while sequential hybrids suffer catastrophic forgetting. These results establish that hybrid topology fundamentally determines adaptation response, and that component-aware LoRA placement is a necessary design dimension for hybrid architectures.
- Abstract(参考訳): リカレントコンポーネントに注意を向けるハイブリッド言語モデルは、純粋なトランスフォーマーと競合する傾向にあるが、標準のLoRAでは、各コンポーネントタイプの機能的な役割を考慮せずにアダプタを統一的に適用している。
Qwen3.5-0.8B (Sequential, GatedDeltaNet + softmax attention) とFalcon-H1-0.5B (parallel, Mamba-2 SSM + attention) の2つのハイブリッドアーキテクチャにまたがるコンポーネントタイプのLoRA配置を体系的に研究し、5つのベンチマークで評価した。
注意経路は、マイノリティなコンポーネントであるにもかかわらず、トレーニング可能なパラメータを5~10倍少なくして、完全なモデル適応よりも一貫して優れています。
重要なことに、繰り返し発生するバックボーンの適応はシーケンシャルなハイブリッド (-14.8 pp on GSM8K) では破壊的であるが、平行なハイブリッド (+8.6 pp) では構築可能である。
平行ハイブリッドは正のクロスタスク移動を示し、逐次ハイブリッドは破滅的な忘れを被る。
これらの結果は、ハイブリッドトポロジが適応応答を根本的に決定し、コンポーネントを意識したLoRA配置がハイブリッドアーキテクチャに必要な設計次元であることを証明している。
関連論文リスト
- Functional Component Ablation Reveals Specialization Patterns in Hybrid Language Model Architectures [0.0]
2つのサブ-1Bハイブリッドモデルに適用した機能的コンポーネントアブレーションフレームワークを提案する。
両方のコンポーネントタイプが必須であり、どちらもバイパスされていないことが分かりました。
これらの結果は、ハイブリッドモデル圧縮、アーキテクチャ設計、フォールトトレラントデプロイメントのための実用的なガイダンスを提供する。
論文 参考訳(メタデータ) (2026-03-23T18:41:49Z) - MSLoRA: Multi-Scale Low-Rank Adaptation via Attention Reweighting [6.335488846185043]
MSLoRAはバックボーンに依存しないパラメータ効率のよいアダプタで、バックボーンを再調整するのではなく、フィーチャーレスポンスを再重み付けする。
MSLoRAは、畳み込みニューラルネットワーク(CNN)と視覚変換器(ViT)の両方の適応を統一する
論文 参考訳(メタデータ) (2025-11-16T00:35:37Z) - Every Attention Matters: An Efficient Hybrid Architecture for Long-Context Reasoning [73.10669391954801]
本稿では、Ring-mini-linear-2.0およびRing-flash-linear-2.0を含むRing-linearモデルシリーズについて述べる。
どちらのモデルも線形アテンションとソフトマックスアテンションを効果的に統合するハイブリッドアーキテクチャを採用している。
32億のパラメータ密度モデルと比較して、このシリーズは推論コストを1/10に削減し、元のRingシリーズと比較すると、コストも50%以上削減される。
論文 参考訳(メタデータ) (2025-10-22T07:59:38Z) - Balancing Computation Load and Representation Expressivity in Parallel Hybrid Neural Networks [5.877451898618022]
FlowHNは、ロードバランシングのさまざまな戦略に対応する、新しい並列ハイブリッドネットワークアーキテクチャである。
FlowHNの2つの革新的な差別化要因は、注意とSSMブランチの間で分割されたFLOP認識動的トークンである。
論文 参考訳(メタデータ) (2025-05-26T03:52:22Z) - HyMamba: Mamba with Hybrid Geometry-Feature Coupling for Efficient Point Cloud Classification [7.139631485661567]
Geometry-Feature Coupled Pooling (GFCP)は局所的な特徴に隣接する幾何学的情報を動的に集約する。
提案したモデルは,特にModelNet40データセットにおいて,精度が95.99%に向上し,0.03Mの追加パラメータが得られた。さらに,ModelNetShotデータセットでは98.9%の精度を実現し,スパースサンプル下での堅牢な一般化能力を検証している。
論文 参考訳(メタデータ) (2025-05-16T10:30:20Z) - Hymba: A Hybrid-head Architecture for Small Language Models [65.94140459055244]
Hymbaは、ハイブリッドヘッド並列アーキテクチャを特徴とする、小さな言語モデルのファミリーである。
重要な情報を保持するプロンプトに先立って,学習可能なメタトークンを導入する。
このモデルは、層間鍵値共有と部分的スライディングウィンドウアテンションを組み込むことにより、さらに最適化される。
論文 参考訳(メタデータ) (2024-11-20T19:51:25Z) - Replay-Free Continual Low-Rank Adaptation with Dynamic Memory [62.85596937435928]
我々は、事前学習された視覚変換器(ViT)が、時間とともに新しい下流タスクを逐次微調整できる連続学習を再考する。
近年の研究では、CL技術とパラメータ効率の良い微調整の交差が強調されている。
DualLoRA (Dual Low-Rank Adaptation) と呼ばれる新しいPEFT-CL法を提案する。
論文 参考訳(メタデータ) (2024-11-01T14:28:39Z) - Adaptive Split-Fusion Transformer [90.04885335911729]
本稿では,適応重みによる畳み込みと注目の分岐を異なる方法で扱うための適応分割変換器(ASF-former)を提案する。
ImageNet-1Kのような標準ベンチマークの実験では、我々のASFフォーマーはCNN、トランスフォーマー、ハイブリッドパイロットを精度で上回っている。
論文 参考訳(メタデータ) (2022-04-26T10:00:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。