論文の概要: Understanding and Enhancing Mamba-Transformer Hybrids for Memory Recall and Language Modeling
- arxiv url: http://arxiv.org/abs/2510.26912v1
- Date: Thu, 30 Oct 2025 18:19:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-03 17:52:15.887927
- Title: Understanding and Enhancing Mamba-Transformer Hybrids for Memory Recall and Language Modeling
- Title(参考訳): メモリリコールと言語モデリングのためのMamba-Transformerハイブリッドの理解と強化
- Authors: Hyunji Lee, Wenhao Yu, Hongming Zhang, Kaixin Ma, Jiyeon Kim, Dong Yu, Minjoon Seo,
- Abstract要約: 我々は、メモリ利用と全体的な性能のレンズを通してハイブリッドアーキテクチャを解析する。
逐次ハイブリッドはより短いコンテキストでより良く機能する一方、並列ハイブリッドはより長いコンテキストでより効果的である。
パラフレーズを付加したデータセットを継続的にトレーニングするデータ中心のアプローチを導入し、他の機能を保ちながらリコールをさらに強化する。
- 参考スコア(独自算出の注目度): 59.84975924845338
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Hybrid models that combine state space models (SSMs) with attention mechanisms have shown strong performance by leveraging the efficiency of SSMs and the high recall ability of attention. However, the architectural design choices behind these hybrid models remain insufficiently understood. In this work, we analyze hybrid architectures through the lens of memory utilization and overall performance, and propose a complementary method to further enhance their effectiveness. We first examine the distinction between sequential and parallel integration of SSM and attention layers. Our analysis reveals several interesting findings, including that sequential hybrids perform better on shorter contexts, whereas parallel hybrids are more effective for longer contexts. We also introduce a data-centric approach of continually training on datasets augmented with paraphrases, which further enhances recall while preserving other capabilities. It generalizes well across different base models and outperforms architectural modifications aimed at enhancing recall. Our findings provide a deeper understanding of hybrid SSM-attention models and offer practical guidance for designing architectures tailored to various use cases. Our findings provide a deeper understanding of hybrid SSM-attention models and offer practical guidance for designing architectures tailored to various use cases.
- Abstract(参考訳): 状態空間モデル(SSM)とアテンション機構を組み合わせたハイブリッドモデルは、SSMの効率とアテンションの高いリコール能力を活用して、高い性能を示した。
しかし、これらのハイブリッドモデルの背後にある設計上の選択は、まだ十分に理解されていない。
本研究では、メモリ利用と全体的な性能のレンズを通してハイブリッドアーキテクチャを解析し、その効果をさらに高めるための補完手法を提案する。
まず,SSMとアテンション層との逐次的統合と並列統合の区別について検討する。
解析の結果,より短い文脈では逐次ハイブリッドの方が有効であるのに対して,より長い文脈では並列ハイブリッドの方が有効である,といった興味深い結果が得られた。
また、パラフレーズを付加したデータセットを継続的にトレーニングするデータ中心のアプローチを導入し、他の機能を保ちながらリコールをさらに強化する。
さまざまなベースモデルにまたがってうまく一般化され、リコールの強化を目的としたアーキテクチャ変更よりも優れています。
本研究は,ハイブリッドSSMアテンションモデルについてより深く理解し,様々なユースケースに適したアーキテクチャ設計のための実践的ガイダンスを提供する。
本研究は,ハイブリッドSSMアテンションモデルについてより深く理解し,様々なユースケースに適したアーキテクチャ設計のための実践的ガイダンスを提供する。
関連論文リスト
- Hybrid Architectures for Language Models: Systematic Analysis and Design Insights [17.46576657832284]
Mambaのような構造化状態空間モデルと自己認識機構を結合した大規模言語モデルは、モデリング品質と計算効率の間の魅力的なバランスを達成できる。
本稿では,層間(逐次)もしくは層内(並列)融合に基づくハイブリッドアーキテクチャの総合評価を行う。
論文 参考訳(メタデータ) (2025-10-06T13:30:07Z) - Long-Context State-Space Video World Models [66.28743632951218]
本稿では、状態空間モデル(SSM)を活用して、計算効率を損なうことなく時間記憶を拡張する新しいアーキテクチャを提案する。
我々の設計の中心はブロックワイズSSMスキャン方式であり、時間記憶の拡張のために空間整合性を戦略的にトレードオフする。
メモリ迷路とMinecraftのデータセットの実験は、我々のアプローチが長距離メモリ保存のベースラインを超えたことを示している。
論文 参考訳(メタデータ) (2025-05-26T16:12:41Z) - Minitron-SSM: Efficient Hybrid Language Model Compression through Group-Aware SSM Pruning [76.88243649182886]
注意と状態空間モデル(SSM)を組み合わせたハイブリッドアーキテクチャは、最先端の精度と実行時のパフォーマンスを達成する。
近年の研究では、アテンションのみのモデルに圧縮と蒸留を適用することで、トレーニングコストのごく一部でより小さく、より正確なモデルが得られることが示されている。
本稿では,SSMブロックの構造的整合性とそのシーケンスモデリング機能を維持するグループ対応プルーニング戦略を提案する。
論文 参考訳(メタデータ) (2025-04-15T17:26:29Z) - Hymba: A Hybrid-head Architecture for Small Language Models [65.94140459055244]
Hymbaは、ハイブリッドヘッド並列アーキテクチャを特徴とする、小さな言語モデルのファミリーである。
重要な情報を保持するプロンプトに先立って,学習可能なメタトークンを導入する。
このモデルは、層間鍵値共有と部分的スライディングウィンドウアテンションを組み込むことにより、さらに最適化される。
論文 参考訳(メタデータ) (2024-11-20T19:51:25Z) - AI-Empowered Hybrid MIMO Beamforming [85.48860461696417]
ハイブリッドマルチインプット・マルチアウトプット(MIMO)システムは、アナログおよびデジタルのビームフォーミングの一部を実装している。
近年、ハイブリッドビームフォーミング設計にデータ支援人工知能(AI)ツールを使うことへの関心が高まっている。
本稿では、リアルタイムハイブリッドビームフォーミング設計を改善するために、データを活用するための候補戦略についてレビューする。
論文 参考訳(メタデータ) (2023-03-03T06:04:20Z) - Robust Hybrid Learning With Expert Augmentation [31.911717646180886]
我々は、textitexpert augmentation と呼ばれるハイブリッドデータ拡張戦略を導入する。
既存のハイブリッドシステムに組み込むことのできるエキスパート強化が一般化を改善することを実証する。
また、実際の2重振り子のデータセット上で、専門家増強の現実的適用可能性を評価する。
論文 参考訳(メタデータ) (2022-02-08T14:11:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。