論文の概要: Differential Mamba
- arxiv url: http://arxiv.org/abs/2507.06204v1
- Date: Tue, 08 Jul 2025 17:30:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-09 16:34:38.371741
- Title: Differential Mamba
- Title(参考訳): ディファレンシャル・マンバ
- Authors: Nadav Schneider, Itamar Zimerman, Eliya Nachmani,
- Abstract要約: TransformerやRNNのようなシーケンスモデルは、しばしば無関係なコンテキストに注意を向け、ノイズの多い中間表現をもたらす。
最近の研究は、差分設計がトランスフォーマーにおけるこの問題を緩和し、様々なアプリケーションにおけるそれらの効果を向上させることを示している。
本研究では,マンバへの微分設計の素直な適応は不十分であり,注意深いアーキテクチャ修正が必要であることを示す。
- 参考スコア(独自算出の注目度): 16.613266337054267
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Sequence models like Transformers and RNNs often overallocate attention to irrelevant context, leading to noisy intermediate representations. This degrades LLM capabilities by promoting hallucinations, weakening long-range and retrieval abilities, and reducing robustness. Recent work has shown that differential design can mitigate this issue in Transformers, improving their effectiveness across various applications. In this paper, we explore whether these techniques, originally developed for Transformers, can be applied to Mamba, a recent architecture based on selective state-space layers that achieves Transformer-level performance with greater efficiency. We show that a naive adaptation of differential design to Mamba is insufficient and requires careful architectural modifications. To address this, we introduce a novel differential mechanism for Mamba, empirically validated on language modeling benchmarks, demonstrating improved retrieval capabilities and superior performance over vanilla Mamba. Finally, we conduct extensive ablation studies and empirical analyses to justify our design choices and provide evidence that our approach effectively mitigates the overallocation problem in Mamba-based models. Our code is publicly available.
- Abstract(参考訳): TransformerやRNNのようなシーケンスモデルは、しばしば無関係なコンテキストに注意を向け、ノイズの多い中間表現をもたらす。
これにより、幻覚の促進、長距離検索能力の低下、ロバストネスの低下によりLCM能力を低下させる。
最近の研究は、差分設計がトランスフォーマーにおけるこの問題を緩和し、様々なアプリケーションにおけるそれらの効果を向上させることを示している。
本稿では,トランスフォーマーのために開発されたこれらの技術が,トランスフォーマーレベルの性能を高い効率で実現した選択状態空間層に基づく最近のアーキテクチャであるMambaに適用できるかどうかを考察する。
本研究では,マンバへの微分設計の素直な適応は不十分であり,注意深いアーキテクチャ修正が必要であることを示す。
そこで我々は,言語モデルベンチマークで実証的に検証し,検索能力の向上とバニラ・マンバよりも優れた性能を示す,新しいMambaの微分メカニズムを提案する。
最後に,提案手法がマンバモデルにおけるオーバロケーション問題を効果的に緩和する証拠として,設計選択を正当化するための広範囲なアブレーション研究と実証分析を行った。
私たちのコードは公開されています。
関連論文リスト
- From Markov to Laplace: How Mamba In-Context Learns Markov Chains [36.22373318908893]
我々はマルコフ連鎖の文脈内学習について研究し、驚くべき現象を明らかにする。
トランスとは異なり、単層マンバでさえ、文脈内ラプラシアスムージング推定器を効率的に学習する。
これらの理論的な洞察は経験的な結果と強く一致し、マンバと最適統計推定器の間の最初の公式な関係を表す。
論文 参考訳(メタデータ) (2025-02-14T14:13:55Z) - MambaPEFT: Exploring Parameter-Efficient Fine-Tuning for Mamba [0.5530212768657544]
ステートスペースモデル(SSM)ベースのモデルであるMambaは、トランスフォーマーの代替として注目されている。
Mambaに適用した場合のトランスフォーマーに対する既存のPEFT法の有効性について検討する。
本研究では,マンバの固有構造を利用した新しいPEFT法を提案する。
論文 参考訳(メタデータ) (2024-11-06T11:57:55Z) - ReMamba: Equip Mamba with Effective Long-Sequence Modeling [50.530839868893786]
本研究では,長い文脈の理解能力を高めるReMambaを提案する。
ReMambaは2段階のプロセスで選択的圧縮と適応のテクニックを取り入れている。
論文 参考訳(メタデータ) (2024-08-28T02:47:27Z) - An Empirical Study of Mamba-based Pedestrian Attribute Recognition [15.752464463535178]
本論文は,Mambaを2つの典型的なPARフレームワーク,テキスト画像融合アプローチと純粋ビジョンMambaマルチラベル認識フレームワークに設計・適応する。
属性タグを追加入力として操作することは、必ずしも改善につながるとは限らない。具体的には、Vimを拡張できるが、VMambaではできない。
これらの実験結果は、単にTransformerでMambaを拡張すれば、パフォーマンスが向上するだけでなく、特定の設定でより良い結果が得られることを示している。
論文 参考訳(メタデータ) (2024-07-15T00:48:06Z) - Is Mamba Capable of In-Context Learning? [63.682741783013306]
GPT-4のような技術基盤モデルの現状は、文脈内学習(ICL)において驚くほどよく機能する
この研究は、新たに提案された状態空間モデルであるMambaが同様のICL能力を持つという実証的な証拠を提供する。
論文 参考訳(メタデータ) (2024-02-05T16:39:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。