論文の概要: Differential Mamba
- arxiv url: http://arxiv.org/abs/2507.06204v1
- Date: Tue, 08 Jul 2025 17:30:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-09 16:34:38.371741
- Title: Differential Mamba
- Title(参考訳): ディファレンシャル・マンバ
- Authors: Nadav Schneider, Itamar Zimerman, Eliya Nachmani,
- Abstract要約: TransformerやRNNのようなシーケンスモデルは、しばしば無関係なコンテキストに注意を向け、ノイズの多い中間表現をもたらす。
最近の研究は、差分設計がトランスフォーマーにおけるこの問題を緩和し、様々なアプリケーションにおけるそれらの効果を向上させることを示している。
本研究では,マンバへの微分設計の素直な適応は不十分であり,注意深いアーキテクチャ修正が必要であることを示す。
- 参考スコア(独自算出の注目度): 16.613266337054267
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Sequence models like Transformers and RNNs often overallocate attention to irrelevant context, leading to noisy intermediate representations. This degrades LLM capabilities by promoting hallucinations, weakening long-range and retrieval abilities, and reducing robustness. Recent work has shown that differential design can mitigate this issue in Transformers, improving their effectiveness across various applications. In this paper, we explore whether these techniques, originally developed for Transformers, can be applied to Mamba, a recent architecture based on selective state-space layers that achieves Transformer-level performance with greater efficiency. We show that a naive adaptation of differential design to Mamba is insufficient and requires careful architectural modifications. To address this, we introduce a novel differential mechanism for Mamba, empirically validated on language modeling benchmarks, demonstrating improved retrieval capabilities and superior performance over vanilla Mamba. Finally, we conduct extensive ablation studies and empirical analyses to justify our design choices and provide evidence that our approach effectively mitigates the overallocation problem in Mamba-based models. Our code is publicly available.
- Abstract(参考訳): TransformerやRNNのようなシーケンスモデルは、しばしば無関係なコンテキストに注意を向け、ノイズの多い中間表現をもたらす。
これにより、幻覚の促進、長距離検索能力の低下、ロバストネスの低下によりLCM能力を低下させる。
最近の研究は、差分設計がトランスフォーマーにおけるこの問題を緩和し、様々なアプリケーションにおけるそれらの効果を向上させることを示している。
本稿では,トランスフォーマーのために開発されたこれらの技術が,トランスフォーマーレベルの性能を高い効率で実現した選択状態空間層に基づく最近のアーキテクチャであるMambaに適用できるかどうかを考察する。
本研究では,マンバへの微分設計の素直な適応は不十分であり,注意深いアーキテクチャ修正が必要であることを示す。
そこで我々は,言語モデルベンチマークで実証的に検証し,検索能力の向上とバニラ・マンバよりも優れた性能を示す,新しいMambaの微分メカニズムを提案する。
最後に,提案手法がマンバモデルにおけるオーバロケーション問題を効果的に緩和する証拠として,設計選択を正当化するための広範囲なアブレーション研究と実証分析を行った。
私たちのコードは公開されています。
関連論文リスト
- TransMamba: Fast Universal Architecture Adaption from Transformers to Mamba [88.31117598044725]
本稿では,既存のTransformerモデルの知識を,TransMambaと呼ばれる代替アーキテクチャのMambaに伝達するクロスアーキテクチャトレーニングについて検討する。
提案手法では,新しいマンバモデルの訓練を高速化し,ユニモーダルタスクおよびクロスモーダルタスクにおける有効性を確保するための2段階戦略を採用している。
クロスモーダル学習のために,言語認識をMambaの視覚的特徴に統合し,Mambaアーキテクチャのクロスモーダルインタラクション能力を向上するクロスマンバモジュールを提案する。
論文 参考訳(メタデータ) (2025-02-21T01:22:01Z) - From Markov to Laplace: How Mamba In-Context Learns Markov Chains [36.22373318908893]
我々はマルコフ連鎖の文脈内学習について研究し、驚くべき現象を明らかにする。
トランスとは異なり、単層マンバでさえ、文脈内ラプラシアスムージング推定器を効率的に学習する。
これらの理論的な洞察は経験的な結果と強く一致し、マンバと最適統計推定器の間の最初の公式な関係を表す。
論文 参考訳(メタデータ) (2025-02-14T14:13:55Z) - State Space Models are Strong Text Rerankers [33.41687512973575]
Mambaのようなステートスペースモデル(SSM)は有望な利点を提供する。
その可能性にもかかわらず、SSMのテキストの再ランクにおける有効性は未定のままである。
Mambaアーキテクチャは、同様のサイズのトランスフォーマーベースのモデルに匹敵する、競合するテキストランキングのパフォーマンスを実現する。
論文 参考訳(メタデータ) (2024-12-18T21:42:15Z) - MobileMamba: Lightweight Multi-Receptive Visual Mamba Network [51.33486891724516]
従来の軽量モデルの研究は、主にCNNとTransformerベースの設計に重点を置いてきた。
効率と性能のバランスをとるMobileMambaフレームワークを提案する。
MobileMambaはTop-1で83.6%を達成し、既存の最先端の手法を上回っている。
論文 参考訳(メタデータ) (2024-11-24T18:01:05Z) - MambaPEFT: Exploring Parameter-Efficient Fine-Tuning for Mamba [0.5530212768657544]
ステートスペースモデル(SSM)ベースのモデルであるMambaは、トランスフォーマーの代替として注目されている。
Mambaに適用した場合のトランスフォーマーに対する既存のPEFT法の有効性について検討する。
本研究では,マンバの固有構造を利用した新しいPEFT法を提案する。
論文 参考訳(メタデータ) (2024-11-06T11:57:55Z) - ReMamba: Equip Mamba with Effective Long-Sequence Modeling [50.530839868893786]
本研究では,長い文脈の理解能力を高めるReMambaを提案する。
ReMambaは2段階のプロセスで選択的圧縮と適応のテクニックを取り入れている。
論文 参考訳(メタデータ) (2024-08-28T02:47:27Z) - A Survey of Mamba [27.939712558507516]
近年,基礎モデル構築の代替手段として,Mambaという新しいアーキテクチャが登場している。
本研究では,マンバモデルの発展,多様なデータにマンバを適応させる技術,およびマンバが優れている応用について検討する。
論文 参考訳(メタデータ) (2024-08-02T09:18:41Z) - An Empirical Study of Mamba-based Pedestrian Attribute Recognition [15.752464463535178]
本論文は,Mambaを2つの典型的なPARフレームワーク,テキスト画像融合アプローチと純粋ビジョンMambaマルチラベル認識フレームワークに設計・適応する。
属性タグを追加入力として操作することは、必ずしも改善につながるとは限らない。具体的には、Vimを拡張できるが、VMambaではできない。
これらの実験結果は、単にTransformerでMambaを拡張すれば、パフォーマンスが向上するだけでなく、特定の設定でより良い結果が得られることを示している。
論文 参考訳(メタデータ) (2024-07-15T00:48:06Z) - Venturing into Uncharted Waters: The Navigation Compass from Transformer to Mamba [77.21394300708172]
ディープニューラルネットワークアーキテクチャであるTransformerは、長年、自然言語処理などの分野を支配してきた。
マンバの最近の導入は、その優位性に挑戦し、研究者の間でかなりの関心を喚起し、マンバをベースとした一連のモデルが顕著な可能性を示している。
本研究は,総合的な議論をまとめ,本質的な研究の側面に潜り込み,(1)構造的状態空間モデルの原理に基づくマンバ機構の機能とその基盤,(2)提案されたマンバの様々なネットワークへの統合,(3)トランスフォーマーの代替としての可能性を探る。
論文 参考訳(メタデータ) (2024-06-24T15:27:21Z) - Demystify Mamba in Vision: A Linear Attention Perspective [72.93213667713493]
Mambaは線形計算複雑性を持つ効率的な状態空間モデルである。
我々は,Mambaが線形アテンショントランスフォーマーと驚くほど類似していることを示す。
本稿では,これら2つの鍵設計の利点を線形注意に取り入れた,マンバインスパイアされた線形注意(MILA)モデルを提案する。
論文 参考訳(メタデータ) (2024-05-26T15:31:09Z) - Is Mamba Capable of In-Context Learning? [63.682741783013306]
GPT-4のような技術基盤モデルの現状は、文脈内学習(ICL)において驚くほどよく機能する
この研究は、新たに提案された状態空間モデルであるMambaが同様のICL能力を持つという実証的な証拠を提供する。
論文 参考訳(メタデータ) (2024-02-05T16:39:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。