論文の概要: ReMamba: Equip Mamba with Effective Long-Sequence Modeling
- arxiv url: http://arxiv.org/abs/2408.15496v1
- Date: Wed, 28 Aug 2024 02:47:27 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-29 17:22:57.325388
- Title: ReMamba: Equip Mamba with Effective Long-Sequence Modeling
- Title(参考訳): ReMamba: 効果的なロングシーケンスモデリングを備えたEquip Mamba
- Authors: Danlong Yuan, Jiahao Liu, Bei Li, Huishuai Zhang, Jingang Wang, Xunliang Cai, Dongyan Zhao,
- Abstract要約: 本研究では,長い文脈の理解能力を高めるReMambaを提案する。
ReMambaは2段階のプロセスで選択的圧縮と適応のテクニックを取り入れている。
- 参考スコア(独自算出の注目度): 50.530839868893786
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While the Mamba architecture demonstrates superior inference efficiency and competitive performance on short-context natural language processing (NLP) tasks, empirical evidence suggests its capacity to comprehend long contexts is limited compared to transformer-based models. In this study, we investigate the long-context efficiency issues of the Mamba models and propose ReMamba, which enhances Mamba's ability to comprehend long contexts. ReMamba incorporates selective compression and adaptation techniques within a two-stage re-forward process, incurring minimal additional inference costs overhead. Experimental results on the LongBench and L-Eval benchmarks demonstrate ReMamba's efficacy, improving over the baselines by 3.2 and 1.6 points, respectively, and attaining performance almost on par with same-size transformer models.
- Abstract(参考訳): Mambaアーキテクチャは、短コンテキスト自然言語処理(NLP)タスクにおいて、推論効率と競合性能が優れていることを示す一方で、長いコンテキストを理解する能力はトランスフォーマーベースのモデルと比較して制限されていることを示す実証的な証拠である。
本研究では,マンバモデルの長期文脈効率問題について検討し,マンバの長期文脈理解能力を高めるReMambaを提案する。
ReMambaは2段階のリフォワードプロセスに選択的圧縮と適応技術を導入し、最小追加の推論コストのオーバーヘッドを発生させる。
LongBench と L-Eval のベンチマークによる実験結果は、ReMamba の有効性を示し、ベースラインを 3.2 と 1.6 に改善し、同じサイズのトランスフォーマーモデルとほぼ同等の性能を達成した。
関連論文リスト
- MambaVision: A Hybrid Mamba-Transformer Vision Backbone [54.965143338206644]
本稿では,視覚応用に適した新しいハイブリッド型Mamba-TransformerバックボーンであるMambaVisionを提案する。
私たちのコアコントリビューションには、視覚的特徴の効率的なモデリング能力を高めるために、Mambaの定式化を再設計することが含まれています。
視覚変換器(ViT)とマンバの統合可能性に関する包括的アブレーション研究を行う。
論文 参考訳(メタデータ) (2024-07-10T23:02:45Z) - Venturing into Uncharted Waters: The Navigation Compass from Transformer to Mamba [77.21394300708172]
ディープニューラルネットワークアーキテクチャであるTransformerは、長年、自然言語処理などの分野を支配してきた。
マンバの最近の導入は、その優位性に挑戦し、研究者の間でかなりの関心を喚起し、マンバをベースとした一連のモデルが顕著な可能性を示している。
本研究は,総合的な議論をまとめ,本質的な研究の側面に潜り込み,(1)構造的状態空間モデルの原理に基づくマンバ機構の機能とその基盤,(2)提案されたマンバの様々なネットワークへの統合,(3)トランスフォーマーの代替としての可能性を探る。
論文 参考訳(メタデータ) (2024-06-24T15:27:21Z) - DeciMamba: Exploring the Length Extrapolation Potential of Mamba [89.07242846058023]
本研究では,マンバに特化して設計された文脈拡張手法であるDeciMambaを紹介する。
DeciMambaは、トレーニング中に見たものよりも25倍長く、余分な計算資源を使わずに、コンテキスト長を外挿できることを示す。
論文 参考訳(メタデータ) (2024-06-20T17:40:18Z) - MambaLRP: Explaining Selective State Space Sequence Models [18.133138020777295]
マンバモデルは線形時間で長い列の効率的な処理を可能にする。
これらのモデルは、言語モデリングのような広範囲のアプリケーションで急速に採用されている。
現実のシナリオにおける信頼性の高い利用を促進するためには、透明性を高めることが重要です。
我々は、より安定かつ信頼性の高い関連伝播を保証するLRPフレームワーク内での新しいアルゴリズムであるMambaLRPを提案する。
論文 参考訳(メタデータ) (2024-06-11T12:15:47Z) - LLEMamba: Low-Light Enhancement via Relighting-Guided Mamba with Deep Unfolding Network [9.987504237289832]
深部展開ネットワーク(LLEMamba)を用いた照明誘導型マンバによる新しい低照度化手法を提案する。
我々のLLEMambaは、まず、深く展開するネットワークに乗算器の交互方向法(ADMM)に基づく反復最適化過程を組み込んだ、深い事前を持つRetinexモデルを構築した。
Transformerとは異なり、複数のイテレーションで深層展開フレームワークを支援するため、LLEMambaは計算複雑性の低い新しいMambaアーキテクチャを導入した。
論文 参考訳(メタデータ) (2024-06-03T06:23:28Z) - Mamba State-Space Models Can Be Strong Downstream Learners [1.6385815610837167]
マンバ状態空間モデル(SSM)は、最近様々なタスクにおいて最先端(SLLM)を上回っている。
混合精度(MPFT)と微細チューニング(PEFT)は低評価である。
我々は,MPFTとPEFTを組み合わせることで,最大で毎秒215倍,メモリあたり65.5%のトークンを削減できることを示した。
論文 参考訳(メタデータ) (2024-05-31T21:46:23Z) - Bi-Mamba+: Bidirectional Mamba for Time Series Forecasting [5.166854384000439]
長期時系列予測(LTSF)は、将来のトレンドとパターンに関するより長い洞察を提供する。
近年,Mamba という新しい状態空間モデル (SSM) が提案されている。
入力データに対する選択的機能とハードウェア対応並列計算アルゴリズムにより、Mambaは予測性能と計算効率のバランスをとる大きな可能性を示した。
論文 参考訳(メタデータ) (2024-04-24T09:45:48Z) - SPMamba: State-space model is all you need in speech separation [6.590157910988076]
状態空間モデルを用いた音声分離のためのネットワークアーキテクチャを提案する。
我々はTF-GridNetモデルを基本フレームワークとして採用し、Transformerコンポーネントを双方向のMambaモジュールで置き換える。
実験の結果,マンバモデルの性能面において重要な役割を担っていることが明らかとなった。
論文 参考訳(メタデータ) (2024-04-02T16:04:31Z) - Swin-UMamba: Mamba-based UNet with ImageNet-based pretraining [85.08169822181685]
本稿では,医療画像のセグメンテーションに特化して設計された新しいマンバモデルSwin-UMambaを紹介する。
Swin-UMamba は CNN や ViT,最新の Mamba ベースのモデルと比較して,優れたパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-02-05T18:58:11Z) - Is Mamba Capable of In-Context Learning? [63.682741783013306]
GPT-4のような技術基盤モデルの現状は、文脈内学習(ICL)において驚くほどよく機能する
この研究は、新たに提案された状態空間モデルであるMambaが同様のICL能力を持つという実証的な証拠を提供する。
論文 参考訳(メタデータ) (2024-02-05T16:39:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。