論文の概要: Is Mamba Capable of In-Context Learning?
- arxiv url: http://arxiv.org/abs/2402.03170v1
- Date: Mon, 5 Feb 2024 16:39:12 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-06 14:55:29.165310
- Title: Is Mamba Capable of In-Context Learning?
- Title(参考訳): mambaはコンテキスト内学習が可能か?
- Authors: Riccardo Grazzi, Julien Siems, Simon Schrodi, Thomas Brox, Frank
Hutter
- Abstract要約: Mambaは、新しく提案された選択的な状態空間モデルである。
マムバは文脈内学習におけるトランスフォーマーモデルの性能と一致することを示す。
- 参考スコア(独自算出の注目度): 68.3217718687615
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This work provides empirical evidence that Mamba, a newly proposed selective
structured state space model, has similar in-context learning (ICL)
capabilities as transformers. We evaluated Mamba on tasks involving simple
function approximation as well as more complex natural language processing
problems. Our results demonstrate that across both categories of tasks, Mamba
matches the performance of transformer models for ICL. Further analysis reveals
that like transformers, Mamba appears to solve ICL problems by incrementally
optimizing its internal representations. Overall, our work suggests that Mamba
can be an efficient alternative to transformers for ICL tasks involving longer
input sequences.
- Abstract(参考訳): この研究は、新しく提案された選択的構造化状態空間モデルであるmambaがトランスフォーマーと同じようなインコンテキスト学習(icl)能力を持っているという実証的な証拠を提供する。
単純な関数近似やより複雑な自然言語処理問題を含むタスクについてmambaを評価した。
以上の結果から,Mamba は ICL のトランスフォーマーモデルの性能に匹敵する性能を示した。
さらなる分析により、Mambaは変換器と同様に内部表現を漸進的に最適化することでICL問題を解くように見える。
全体として,より長い入力シーケンスを含むICLタスクのトランスフォーマーの代替として,Mambaが有効である可能性が示唆された。
関連論文リスト
- MobileMamba: Lightweight Multi-Receptive Visual Mamba Network [51.33486891724516]
従来の軽量モデルの研究は、主にCNNとTransformerベースの設計に重点を置いてきた。
効率と性能のバランスをとるMobileMambaフレームワークを提案する。
MobileMambaはTop-1で83.6%を達成し、既存の最先端の手法を上回っている。
論文 参考訳(メタデータ) (2024-11-24T18:01:05Z) - Bidirectional Gated Mamba for Sequential Recommendation [56.85338055215429]
最近の進歩であるMambaは、時系列予測において例外的なパフォーマンスを示した。
SIGMA(Selective Gated Mamba)と呼ばれる,シークエンシャルレコメンデーションのための新しいフレームワークを紹介する。
以上の結果から,SIGMAは5つの実世界のデータセットにおいて,現在のモデルよりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2024-08-21T09:12:59Z) - MambaMIM: Pre-training Mamba with State Space Token-interpolation [14.343466340528687]
選択構造状態空間補間(S6T)に基づくMamba(MambaMIM)の自己教師型学習手法を提案する。
MambaMIMは、Mambaの長距離表現能力を向上するために、任意の単一またはハイブリッドのMambaアーキテクチャで使用することができる。
論文 参考訳(メタデータ) (2024-08-15T10:35:26Z) - DeciMamba: Exploring the Length Extrapolation Potential of Mamba [89.07242846058023]
本研究では,マンバに特化して設計された文脈拡張手法であるDeciMambaを紹介する。
DeciMambaは、トレーニング中に見たものよりも25倍長く、余分な計算資源を使わずに、コンテキスト長を外挿できることを示す。
論文 参考訳(メタデータ) (2024-06-20T17:40:18Z) - An Empirical Study of Mamba-based Language Models [69.74383762508805]
Mambaのような選択的な状態空間モデル(SSM)はトランスフォーマーの欠点を克服する。
同じデータセット上で訓練された8B-context Mamba, Mamba-2, Transformer モデルを直接比較する。
8BのMamba-2-Hybridは、12の標準タスクで8BのTransformerを上回っている。
論文 参考訳(メタデータ) (2024-06-12T05:25:15Z) - RankMamba: Benchmarking Mamba's Document Ranking Performance in the Era of Transformers [2.8554857235549753]
トランスフォーマーアーキテクチャのコアメカニズム -- 注意には、トレーニングにおけるO(n2)$時間複雑さと推論におけるO(n)$時間複雑さが必要です。
状態空間モデルに基づく有名なモデル構造であるMambaは、シーケンスモデリングタスクにおいてトランスフォーマー等価のパフォーマンスを達成した。
同じトレーニングレシピを持つトランスフォーマーベースモデルと比較して,Mambaモデルは競争性能が向上することがわかった。
論文 参考訳(メタデータ) (2024-03-27T06:07:05Z) - Can Mamba Learn How to Learn? A Comparative Study on In-Context Learning Tasks [25.092302463435523]
状態空間モデル(SSM)は言語モデリングにおけるトランスフォーマーネットワークの代替として提案されている。
本研究では,各種タスクを対象としたトランスフォーマーモデルに対して,マンバに着目したSSMのICL性能を評価する。
論文 参考訳(メタデータ) (2024-02-06T18:56:35Z) - Mamba: Linear-Time Sequence Modeling with Selective State Spaces [31.985243136674146]
ファンデーションモデルは、ほぼ普遍的にTransformerアーキテクチャとコアアテンションモジュールに基づいている。
このようなモデルの重大な弱点は、コンテンツベースの推論を実行できないことである。
我々はこれらの選択的なSSMを、注意やブロック(Mamba)を使わずに、単純化されたエンドツーエンドニューラルネットワークアーキテクチャに統合する(Mamba)。
一般的なシーケンスモデルバックボーンとして、Mambaは言語、オーディオ、ゲノミクスといったいくつかのモードで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-12-01T18:01:34Z) - Transformers as Statisticians: Provable In-Context Learning with
In-Context Algorithm Selection [88.23337313766353]
この研究はまず、変換器がICLを実行するための包括的な統計理論を提供する。
コンテクストにおいて、トランスフォーマーは、幅広い種類の標準機械学習アルゴリズムを実装可能であることを示す。
エンフィングル変換器は、異なるベースICLアルゴリズムを適応的に選択することができる。
論文 参考訳(メタデータ) (2023-06-07T17:59:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。