論文の概要: Is Mamba Capable of In-Context Learning?
- arxiv url: http://arxiv.org/abs/2402.03170v2
- Date: Wed, 24 Apr 2024 12:21:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-26 20:58:26.855358
- Title: Is Mamba Capable of In-Context Learning?
- Title(参考訳): Mambaは文脈内学習が可能なのか?
- Authors: Riccardo Grazzi, Julien Siems, Simon Schrodi, Thomas Brox, Frank Hutter,
- Abstract要約: GPT-4のような技術基盤モデルの現状は、文脈内学習(ICL)において驚くほどよく機能する
この研究は、新たに提案された状態空間モデルであるMambaが同様のICL能力を持つという実証的な証拠を提供する。
- 参考スコア(独自算出の注目度): 63.682741783013306
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: State of the art foundation models such as GPT-4 perform surprisingly well at in-context learning (ICL), a variant of meta-learning concerning the learned ability to solve tasks during a neural network forward pass, exploiting contextual information provided as input to the model. This useful ability emerges as a side product of the foundation model's massive pretraining. While transformer models are currently the state of the art in ICL, this work provides empirical evidence that Mamba, a newly proposed state space model which scales better than transformers w.r.t. the input sequence length, has similar ICL capabilities. We evaluated Mamba on tasks involving simple function approximation as well as more complex natural language processing problems. Our results demonstrate that, across both categories of tasks, Mamba closely matches the performance of transformer models for ICL. Further analysis reveals that, like transformers, Mamba appears to solve ICL problems by incrementally optimizing its internal representations. Overall, our work suggests that Mamba can be an efficient alternative to transformers for ICL tasks involving long input sequences. This is an exciting finding in meta-learning and may enable generalizations of in-context learned AutoML algorithms (like TabPFN or Optformer) to long input sequences.
- Abstract(参考訳): GPT-4のような最先端技術基盤モデルは、ニューラルネットワークのフォワードパス中にタスクを解決するための学習能力に関するメタラーニングの変種であるインコンテキストラーニング(ICL)において驚くほどうまく機能し、モデルへの入力として提供されるコンテキスト情報を活用する。
この有用な機能は、基礎モデルの大規模な事前訓練の副産物として現れる。
現在、トランスモデルはICLの最先端技術であるが、この研究は、入力シーケンス長のトランスフォーマーよりも優れたスケールを持つ新しい状態空間モデルであるMambaが、同様のICL機能を持つという実証的な証拠を提供する。
我々は,より複雑な自然言語処理問題だけでなく,単純な関数近似を含むタスクにおいて,Mambaを評価した。
以上の結果から,タスクのカテゴリによって,MambaはICLのトランスフォーマーモデルの性能と密に一致していることがわかった。
さらなる分析により、Mambaは変換器と同様に内部表現を漸進的に最適化することでICL問題を解くように見える。
全体としては,長い入力シーケンスを含むICLタスクのトランスフォーマーの代替として,Mambaが有効である可能性が示唆されている。
これはメタ学習におけるエキサイティングな発見であり、コンテキスト内で学習したAutoMLアルゴリズム(TabPFNやOptformerなど)の長い入力シーケンスへの一般化を可能にする可能性がある。
関連論文リスト
- LightM-UNet: Mamba Assists in Lightweight UNet for Medical Image
Segmentation [10.563051220050035]
本稿では,軽量なフレームワークとして,Mamba と UNet を統合した Lightweight Mamba UNet (LightM-UNet) を紹介する。
特に、LightM-UNetはResidual Vision Mamba Layerを純粋なMamba方式で利用し、深い意味的特徴を抽出し、長距離空間依存をモデル化する。
2つの実世界の2D/3Dデータセットで実施された実験は、LightM-UNetが既存の最先端の文献を上回っていることを示している。
論文 参考訳(メタデータ) (2024-03-08T12:07:42Z) - MiM-ISTD: Mamba-in-Mamba for Efficient Infrared Small Target Detection [76.21293341906674]
基本モデルの開発により、赤外線小目標検出(ISTD)は大きな進歩を遂げた。
効率的なISTDのためのMamba-in-Mamba (MiM-ISTD) 構造を調整する。
NUAA-SIRSTとIRSTD-1kを用いた実験により,本手法の精度と効率が向上した。
論文 参考訳(メタデータ) (2024-03-04T15:57:29Z) - The Hidden Attention of Mamba Models [61.25846109294293]
Mamba層は効率的な選択状態空間モデル(SSM)を提供する。
このようなモデルを注意駆動モデルとみなすことができる。
この新たな視点により、トランスの自己注意層と基礎となるメカニズムを比較することができる。
論文 参考訳(メタデータ) (2024-03-03T18:58:21Z) - Can Mamba Learn How to Learn? A Comparative Study on In-Context Learning
Tasks [26.17303310342205]
状態空間モデル(SSM)は言語モデリングにおけるトランスフォーマーネットワークの代替として提案されている。
本研究では,各種タスクを対象としたトランスフォーマーモデルに対して,マンバに着目したSSMのICL性能を評価する。
その結果、SSMは標準回帰ICLタスクにおいてトランスフォーマーと相容れない性能を示し、スパースパリティ学習のようなタスクでは優れていた。
これらの制約に対処するため、我々はMambaとアテンションブロックを組み合わせたハイブリッドモデルを導入し、個別に苦労するタスクにおいて個々のモデルを上回るようにした。
論文 参考訳(メタデータ) (2024-02-06T18:56:35Z) - Swin-UMamba: Mamba-based UNet with ImageNet-based pretraining [85.08169822181685]
本稿では,医療画像のセグメンテーションに特化して設計された新しいマンバモデルSwin-UMambaを紹介する。
Swin-UMamba は CNN や ViT,最新の Mamba ベースのモデルと比較して,優れたパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-02-05T18:58:11Z) - MambaByte: Token-free Selective State Space Model [77.13933962001666]
MambaByteは、Mamba状態空間モデルのトークンフリー適応である。
我々は、MambaByteが最先端のサブワードトランスフォーマーと競合し、さらに上回っていることを示す。
論文 参考訳(メタデータ) (2024-01-24T18:53:53Z) - MoE-Mamba: Efficient Selective State Space Models with Mixture of
Experts [4.293771840782942]
状態空間モデル(SSM)は、シーケンシャルモデリングの分野において真剣な競争者となっている。
MoEは、最近の最先端のオープンモデルを含むトランスフォーマーベースの大規模言語モデルを大幅に改善した。
スケーリングのためのSSMの可能性を解き放つためには、MoEと組み合わせるべきである。
論文 参考訳(メタデータ) (2024-01-08T18:35:07Z) - Mamba: Linear-Time Sequence Modeling with Selective State Spaces [37.786327629797654]
ファンデーションモデルは、ほぼ普遍的にTransformerアーキテクチャとコアアテンションモジュールに基づいている。
このようなモデルの重大な弱点は、コンテンツベースの推論を実行できないことである。
我々はこれらの選択的なSSMを、注意やブロック(Mamba)を使わずに、単純化されたエンドツーエンドニューラルネットワークアーキテクチャに統合する(Mamba)。
一般的なシーケンスモデルバックボーンとして、Mambaは言語、オーディオ、ゲノミクスといったいくつかのモードで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-12-01T18:01:34Z) - Transformers as Statisticians: Provable In-Context Learning with
In-Context Algorithm Selection [88.23337313766353]
この研究はまず、変換器がICLを実行するための包括的な統計理論を提供する。
コンテクストにおいて、トランスフォーマーは、幅広い種類の標準機械学習アルゴリズムを実装可能であることを示す。
エンフィングル変換器は、異なるベースICLアルゴリズムを適応的に選択することができる。
論文 参考訳(メタデータ) (2023-06-07T17:59:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。