Fugu-MT 論文翻訳(概要): Can Mamba Learn How to Learn? A Comparative Study on In-Context Learning Tasks

論文の概要: Can Mamba Learn How to Learn? A Comparative Study on In-Context Learning Tasks

arxiv url: http://arxiv.org/abs/2402.04248v1
Date: Tue, 6 Feb 2024 18:56:35 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-07 13:30:38.809492
Title: Can Mamba Learn How to Learn? A Comparative Study on In-Context Learning Tasks
Title（参考訳）: Mambaは学習方法を学ぶことができるか? 文脈内学習課題の比較研究
Authors: Jongho Park, Jaeseung Park, Zheyang Xiong, Nayoung Lee, Jaewoong Cho, Samet Oymak, Kangwook Lee, Dimitris Papailiopoulos
Abstract要約: 状態空間モデル(SSM)は言語モデリングにおけるトランスフォーマーネットワークの代替として提案されている。本研究では,各種タスクを対象としたトランスフォーマーモデルに対して,マンバに着目したSSMのICL性能を評価する。その結果、SSMは標準回帰ICLタスクにおいてトランスフォーマーと相容れない性能を示し、スパースパリティ学習のようなタスクでは優れていた。これらの制約に対処するため、我々はMambaとアテンションブロックを組み合わせたハイブリッドモデルを導入し、個別に苦労するタスクにおいて個々のモデルを上回るようにした。
参考スコア（独自算出の注目度）: 26.17303310342205
License: http://creativecommons.org/licenses/by/4.0/
Abstract: State-space models (SSMs), such as Mamba Gu & Dao (2034), have been proposed as alternatives to Transformer networks in language modeling, by incorporating gating, convolutions, and input-dependent token selection to mitigate the quadratic cost of multi-head attention. Although SSMs exhibit competitive performance, their in-context learning (ICL) capabilities, a remarkable emergent property of modern language models that enables task execution without parameter optimization, remain underexplored compared to Transformers. In this study, we evaluate the ICL performance of SSMs, focusing on Mamba, against Transformer models across various tasks. Our results show that SSMs perform comparably to Transformers in standard regression ICL tasks, while outperforming them in tasks like sparse parity learning. However, SSMs fall short in tasks involving non-standard retrieval functionality. To address these limitations, we introduce a hybrid model, \variant, that combines Mamba with attention blocks, surpassing individual models in tasks where they struggle independently. Our findings suggest that hybrid architectures offer promising avenues for enhancing ICL in language models.
Abstract（参考訳）: mamba gu & dao (2034) のような状態空間モデル (state-space model, ssm) は、言語モデリングにおけるトランスフォーマーネットワークの代替として、ゲーティング、畳み込み、入力依存のトークン選択を取り入れ、多頭注意の二次コストを緩和することで提案されている。 ssmは競合性能を示すが、その文脈内学習(icl)能力は、パラメータ最適化なしでタスクの実行を可能にする現代の言語モデルの驚くべき創発性であり、トランスフォーマーに比べて未熟である。本研究では,様々なタスクにまたがるトランスフォーマーモデルに対して,mambaに着目したssmsのicl性能を評価する。その結果、SSMは標準回帰ICLタスクにおいてトランスフォーマーと相容れない性能を示し、スパースパリティ学習のようなタスクでは優れていた。しかし、SSMは非標準検索機能を含むタスクでは不足している。これらの制約に対処するために,Mambaとアテンションブロックを組み合わせたハイブリッドモデルである \variant を導入する。この結果から,ハイブリッドアーキテクチャは言語モデルにおけるICL向上に有望な道筋であることを示唆した。

関連論文リスト

Samba+: General and Accurate Salient Object Detection via A More Unified Mamba-based Framework [66.2103745798444]
Saliency Mamba (Samba) は、純粋なMambaベースのアーキテクチャで、様々な異なるサルトオブジェクト検出タスクを柔軟に処理する。 Sambaは、計算コストの低い22データセット上の6つのSODタスクで、既存のメソッドを個別に上回ります。 Samba+は、トレーニング済みの汎用モデルを使用することで、これらのタスクとデータセット上でさらに優れた結果を得る。
論文参考訳（メタデータ） (2026-02-02T03:34:25Z)
Routing Mamba: Scaling State Space Models with Mixture-of-Experts Projection [88.47928738482719]
線形状態空間モデル(SSM)は、シーケンスモデリングにおいて顕著なパフォーマンス向上を提供する。 Mambaのような最近の進歩は、入力依存のゲーティングとハードウェア対応の実装により、SSMをさらに強化している。本稿では,線形射影の専門家による疎混合を用いてSSMパラメータをスケールする新しい手法であるRoM(Roing Mamba)を紹介する。
論文参考訳（メタデータ） (2025-06-22T19:26:55Z)
TransMamba: Fast Universal Architecture Adaption from Transformers to Mamba [88.31117598044725]
本稿では,既存のTransformerモデルの知識を,TransMambaと呼ばれる代替アーキテクチャのMambaに伝達するクロスアーキテクチャトレーニングについて検討する。提案手法では,新しいマンバモデルの訓練を高速化し,ユニモーダルタスクおよびクロスモーダルタスクにおける有効性を確保するための2段階戦略を採用している。クロスモーダル学習のために,言語認識をMambaの視覚的特徴に統合し,Mambaアーキテクチャのクロスモーダルインタラクション能力を向上するクロスマンバモジュールを提案する。
論文参考訳（メタデータ） (2025-02-21T01:22:01Z)
Mamba-SEUNet: Mamba UNet for Monaural Speech Enhancement [54.427965535613886]
Mambaは、新しいステートスペースモデル(SSM)として、自然言語処理やコンピュータビジョンに広く応用されている。本稿では,MambaとU-Net for SEタスクを統合する革新的なアーキテクチャであるMamba-SEUNetを紹介する。
論文参考訳（メタデータ） (2024-12-21T13:43:51Z)
State Space Models are Strong Text Rerankers [33.41687512973575]
Mambaのようなステートスペースモデル(SSM)は有望な利点を提供する。その可能性にもかかわらず、SSMのテキストの再ランクにおける有効性は未定のままである。 Mambaアーキテクチャは、同様のサイズのトランスフォーマーベースのモデルに匹敵する、競合するテキストランキングのパフォーマンスを実現する。
論文参考訳（メタデータ） (2024-12-18T21:42:15Z)
Learning Mamba as a Continual Learner: Meta-learning Selective State Space Models for Efficient Continual Learning [12.697915176594314]
継続学習(CL)は、すべてのサンプルを保存または再計算することなく、非定常データストリームから効率的に学習することを目的としている。過去の表現を全て残さずに、メタラーニングシーケンスに基づく連続学習者に焦点を当てた。 Mambaの強いシーケンスモデリング性能と注意のない性質を考慮し、重要な疑問を探る: Mambaのような注意のないモデルは、メタ大陸学習でうまく機能するのか?
論文参考訳（メタデータ） (2024-12-01T11:43:46Z)
Mamba-CL: Optimizing Selective State Space Model in Null Space for Continual Learning [54.19222454702032]
継続的学習は、AIモデルに時間とともに一連のタスクを学習する能力を持たせることを目的としている。ステートスペースモデル(SSM)はコンピュータビジョンにおいて顕著な成功を収めた。大規模マンバ基礎モデルのコアSSMを連続的に微調整するフレームワークであるMamba-CLを紹介する。
論文参考訳（メタデータ） (2024-11-23T06:36:16Z)
Longhorn: State Space Models are Amortized Online Learners [51.10124201221601]
ステートスペースモデル(SSM)は、トレーニング中に並列性を維持しながら線形デコード効率を提供する。本研究では、オンライン学習のレンズを通してSSM設計を探求し、特定のオンライン学習問題のメタモジュールとしてSSMを概念化する。我々は、オンライン連想的リコール問題を解決するためのクローズドフォームソリューションに類似した、新しいディープSSMアーキテクチャであるLonghornを紹介した。
論文参考訳（メタデータ） (2024-07-19T11:12:08Z)
GroupMamba: Parameter-Efficient and Accurate Group Visual State Space Model [66.35608254724566]
状態空間モデル(SSM)は、二次的複雑性を伴う長距離依存のモデリングにおいて効果的な性能を示した。しかし、純粋なSSMベースのモデルは、コンピュータビジョンタスクにおける安定性と最適性能の達成に関連する課題に直面している。本稿では,コンピュータビジョンのためのSSMベースのモデルをスケールする上での課題,特に大規模モデルの不安定性と非効率性について論じる。
論文参考訳（メタデータ） (2024-07-18T17:59:58Z)
Mamba State-Space Models Are Lyapunov-Stable Learners [1.6385815610837167]
Mamba State-space Model (SSM) は、最近様々なタスクでTransformer Large Language Model (LLM) より優れていることが示されている。我々は,Mambaのリカレントダイナミクスが小さな入力変化に対して堅牢であることを示す。また、命令チューニングにより、Mambaモデルはこのギャップを81%に、Mamba-2モデルはこのギャップを132%に制限できることを示す。
論文参考訳（メタデータ） (2024-05-31T21:46:23Z)
The Expressive Capacity of State Space Models: A Formal Language Perspective [0.8948475969696075]
線形状態空間モデル(SSM)に基づくリカレントモデルは、言語モデリング(LM)において有望な性能を示した。本稿では,変換器や従来のRNNと比較して,そのようなSSMの容量に関する包括的理論的研究を行う。
論文参考訳（メタデータ） (2024-05-27T17:46:57Z)
Boosting Continual Learning of Vision-Language Models via Mixture-of-Experts Adapters [65.15700861265432]
本稿では,視覚言語モデルを用いた漸進的学習における長期的忘れを緩和するパラメータ効率の連続学習フレームワークを提案する。提案手法では,Mixture-of-Experts (MoE)アダプタの統合により,事前学習したCLIPモデルの動的拡張を行う。視覚言語モデルのゼロショット認識能力を維持するために,分布判別オートセレクタを提案する。
論文参考訳（メタデータ） (2024-03-18T08:00:23Z)
Is Mamba Capable of In-Context Learning? [63.682741783013306]
GPT-4のような技術基盤モデルの現状は、文脈内学習(ICL)において驚くほどよく機能するこの研究は、新たに提案された状態空間モデルであるMambaが同様のICL能力を持つという実証的な証拠を提供する。
論文参考訳（メタデータ） (2024-02-05T16:39:12Z)
Scaling Vision-Language Models with Sparse Mixture of Experts [128.0882767889029]
提案手法は, 等価計算コストの高密度モデルに対して, 様々なベンチマークにおいて, 最先端性能を実現することができることを示す。我々の研究は、MoEモデルのトレーニングの安定化、モデル解釈可能性に対するMoEの影響の理解、ビジョン言語モデルをスケールする際の計算性能間のトレードオフのバランスに関する貴重な洞察を提供する。
論文参考訳（メタデータ） (2023-03-13T16:00:31Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。