論文の概要: Can Mamba Learn How to Learn? A Comparative Study on In-Context Learning
Tasks
- arxiv url: http://arxiv.org/abs/2402.04248v1
- Date: Tue, 6 Feb 2024 18:56:35 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-07 13:30:38.809492
- Title: Can Mamba Learn How to Learn? A Comparative Study on In-Context Learning
Tasks
- Title(参考訳): Mambaは学習方法を学ぶことができるか?
文脈内学習課題の比較研究
- Authors: Jongho Park, Jaeseung Park, Zheyang Xiong, Nayoung Lee, Jaewoong Cho,
Samet Oymak, Kangwook Lee, Dimitris Papailiopoulos
- Abstract要約: 状態空間モデル(SSM)は言語モデリングにおけるトランスフォーマーネットワークの代替として提案されている。
本研究では,各種タスクを対象としたトランスフォーマーモデルに対して,マンバに着目したSSMのICL性能を評価する。
その結果、SSMは標準回帰ICLタスクにおいてトランスフォーマーと相容れない性能を示し、スパースパリティ学習のようなタスクでは優れていた。
これらの制約に対処するため、我々はMambaとアテンションブロックを組み合わせたハイブリッドモデルを導入し、個別に苦労するタスクにおいて個々のモデルを上回るようにした。
- 参考スコア(独自算出の注目度): 26.17303310342205
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: State-space models (SSMs), such as Mamba Gu & Dao (2034), have been proposed
as alternatives to Transformer networks in language modeling, by incorporating
gating, convolutions, and input-dependent token selection to mitigate the
quadratic cost of multi-head attention. Although SSMs exhibit competitive
performance, their in-context learning (ICL) capabilities, a remarkable
emergent property of modern language models that enables task execution without
parameter optimization, remain underexplored compared to Transformers. In this
study, we evaluate the ICL performance of SSMs, focusing on Mamba, against
Transformer models across various tasks. Our results show that SSMs perform
comparably to Transformers in standard regression ICL tasks, while
outperforming them in tasks like sparse parity learning. However, SSMs fall
short in tasks involving non-standard retrieval functionality. To address these
limitations, we introduce a hybrid model, \variant, that combines Mamba with
attention blocks, surpassing individual models in tasks where they struggle
independently. Our findings suggest that hybrid architectures offer promising
avenues for enhancing ICL in language models.
- Abstract(参考訳): mamba gu & dao (2034) のような状態空間モデル (state-space model, ssm) は、言語モデリングにおけるトランスフォーマーネットワークの代替として、ゲーティング、畳み込み、入力依存のトークン選択を取り入れ、多頭注意の二次コストを緩和することで提案されている。
ssmは競合性能を示すが、その文脈内学習(icl)能力は、パラメータ最適化なしでタスクの実行を可能にする現代の言語モデルの驚くべき創発性であり、トランスフォーマーに比べて未熟である。
本研究では,様々なタスクにまたがるトランスフォーマーモデルに対して,mambaに着目したssmsのicl性能を評価する。
その結果、SSMは標準回帰ICLタスクにおいてトランスフォーマーと相容れない性能を示し、スパースパリティ学習のようなタスクでは優れていた。
しかし、SSMは非標準検索機能を含むタスクでは不足している。
これらの制約に対処するために,Mambaとアテンションブロックを組み合わせたハイブリッドモデルである \variant を導入する。
この結果から,ハイブリッドアーキテクチャは言語モデルにおけるICL向上に有望な道筋であることを示唆した。
関連論文リスト
- Is Mamba Capable of In-Context Learning? [68.3217718687615]
Mambaは、新しく提案された選択的な状態空間モデルである。
マムバは文脈内学習におけるトランスフォーマーモデルの性能と一致することを示す。
論文 参考訳(メタデータ) (2024-02-05T16:39:12Z) - SAPT: A Shared Attention Framework for Parameter-Efficient Continual
Learning of Large Language Models [74.48765681246947]
大規模言語モデル(LLM)を動的世界に展開するには,継続的な学習(CL)能力が不可欠である。
既存の方法は、パラメータ効率チューニング(PET)ブロックを用いてタスク固有の知識を取得するための学習モジュールと、テスト入力に対して対応するものを選択するための選択モジュールを考案する。
本稿では,共有注意学習と選択モジュールを通じてPET学習と選択を調整するための新しい共有注意フレームワーク(SAPT)を提案する。
論文 参考訳(メタデータ) (2024-01-16T11:45:03Z) - On Task Performance and Model Calibration with Supervised and
Self-Ensembled In-Context Learning [71.44986275228747]
In-context Learning (ICL) は、近年の大規模言語モデル(LLM)の進歩により、効率的なアプローチとなっている。
しかし、両方のパラダイムは、過信の批判的な問題(すなわち、誤校正)に苦しむ傾向にある。
論文 参考訳(メタデータ) (2023-12-21T11:55:10Z) - Mamba: Linear-Time Sequence Modeling with Selective State Spaces [37.786327629797654]
ファンデーションモデルは、ほぼ普遍的にTransformerアーキテクチャとコアアテンションモジュールに基づいている。
このようなモデルの重大な弱点は、コンテンツベースの推論を実行できないことである。
我々はこれらの選択的なSSMを、注意やブロック(Mamba)を使わずに、単純化されたエンドツーエンドニューラルネットワークアーキテクチャに統合する(Mamba)。
一般的なシーケンスモデルバックボーンとして、Mambaは言語、オーディオ、ゲノミクスといったいくつかのモードで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-12-01T18:01:34Z) - Simultaneous Machine Translation with Large Language Models [51.470478122113356]
我々は,SimulMTタスクに大規模言語モデルを適用する可能性を検討する。
MUST-Cデータセットと異なる9言語でtextttLlama2-7b-chatモデルを用いて実験を行った。
その結果,LLM は BLEU と LAAL の指標で専用MT モデルよりも優れていた。
論文 参考訳(メタデータ) (2023-09-13T04:06:47Z) - Challenges and Opportunities of Using Transformer-Based Multi-Task
Learning in NLP Through ML Lifecycle: A Survey [0.6240603866868214]
MTL(Multi-Task Learning)は,共同学習による効率向上とパフォーマンス向上のための,有望なアプローチとして登場した。
本稿では,機械学習ライフサイクルの典型的な段階を通じて,MLLアプローチを使用する上での課題と機会について論じる。
MTLと継続学習の両方を扱えるモデルを持つことは現実的だと思います。
論文 参考訳(メタデータ) (2023-08-16T09:11:00Z) - Scaling Vision-Language Models with Sparse Mixture of Experts [128.0882767889029]
提案手法は, 等価計算コストの高密度モデルに対して, 様々なベンチマークにおいて, 最先端性能を実現することができることを示す。
我々の研究は、MoEモデルのトレーニングの安定化、モデル解釈可能性に対するMoEの影響の理解、ビジョン言語モデルをスケールする際の計算性能間のトレードオフのバランスに関する貴重な洞察を提供する。
論文 参考訳(メタデータ) (2023-03-13T16:00:31Z) - Switchable Representation Learning Framework with Self-compatibility [50.48336074436792]
自己整合性(SFSC)を考慮した交換可能な表現学習フレームワークを提案する。
SFSCは1つのトレーニングプロセスを通じて、異なる能力を持つ一連の互換性のあるサブモデルを生成する。
SFSCは評価データセット上で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-06-16T16:46:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。