論文の概要: Can Custom Models Learn In-Context? An Exploration of Hybrid Architecture Performance on In-Context Learning Tasks
- arxiv url: http://arxiv.org/abs/2411.03945v1
- Date: Wed, 06 Nov 2024 14:25:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-07 19:24:15.130005
- Title: Can Custom Models Learn In-Context? An Exploration of Hybrid Architecture Performance on In-Context Learning Tasks
- Title(参考訳): カスタムモデルはインコンテキストを学習できるか?-インコンテキスト学習課題におけるハイブリッドアーキテクチャ性能の探索
- Authors: Ryan Campbell, Nelson Lojo, Kesava Viswanadha, Christoffer Grondal Tryggestad, Derrick Han Sun, Sriteja Vijapurapu, August Rolfsen, Anant Sahai,
- Abstract要約: In-Context Learning (ICL) は、パラメータ更新を必要とせずに、プロンプトシーケンスを通じてタスク学習が行われる現象である。
GPT-2 と LLaMa と LlaMa と Mamba のアーキテクチャ的差異の影響について検討した。
そこで本研究では,特定のタスクにおけるモデル全体の性能を示すスカラーメトリックである「ICL回帰スコア」を提案する。
- 参考スコア(独自算出の注目度): 2.2665690736508894
- License:
- Abstract: In-Context Learning (ICL) is a phenomenon where task learning occurs through a prompt sequence without the necessity of parameter updates. ICL in Multi-Headed Attention (MHA) with absolute positional embedding has been the focus of more study than other sequence model varieties. We examine implications of architectural differences between GPT-2 and LLaMa as well as LlaMa and Mamba. We extend work done by Garg et al. (2022) and Park et al. (2024) to GPT-2/LLaMa hybrid and LLaMa/Mamba hybrid models - examining the interplay between sequence transformation blocks and regressive performance in-context. We note that certain architectural changes cause degraded training efficiency/ICL accuracy by converging to suboptimal predictors or converging slower. We also find certain hybrids showing optimistic performance improvements, informing potential future ICL-focused architecture modifications. Additionally, we propose the "ICL regression score", a scalar metric describing a model's whole performance on a specific task. Compute limitations impose restrictions on our architecture-space, training duration, number of training runs, function class complexity, and benchmark complexity. To foster reproducible and extensible research, we provide a typed, modular, and extensible Python package on which we run all experiments.
- Abstract(参考訳): In-Context Learning (ICL) は、パラメータ更新を必要とせずに、プロンプトシーケンスを通じてタスク学習が行われる現象である。
絶対的な位置埋め込みを持つMHA(Multi-Headed Attention)におけるICLは、他の配列モデルよりも多くの研究の焦点となっている。
GPT-2 と LLaMa と LlaMa と Mamba のアーキテクチャ的差異の影響について検討した。
本稿では,Garg et al (2022) と Park et al (2024) が行った作業を GPT-2/LLaMa ハイブリッドモデルと LLaMa/Mamba ハイブリッドモデルに拡張する。
また, あるアーキテクチャ変更が, 最適下界予測器に収束したり, 収束が遅くなったりすることで, トレーニング効率やICLの精度が低下することに注目した。
また、一部のハイブリッドは楽観的なパフォーマンス改善を示し、将来のICLにフォーカスしたアーキテクチャ修正を通知しています。
さらに、モデル全体の性能を特定のタスクで記述したスカラーメトリックである「ICL回帰スコア」を提案する。
計算の制限は、アーキテクチャ空間、トレーニング期間、トレーニングの実行回数、関数クラスの複雑性、ベンチマークの複雑さに制限を課します。
再現可能で拡張可能な研究を促進するため、すべての実験を実行するタイプ付き、モジュール型、拡張可能なPythonパッケージを提供しています。
関連論文リスト
- Theoretical Insights into Overparameterized Models in Multi-Task and Replay-Based Continual Learning [37.745896674964186]
マルチタスク学習(MTL)は,複数のタスクを同時に学習することで,複数のタスクにおけるモデルの一般化性能を向上させることを目的としている。
連続学習(CL)は、以前取得した知識を忘れずに、時間とともに新しい逐次到着タスクに適応する。
MTL設定におけるモデルの性能に及ぼす各種システムパラメータの影響を理論的に記述する。
その結果,バッファサイズとモデルキャパシティがCLセットアップの記憶率に及ぼす影響を明らかにし,最先端のCL手法のいくつかに光を当てるのに役立つことがわかった。
論文 参考訳(メタデータ) (2024-08-29T23:22:40Z) - Bidirectional Gated Mamba for Sequential Recommendation [56.85338055215429]
最近の進歩であるMambaは、時系列予測において例外的なパフォーマンスを示した。
SIGMA(Selective Gated Mamba)と呼ばれる,シークエンシャルレコメンデーションのための新しいフレームワークを紹介する。
以上の結果から,SIGMAは5つの実世界のデータセットにおいて,現在のモデルよりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2024-08-21T09:12:59Z) - Can Mamba Learn How to Learn? A Comparative Study on In-Context Learning Tasks [25.092302463435523]
状態空間モデル(SSM)は言語モデリングにおけるトランスフォーマーネットワークの代替として提案されている。
本研究では,各種タスクを対象としたトランスフォーマーモデルに対して,マンバに着目したSSMのICL性能を評価する。
論文 参考訳(メタデータ) (2024-02-06T18:56:35Z) - Is Mamba Capable of In-Context Learning? [63.682741783013306]
GPT-4のような技術基盤モデルの現状は、文脈内学習(ICL)において驚くほどよく機能する
この研究は、新たに提案された状態空間モデルであるMambaが同様のICL能力を持つという実証的な証拠を提供する。
論文 参考訳(メタデータ) (2024-02-05T16:39:12Z) - In-Context Learning Functions with Varying Number of Minima [3.3268674937926224]
最小値の異なる関数を近似する新しいタスクを提案する。
ミニマの数が増加するとICL性能が低下することがわかった。
同時に、我々はICLが2層ニューラルネットワーク(2NN)モデルより優れていることを示した。
論文 参考訳(メタデータ) (2023-11-21T11:33:03Z) - The Languini Kitchen: Enabling Language Modelling Research at Different
Scales of Compute [66.84421705029624]
本稿では,アクセル時間で測定された等価計算に基づくモデル比較を可能にする実験的プロトコルを提案する。
私たちは、既存の学術的ベンチマークを上回り、品質、多様性、文書の長さで上回る、大規模で多様で高品質な書籍データセットを前処理します。
この研究は、GPT-2アーキテクチャから派生したフィードフォワードモデルと、10倍のスループットを持つ新しいLSTMの形式でのリカレントモデルという2つのベースラインモデルも提供する。
論文 参考訳(メタデータ) (2023-09-20T10:31:17Z) - An Empirical Study of Multimodal Model Merging [148.48412442848795]
モデルマージは、異なるタスクでトレーニングされた複数のモデルを融合してマルチタスクソリューションを生成するテクニックである。
我々は、モダリティ固有のアーキテクチャのビジョン、言語、およびクロスモーダルトランスフォーマーをマージできる新しい目標に向けて研究を行っている。
本稿では,重み間の距離を推定し,マージ結果の指標となる2つの指標を提案する。
論文 参考訳(メタデータ) (2023-04-28T15:43:21Z) - Unifying Language Learning Paradigms [96.35981503087567]
データセットやセットアップ全体にわたって普遍的に有効である事前学習モデルのための統一的なフレームワークを提案する。
本研究では, 事前学習対象を相互に配置し, 異なる対象間の補間を効果的に行う方法を示す。
また,テキスト内学習において,ゼロショットSuperGLUEで175B GPT-3,ワンショット要約でT5-XXLの性能を3倍に向上させた。
論文 参考訳(メタデータ) (2022-05-10T19:32:20Z) - Hybrid Relation Guided Set Matching for Few-shot Action Recognition [51.3308583226322]
本稿では,2つの鍵成分を組み込んだHybrid Relation Guided Set Matching (HyRSM) 手法を提案する。
ハイブリッドリレーションモジュールの目的は、エピソード内の関連関係とクロスビデオの完全活用により、タスク固有の埋め込みを学習することである。
我々は,HyRSMを6つの挑戦的ベンチマークで評価した。
論文 参考訳(メタデータ) (2022-04-28T11:43:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。