論文の概要: MAML-en-LLM: Model Agnostic Meta-Training of LLMs for Improved In-Context Learning
- arxiv url: http://arxiv.org/abs/2405.11446v1
- Date: Sun, 19 May 2024 04:49:42 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-21 17:37:55.798209
- Title: MAML-en-LLM: Model Agnostic Meta-Training of LLMs for Improved In-Context Learning
- Title(参考訳): MAML-en-LLM:改良型インコンテキスト学習のためのLLMのモデル非依存メタトレーニング
- Authors: Sanchit Sinha, Yuguang Yue, Victor Soto, Mayank Kulkarni, Jianhua Lu, Aidong Zhang,
- Abstract要約: 大規模言語モデル(LLM)のメタトレーニング手法であるMAML-en-LLMを提案する。
MAML-en-LLMは、解離したタスクでうまく機能するだけでなく、目に見えないタスクに適応する真の一般化可能なパラメータを学習することができる。
我々は、MAML-en-LLMが、目に見えないドメインと見えないドメインのトレーニングデータが少ない設定において、ベースラインよりも優れていることを示す。
- 参考スコア(独自算出の注目度): 43.512739869120125
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Adapting large language models (LLMs) to unseen tasks with in-context training samples without fine-tuning remains an important research problem. To learn a robust LLM that adapts well to unseen tasks, multiple meta-training approaches have been proposed such as MetaICL and MetaICT, which involve meta-training pre-trained LLMs on a wide variety of diverse tasks. These meta-training approaches essentially perform in-context multi-task fine-tuning and evaluate on a disjointed test set of tasks. Even though they achieve impressive performance, their goal is never to compute a truly general set of parameters. In this paper, we propose MAML-en-LLM, a novel method for meta-training LLMs, which can learn truly generalizable parameters that not only perform well on disjointed tasks but also adapts to unseen tasks. We see an average increase of 2% on unseen domains in the performance while a massive 4% improvement on adaptation performance. Furthermore, we demonstrate that MAML-en-LLM outperforms baselines in settings with limited amount of training data on both seen and unseen domains by an average of 2%. Finally, we discuss the effects of type of tasks, optimizers and task complexity, an avenue barely explored in meta-training literature. Exhaustive experiments across 7 task settings along with two data settings demonstrate that models trained with MAML-en-LLM outperform SOTA meta-training approaches.
- Abstract(参考訳): 大規模言語モデル(LLM)をコンテキスト内トレーニングサンプルで未確認のタスクに適用することは、依然として重要な研究課題である。
目立たないタスクに順応するロバストなLLMを学習するために,メタICLやメタICTといった多種多様なタスクにおいて,メタトレーニング済みのLLMを多種多様なタスクに適用するメタトレーニング手法が提案されている。
これらのメタトレーニングアプローチは、本質的にはコンテキスト内マルチタスクの微調整を行い、非結合なテストセットで評価する。
彼らは素晴らしいパフォーマンスを達成したとしても、真に一般的なパラメータの集合を計算することは決してない。
本稿では,メタ学習のための新しい手法であるMAML-en-LLMを提案する。
パフォーマンスの未確認領域では平均2%,適応性能では4%の大幅な改善が見られた。
さらに、MAML-en-LLMは、目視領域と目視領域の両方でトレーニングデータが少ない設定において、平均2%の精度でベースラインを上回ります。
最後に,メタ学習における課題の種類,最適化要因,タスク複雑性の影響について考察する。
7つのタスク設定にわたる排他的実験と2つのデータ設定は、MAML-en-LLMでトレーニングされたモデルがSOTAメタトレーニングアプローチより優れていることを示す。
関連論文リスト
- SELF-GUIDE: Better Task-Specific Instruction Following via Self-Synthetic Finetuning [70.21358720599821]
大規模言語モデル(LLM)は、適切な自然言語プロンプトを提供する際に、多様なタスクを解決するという約束を持っている。
学生LLMからタスク固有の入出力ペアを合成する多段階メカニズムであるSELF-GUIDEを提案する。
ベンチマークの指標から,分類タスクに約15%,生成タスクに18%の絶対的な改善を報告した。
論文 参考訳(メタデータ) (2024-07-16T04:41:58Z) - MetaGPT: Merging Large Language Models Using Model Exclusive Task Arithmetic [6.46176287368784]
textbfGPTスケールモデルをマージするための textbfModel textbfExclusive textbfTask textbfArithmetic を提案する。
提案するMetaGPTは,データに依存しず,検索処理を回避し,低コストで実装が容易なメタGPTである。
論文 参考訳(メタデータ) (2024-06-17T10:12:45Z) - Task-Distributionally Robust Data-Free Meta-Learning [99.56612787882334]
Data-Free Meta-Learning (DFML)は、複数の事前学習モデルを活用することで、独自のトレーニングデータを必要とせずに、新しいタスクを効率的に学習することを目的としている。
TDS(Task-Distribution Shift)とTDC(Task-Distribution Corruption)の2つの大きな課題を初めて明らかにした。
論文 参考訳(メタデータ) (2023-11-23T15:46:54Z) - TRACE: A Comprehensive Benchmark for Continual Learning in Large
Language Models [52.734140807634624]
調整された大規模言語モデル(LLM)は、タスク解決、指示に従うこと、安全性を確保することにおいて、例外的な能力を示す。
既存の連続学習ベンチマークでは、LLMをリードする上で十分な課題が欠如している。
LLMにおける継続学習を評価するための新しいベンチマークであるTRACEを紹介する。
論文 参考訳(メタデータ) (2023-10-10T16:38:49Z) - MetaICL: Learning to Learn In Context [87.23056864536613]
そこで我々は,メタICLというメタトレーニングフレームワークを紹介した。このフレームワークでは,事前学習された言語モデルが,大量のトレーニングタスクに対してコンテキスト内学習を行うように調整されている。
その結果,MetaICLは,目標タスクトレーニングデータに対して完全に微調整されたモデルの性能にアプローチ(時には打ち負かす)し,ほぼ8倍のパラメータを持つモデルよりも優れた性能を示すことがわかった。
論文 参考訳(メタデータ) (2021-10-29T17:42:08Z) - Meta-Learning with Fewer Tasks through Task Interpolation [67.03769747726666]
現在のメタ学習アルゴリズムは多数のメタトレーニングタスクを必要としており、実際のシナリオではアクセスできない可能性がある。
タスクグラデーションを用いたメタラーニング(MLTI)により,タスクのペアをランダムにサンプリングし,対応する特徴やラベルを補間することにより,タスクを効果的に生成する。
実証的な実験では,提案する汎用MLTIフレームワークが代表的なメタ学習アルゴリズムと互換性があり,他の最先端戦略を一貫して上回っていることがわかった。
論文 参考訳(メタデータ) (2021-06-04T20:15:34Z) - A Nested Bi-level Optimization Framework for Robust Few Shot Learning [10.147225934340877]
NestedMAMLはトレーニングタスクやインスタンスに重みを割り当てることを学ぶ。
合成および実世界のデータセットの実験では、NestedMAMLは「不要な」タスクやインスタンスの効果を効率的に緩和している。
論文 参考訳(メタデータ) (2020-11-13T06:41:22Z) - BI-MAML: Balanced Incremental Approach for Meta Learning [9.245355087256314]
本稿では,複数のタスクを学習するための新しいバランス付きインクリメンタルモデルAgnostic Meta Learningシステム(BI-MAML)を提案する。
本手法では,従来のタスクを忘れることなく,新たなタスクにモデルを漸進的に適応させるメタ更新ルールを実装している。
本システムでは,数ショットでメタ更新を行い,その達成に成功している。
論文 参考訳(メタデータ) (2020-06-12T18:28:48Z) - Structured Prediction for Conditional Meta-Learning [44.30857707980074]
構造化予測を用いた条件付きメタラーニングの新しい視点を提案する。
タスク適応型構造化メタラーニング(TASML: Task-Adaptive Structured Meta-learning)は,タスク固有目的関数を生成する基本的フレームワークである。
実験により,TASMLは既存のメタラーニングモデルの性能を向上し,ベンチマークデータセットの最先端性を上回った。
論文 参考訳(メタデータ) (2020-02-20T15:24:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。