論文の概要: In-context Learning Distillation: Transferring Few-shot Learning Ability
of Pre-trained Language Models
- arxiv url: http://arxiv.org/abs/2212.10670v1
- Date: Tue, 20 Dec 2022 22:11:35 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-22 13:54:37.755512
- Title: In-context Learning Distillation: Transferring Few-shot Learning Ability
of Pre-trained Language Models
- Title(参考訳): in-context learning distillation: 事前学習した言語モデルのマイナショット学習能力の伝達
- Authors: Yukun Huang, Yanda Chen, Zhou Yu, Kathleen McKeown
- Abstract要約: そこで本研究では,大規模モデルから小型モデルへ,文脈内数ショット学習能力を移行するために,文脈内学習蒸留を導入する。
メタ・イン・コンテクスト・タニング(Meta-ICT)とマルチタスク・イン・コンテクスト・タニング(Multitask-ICT)の2つの異なる学習パラダイムの下で、イン・コンテクスト・ラーニング・蒸留を行う。
実験と分析により,マルチタスクICTパラダイムの下で,文脈内学習の目的と言語モデリングの目的が相補的であることが明らかとなった。
- 参考スコア(独自算出の注目度): 55.78264509270503
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Given the success with in-context learning of large pre-trained language
models, we introduce in-context learning distillation to transfer in-context
few-shot learning ability from large models to smaller models. We propose to
combine in-context learning objectives with language modeling objectives to
distill both the ability to read in-context examples and task knowledge to the
smaller models. We perform in-context learning distillation under two different
few-shot learning paradigms: Meta In-context Tuning (Meta-ICT) and Multitask
In-context Tuning (Multitask-ICT). Multitask-ICT performs better on multitask
few-shot learning but also requires more computation than Meta-ICT. Our method
shows consistent improvements for both Meta-ICT and Multitask-ICT on two
benchmarks: LAMA and CrossFit. Our extensive experiments and analysis reveal
that in-context learning objectives and language modeling objectives are
complementary under the Multitask-ICT paradigm. In-context learning objectives
achieve the best performance when combined with language modeling objectives.
- Abstract(参考訳): 大規模事前学習型言語モデルのコンテキスト内学習の成功を踏まえて,コンテキスト内学習能力を大規模モデルから小規模モデルに移すために,コンテキスト内学習蒸留を導入する。
文脈内学習の目的と言語モデリングの目的を組み合わせることで、文脈内例を読む能力とタスク知識をより小さなモデルに割くことを提案する。
メタ・イン・コンテクスト・チューニング(Meta-ICT)とマルチタスク・イン・コンテクスト・チューニング(Multitask-ICT)の2つの異なる学習パラダイムの下で,イン・コンテクスト学習蒸留を行う。
マルチタスクICTはマルチタスクによる数ショット学習では優れるが、メタICTよりも多くの計算を必要とする。
LAMAとCrossFitの2つのベンチマークでメタICTとマルチタスクICTの整合性向上を示す。
広範な実験と分析により,マルチタスクictパラダイム下では,文脈内学習目標と言語モデリング目標が補完的であることが判明した。
文脈内学習の目的は、言語モデリングの目的と組み合わせることで、最高のパフォーマンスを達成する。
関連論文リスト
- Scalable Language Model with Generalized Continual Learning [58.700439919096155]
The Joint Adaptive Re-ization (JARe) is integrated with Dynamic Task-related Knowledge Retrieval (DTKR) to enable adapt adjust of language model based on specific downstream task。
提案手法は,様々なバックボーンやベンチマーク上での最先端性能を実証し,最小限の忘れを伴い,フルセットおよび少数ショットのシナリオにおいて効果的な連続学習を実現する。
論文 参考訳(メタデータ) (2024-04-11T04:22:15Z) - SINC: Self-Supervised In-Context Learning for Vision-Language Tasks [64.44336003123102]
大規模言語モデルにおけるコンテキスト内学習を実現するためのフレームワークを提案する。
メタモデルは、カスタマイズされたデモからなる自己教師型プロンプトで学ぶことができる。
実験の結果、SINCは様々な視覚言語タスクにおいて勾配に基づく手法よりも優れていた。
論文 参考訳(メタデータ) (2023-07-15T08:33:08Z) - MetaVL: Transferring In-Context Learning Ability From Language Models to
Vision-Language Models [74.89629463600978]
視覚言語領域では、ほとんどの大規模事前学習された視覚言語モデルは、文脈内学習を行う能力を持っていない。
本稿では,言語領域から視覚領域へコンテキスト内学習能力を移行できるのか,という興味深い仮説を考察する。
論文 参考訳(メタデータ) (2023-06-02T07:21:03Z) - Meta-in-context learning in large language models [38.28912796214566]
インコンテキストラーニング(In-context learning) — 多数のデモが提供された後にタスクで改善する能力 — は、彼らの成功の主要な貢献者のひとつだと見なされている。
私たちはこの現象をメタ・イン・コンテクスト・ラーニング(meta-in-context learning)と呼ぶ。
メタ・イン・コンテクスト学習は,期待されたタスクに対する大きな言語モデルの先行性を適応的に再認識することを示す。
論文 参考訳(メタデータ) (2023-05-22T10:40:36Z) - Meta Learning to Bridge Vision and Language Models for Multimodal
Few-Shot Learning [38.37682598345653]
視覚モデルと言語モデルとのギャップを埋めるために,マルチモーダルなメタ学習手法を導入する。
我々は,凍結した大規模視覚と言語モデルを効率的にブリッジするためにメタラーナーとして機能するメタマッパーネットワークを定義する。
我々は,最近提案されたマルチモーダル・スショット・ベンチマークに対するアプローチを評価し,新しい視覚概念を単語に結合する速度を計測した。
論文 参考訳(メタデータ) (2023-02-28T17:46:18Z) - Few-shot Multimodal Multitask Multilingual Learning [0.0]
我々は、事前学習された視覚と言語モデルを適用することで、マルチモーダルマルチタスク(FM3)設定のための数ショット学習を提案する。
FM3は、ビジョンと言語領域における最も顕著なタスクと、それらの交差点を学習する。
論文 参考訳(メタデータ) (2023-02-19T03:48:46Z) - Multitask Learning for Low Resource Spoken Language Understanding [26.106133114838215]
我々は、自動音声認識と意図分類、感情分類を用いて、二重目的のモデルを訓練する。
我々のモデルは、控えめなサイズではあるが、意図の分類に基づいて訓練されたモデルよりも改善されている。
本研究では,低リソースシナリオにおけるモデルの性能を,クラス毎に1つの例でトレーニングすることで検討する。
論文 参考訳(メタデータ) (2022-11-24T16:38:17Z) - Context-Aware Language Modeling for Goal-Oriented Dialogue Systems [84.65707332816353]
我々は、部分的に観察されたマルコフ決定過程としてゴール指向対話を定式化する。
目的を意識して言語モデルを微調整する,シンプルで効果的な手法を考案する。
本研究では,AirDialogue を用いた実践的なフライト予約タスクについて評価する。
論文 参考訳(メタデータ) (2022-04-18T17:23:11Z) - MetaICL: Learning to Learn In Context [87.23056864536613]
そこで我々は,メタICLというメタトレーニングフレームワークを紹介した。このフレームワークでは,事前学習された言語モデルが,大量のトレーニングタスクに対してコンテキスト内学習を行うように調整されている。
その結果,MetaICLは,目標タスクトレーニングデータに対して完全に微調整されたモデルの性能にアプローチ(時には打ち負かす)し,ほぼ8倍のパラメータを持つモデルよりも優れた性能を示すことがわかった。
論文 参考訳(メタデータ) (2021-10-29T17:42:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。