論文の概要: What In-Context Learning "Learns" In-Context: Disentangling Task
Recognition and Task Learning
- arxiv url: http://arxiv.org/abs/2305.09731v1
- Date: Tue, 16 May 2023 18:05:19 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-18 18:51:11.145221
- Title: What In-Context Learning "Learns" In-Context: Disentangling Task
Recognition and Task Learning
- Title(参考訳): コンテキスト内学習"学習"とは何か - タスク認識とタスク学習の分離
- Authors: Jane Pan, Tianyu Gao, Howard Chen, Danqi Chen
- Abstract要約: 大規模言語モデル(LLM)は、いくつかのデモでタスクを解くためにコンテキスト内学習(ICL)を利用する。
ICLがデモを利用する2つの方法の特徴付けを行う。
TRのみを用いて非自明な性能を達成でき、TRはより大きなモデルやより多くのデモでさらに改善されないことを示す。
- 参考スコア(独自算出の注目度): 24.395288160951118
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) exploit in-context learning (ICL) to solve tasks
with only a few demonstrations, but its mechanisms are not yet well-understood.
Some works suggest that LLMs only recall already learned concepts from
pre-training, while others hint that ICL performs implicit learning over
demonstrations. We characterize two ways through which ICL leverages
demonstrations. Task recognition (TR) captures the extent to which LLMs can
recognize a task through demonstrations -- even without ground-truth labels --
and apply their pre-trained priors, whereas task learning (TL) is the ability
to capture new input-label mappings unseen in pre-training. Using a wide range
of classification datasets and three LLM families (GPT-3, LLaMA and OPT), we
design controlled experiments to disentangle the roles of TR and TL in ICL. We
show that (1) models can achieve non-trivial performance with only TR, and TR
does not further improve with larger models or more demonstrations; (2) LLMs
acquire TL as the model scales, and TL's performance consistently improves with
more demonstrations in context. Our findings unravel two different forces
behind ICL and we advocate for discriminating them in future ICL research due
to their distinct nature.
- Abstract(参考訳): 大規模言語モデル(LLM)は、いくつかの実演でタスクを解くためにコンテキスト内学習(ICL)を利用するが、そのメカニズムはまだよく理解されていない。
一部の研究は、LCMが既に事前学習から学んだ概念だけを思い出すのに対し、ICLはデモよりも暗黙の学習を行っていることを示唆している。
iclがデモを活用する2つの方法を特徴付ける。
タスク認識(TR)は、LLMがデモを通じてタスクを認識できる範囲を -- 基調ラベルなしでも -- キャプチャし、事前トレーニングを適用できるのに対して、タスク学習(TL)は、事前トレーニングで見えない新しい入力ラベルマッピングをキャプチャする能力である。
幅広い分類データセットと3つのLLMファミリー(GPT-3, LLaMA, OPT)を用いて, ICLにおけるTRとTLの役割を阻害する制御実験を設計した。
1)モデルがTRのみで非自明な性能を達成でき、TRがより大きなモデルやより多くのデモでさらに改善されないこと、(2)LLMがモデルスケールとしてTLを取得し、TLの性能はコンテキストにおけるより多くのデモで一貫して改善されることを示す。
ICLの背景にある2つの異なる力を解明し,今後のICL研究における差別を提唱した。
関連論文リスト
- ICL-D3IE: In-Context Learning with Diverse Demonstrations Updating for
Document Information Extraction [64.86937747851897]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて、文脈内学習による顕著な結果を示している。
ICL-D3IEと呼ばれるシンプルだが効果的なインコンテキスト学習フレームワークを提案し、LLMが異なる種類の実演例でDIEを実行できるようにする。
論文 参考訳(メタデータ) (2023-03-09T06:24:50Z) - Complementary Explanations for Effective In-Context Learning [77.83124315634386]
大規模言語モデル (LLM) は、説明のインプロンプトから学習する際、顕著な能力を示した。
この研究は、文脈内学習に説明が使用されるメカニズムをよりよく理解することを目的としている。
論文 参考訳(メタデータ) (2022-11-25T04:40:47Z) - Decoupled Adversarial Contrastive Learning for Self-supervised
Adversarial Robustness [69.39073806630583]
頑健な表現学習のための対人訓練(AT)と教師なし表現学習のための自己教師型学習(SSL)は2つの活発な研究分野である。
Decoupled Adversarial Contrastive Learning (DeACL) と呼ばれる2段階のフレームワークを提案する。
論文 参考訳(メタデータ) (2022-07-22T06:30:44Z) - DUET: Cross-modal Semantic Grounding for Contrastive Zero-shot Learning [37.48292304239107]
本稿では, DUET という変換器を用いたエンドツーエンドZSL手法を提案する。
画像からセマンティック属性を分離するモデルの能力を調べるために,モーダルなセマンティックグラウンドネットワークを開発した。
DUETは、しばしば最先端のパフォーマンスを達成することができ、そのコンポーネントは有効であり、予測は解釈可能である。
論文 参考訳(メタデータ) (2022-07-04T11:12:12Z) - Self-Generated In-Context Learning: Leveraging Auto-regressive Language
Models as a Demonstration Generator [22.532627423361177]
自己生成型インコンテキスト学習(SG-ICL)は、PLM自体からインコンテキスト学習のためのデモを生成する。
我々は、SG-ICLがゼロショット学習を著しく上回り、一般的に約0.6金のトレーニングサンプルの価値があることを示した。
論文 参考訳(メタデータ) (2022-06-16T10:52:13Z) - Rethinking the Role of Demonstrations: What Makes In-Context Learning
Work? [112.72413411257662]
大規模言語モデル(LM)は、いくつかのインプットラベルペア(デモ)を条件付けして、新しいインプットの予測を行うことで、インコンテキストで学習することができる。
実演のラベルをランダムに置き換えることは、パフォーマンスをほとんど損なうものではない。
デモの他の側面が、エンドタスクのパフォーマンスの主要な要因であることに気付きました。
論文 参考訳(メタデータ) (2022-02-25T17:25:19Z) - MAML and ANIL Provably Learn Representations [60.17417686153103]
我々は,MAMLとANILという2つの有名なメタ学習手法が,与えられたタスク群間の共通表現を学習可能であることを証明した。
具体的には、よく知られたマルチタスク線形表現学習環境では、指数関数的に高速な速度で接地トラス表現を復元することができる。
解析の結果,MAMLとANILがベースとなる表現を回復させる駆動力は,モデルの最終層に適応していることが判明した。
論文 参考訳(メタデータ) (2022-02-07T19:43:02Z) - Speech Representation Learning Through Self-supervised Pretraining And
Multi-task Finetuning [63.38155671200249]
MTLファインタニングはSSLプリトレーニングをさらに改善できることを示す。
教師付きMLLファインタニングの一般化性を分析し,MTLファインタニングで学習した音声表現が新たなタスクに一般化できるかどうかを検討する。
論文 参考訳(メタデータ) (2021-10-18T07:16:04Z) - Elaborating on Learned Demonstrations with Temporal Logic Specifications [20.815131169609316]
私たちのシステムは、トレーニングで見られるものだけでなく、目に見えない入力に関する所定の仕様を満たすことを学びます。
より単純な仕様をインクリメンタルに構成することで、複雑な仕様でベースデモを変更できることが示される。
また,このシステムをPR-2ロボットに実装し,実証者が初期(準最適)のデモからどのように始めて,対話的にタスク成功を改善するかを示す。
論文 参考訳(メタデータ) (2020-02-03T14:33:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。