論文の概要: What In-Context Learning "Learns" In-Context: Disentangling Task
Recognition and Task Learning
- arxiv url: http://arxiv.org/abs/2305.09731v1
- Date: Tue, 16 May 2023 18:05:19 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-18 18:51:11.145221
- Title: What In-Context Learning "Learns" In-Context: Disentangling Task
Recognition and Task Learning
- Title(参考訳): コンテキスト内学習"学習"とは何か - タスク認識とタスク学習の分離
- Authors: Jane Pan, Tianyu Gao, Howard Chen, Danqi Chen
- Abstract要約: 大規模言語モデル(LLM)は、いくつかのデモでタスクを解くためにコンテキスト内学習(ICL)を利用する。
ICLがデモを利用する2つの方法の特徴付けを行う。
TRのみを用いて非自明な性能を達成でき、TRはより大きなモデルやより多くのデモでさらに改善されないことを示す。
- 参考スコア(独自算出の注目度): 24.395288160951118
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) exploit in-context learning (ICL) to solve tasks
with only a few demonstrations, but its mechanisms are not yet well-understood.
Some works suggest that LLMs only recall already learned concepts from
pre-training, while others hint that ICL performs implicit learning over
demonstrations. We characterize two ways through which ICL leverages
demonstrations. Task recognition (TR) captures the extent to which LLMs can
recognize a task through demonstrations -- even without ground-truth labels --
and apply their pre-trained priors, whereas task learning (TL) is the ability
to capture new input-label mappings unseen in pre-training. Using a wide range
of classification datasets and three LLM families (GPT-3, LLaMA and OPT), we
design controlled experiments to disentangle the roles of TR and TL in ICL. We
show that (1) models can achieve non-trivial performance with only TR, and TR
does not further improve with larger models or more demonstrations; (2) LLMs
acquire TL as the model scales, and TL's performance consistently improves with
more demonstrations in context. Our findings unravel two different forces
behind ICL and we advocate for discriminating them in future ICL research due
to their distinct nature.
- Abstract(参考訳): 大規模言語モデル(LLM)は、いくつかの実演でタスクを解くためにコンテキスト内学習(ICL)を利用するが、そのメカニズムはまだよく理解されていない。
一部の研究は、LCMが既に事前学習から学んだ概念だけを思い出すのに対し、ICLはデモよりも暗黙の学習を行っていることを示唆している。
iclがデモを活用する2つの方法を特徴付ける。
タスク認識(TR)は、LLMがデモを通じてタスクを認識できる範囲を -- 基調ラベルなしでも -- キャプチャし、事前トレーニングを適用できるのに対して、タスク学習(TL)は、事前トレーニングで見えない新しい入力ラベルマッピングをキャプチャする能力である。
幅広い分類データセットと3つのLLMファミリー(GPT-3, LLaMA, OPT)を用いて, ICLにおけるTRとTLの役割を阻害する制御実験を設計した。
1)モデルがTRのみで非自明な性能を達成でき、TRがより大きなモデルやより多くのデモでさらに改善されないこと、(2)LLMがモデルスケールとしてTLを取得し、TLの性能はコンテキストにおけるより多くのデモで一貫して改善されることを示す。
ICLの背景にある2つの異なる力を解明し,今後のICL研究における差別を提唱した。
関連論文リスト
- What Do Language Models Learn in Context? The Structured Task Hypothesis [89.65045443150889]
大規模言語モデル(LLM)は、インコンテキスト学習(ICL)と呼ばれるデモで提示されたインコンテキストの例から新しいタスクを学習する
一般的な仮説の一つは、タスク選択によるICLの説明である。
もう一つの一般的な仮説は、ICLはメタ学習の一形態である、すなわち、モデルが事前学習時に学習アルゴリズムを学習し、それを実演に適用する、というものである。
論文 参考訳(メタデータ) (2024-06-06T16:15:34Z) - Does In-Context Learning Really Learn? Rethinking How Large Language Models Respond and Solve Tasks via In-Context Learning [41.606494950216764]
In-context Learning (ICL)は、スケールアップされた大規模言語モデル(LLM)の開発と共に強力な能力として登場した。
本稿では,ICLの全体的な性能をラベル空間,フォーマット,識別の3次元に分解する。
ICLはラベル空間とフォーマットを制御し,所望のラベル語にLLMが反応するのに役立つことを示す。
論文 参考訳(メタデータ) (2024-04-11T08:20:10Z) - The Strong Pull of Prior Knowledge in Large Language Models and Its Impact on Emotion Recognition [74.04775677110179]
In-context Learning (ICL) は、Large Language Models (LLM) を用いた自然言語処理のための強力なパラダイムとして登場した。
LLMには、感情認識において強いが矛盾する先行性があり、その予測に影響を及ぼすことが示される。
以上の結果から,ICLをより大きなLCMで事前学習領域外の情動中心タスクに使用する場合,注意が必要であることが示唆された。
論文 参考訳(メタデータ) (2024-03-25T19:07:32Z) - Rectifying Demonstration Shortcut in In-Context Learning [15.08431909212102]
大規模言語モデル(LLM)は、ICL(In-context Learning)能力を利用したいくつかのデモで、様々なタスクを解くことができる。
LLMは、ICL予測を進めるために、インプット-ラベル関係よりも、事前に訓練されたデモのセマンティック先行に頼っていることが多い。
論文 参考訳(メタデータ) (2024-03-14T15:30:14Z) - VILA: On Pre-training for Visual Language Models [74.08039416548209]
ステップ・バイ・ステップ制御可能な比較によるVLM事前学習の設計オプションについて検討した。
私たちは、最先端のモデルよりも一貫して優れたVisual LanguageモデルファミリであるVILAを構築します。
論文 参考訳(メタデータ) (2023-12-12T18:58:18Z) - Take One Step at a Time to Know Incremental Utility of Demonstration: An Analysis on Reranking for Few-Shot In-Context Learning [23.932500424117244]
In-Context Learning (ICL)は大規模言語モデル(LLM)の創発的能力である
従来の研究では、ラベルとしてLLMの出力を使用することが、デモを選択するためのトレーニングモデルに有効であることが示されている。
本稿では,LLMの出力確率に着目して,異なるユーティリティ関数の解析を行う。
論文 参考訳(メタデータ) (2023-11-16T07:03:54Z) - TRACE: A Comprehensive Benchmark for Continual Learning in Large
Language Models [52.734140807634624]
調整された大規模言語モデル(LLM)は、タスク解決、指示に従うこと、安全性を確保することにおいて、例外的な能力を示す。
既存の連続学習ベンチマークでは、LLMをリードする上で十分な課題が欠如している。
LLMにおける継続学習を評価するための新しいベンチマークであるTRACEを紹介する。
論文 参考訳(メタデータ) (2023-10-10T16:38:49Z) - Ambiguity-Aware In-Context Learning with Large Language Models [27.20414960164616]
インコンテキスト学習(ICL)、すなわち、LLMのタスク固有のデモは、タスク固有の微調整を必要とせず、ダウンストリームのゲインにつながった。
そこで本研究では,ICLの優れた実演方法について検討する。
セマンティックに類似したICLのデモンストレーションを選択するだけでなく、テスト例を取り巻く固有のラベルの曖昧さを解決するのに役立つものを選択することは有益である。
論文 参考訳(メタデータ) (2023-09-14T17:48:34Z) - Scaling In-Context Demonstrations with Structured Attention [75.41845145597875]
我々は、文脈内学習のためのより優れたアーキテクチャ設計を提案する。
In-Context Learningのための構造化アテンションは、構造化アテンションメカニズムによって完全なアテンションを置き換える。
SAICLは、最大3.4倍の推論速度で、フルアテンションよりも同等または優れた性能を実現していることを示す。
論文 参考訳(メタデータ) (2023-07-05T23:26:01Z) - ICL-D3IE: In-Context Learning with Diverse Demonstrations Updating for
Document Information Extraction [56.790794611002106]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて、文脈内学習による顕著な結果を示している。
ICL-D3IEと呼ばれるシンプルだが効果的なテキスト内学習フレームワークを提案する。
具体的には、ハードトレーニング文書から最も困難で独特なセグメントをハードデモとして抽出する。
論文 参考訳(メタデータ) (2023-03-09T06:24:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。