論文の概要: Rethinking the Role of Demonstrations: What Makes In-Context Learning
Work?
- arxiv url: http://arxiv.org/abs/2202.12837v1
- Date: Fri, 25 Feb 2022 17:25:19 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-28 16:46:53.753521
- Title: Rethinking the Role of Demonstrations: What Makes In-Context Learning
Work?
- Title(参考訳): デモの役割を再考する: インコンテキスト学習が機能する理由
- Authors: Sewon Min, Xinxi Lyu, Ari Holtzman, Mikel Artetxe, Mike Lewis,
Hannaneh Hajishirzi, Luke Zettlemoyer
- Abstract要約: 大規模言語モデル(LM)は、いくつかのインプットラベルペア(デモ)を条件付けして、新しいインプットの予測を行うことで、インコンテキストで学習することができる。
実演のラベルをランダムに置き換えることは、パフォーマンスをほとんど損なうものではない。
デモの他の側面が、エンドタスクのパフォーマンスの主要な要因であることに気付きました。
- 参考スコア(独自算出の注目度): 112.72413411257662
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LMs) are able to in-context learn -- perform a new
task via inference alone by conditioning on a few input-label pairs
(demonstrations) and making predictions for new inputs. However, there has been
little understanding of how the model learns and which aspects of the
demonstrations contribute to end task performance. In this paper, we show that
ground truth demonstrations are in fact not required -- randomly replacing
labels in the demonstrations barely hurts performance, consistently over 12
different models including GPT-3. Instead, we find that other aspects of the
demonstrations are the key drivers of end task performance, including the fact
that they provide a few examples of (1) the label space, (2) the distribution
of the input text, and (3) the overall format of the sequence. Together, our
analysis provides a new way of understanding how and why in-context learning
works, while opening up new questions about how much can be learned from large
language models through inference alone.
- Abstract(参考訳): 大規模言語モデル(LM)は、いくつかの入力ラベルペア(デモ)を条件付けし、新しい入力を予測することによって、推論だけで新しいタスクを実行することができる。
しかし、モデルがどのように学習し、デモのどの側面がタスクのパフォーマンスに寄与するかについては、ほとんど理解されていない。
本稿では,実演におけるラベルをランダムに置き換えることによって,GPT-3を含む12種類のモデルが一貫してパフォーマンスを損なうことを示す。
その代わり、デモンストレーションの他の側面は、(1)ラベル空間、(2)入力テキストの分布、(3)シーケンスの全体的なフォーマットのいくつかの例を提供するという事実を含む、エンドタスクのパフォーマンスの鍵となる。
分析によって、コンテキスト内学習の仕組みと理由を理解する新しい方法が提供され、推論のみを通じて、大規模言語モデルからどの程度学ぶことができるのか、という新たな疑問が提起される。
関連論文リスト
- What Do Speech Foundation Models Not Learn About Speech? [30.524282767961463]
我々はWhisper, Seamless, Wav2Vec, HuBERT, Qwen2-Audioなどの音声基礎モデルを分析する。
まず、ゼロショット設定でモデルを評価し、次にこれらのモデルから抽出した層ワイドな特徴を微調整する。
この結果から,モデルの一般化能力,レイヤワイド表現の特徴,下流タスク適応に必要な変換度などの知見が得られた。
論文 参考訳(メタデータ) (2024-10-16T18:34:07Z) - Demonstration Notebook: Finding the Most Suited In-Context Learning Example from Interactions [8.869100154323643]
実験ノート」と呼ばれる新しい物体を中心に構築された新しいプロンプトエンジニアリングワークフローを提案する。
このノートブックは、LLMの過去のインタラクションから情報を収集して再利用することで、質問に対して最も適したコンテキスト内学習例を特定するのに役立つ。
実験により, 提案手法は, 自動的な実演構築と選択において, 既存の手法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2024-06-16T10:02:20Z) - The Impact of Demonstrations on Multilingual In-Context Learning: A Multidimensional Analysis [23.757767581876063]
インコンテキスト学習(In-context learning)は、大規模言語モデルがいくつかのラベル付きデモを使用してタスクを解く一般的な推論戦略である。
実演の有効性は, モデル, タスク, 言語によって大きく異なることを示す。
また,Llama 2-Chat,GPT-3.5,GPT-4といった強力な命令追従モデルは,実演の質にはほとんど敏感でないことがわかった。
論文 参考訳(メタデータ) (2024-02-20T12:53:31Z) - In-context Learning with Retrieved Demonstrations for Language Models: A Survey [23.24271704145876]
インコンテクスト学習者(ICL)は入力コンテキストでのデモを少しだけ行うだけで、新しいタスクに適応できる。
最近の開発では、固定された一連のデモを使う代わりに、各入力クエリに合わせたデモを検索する。
本稿では,検索モデル,検索訓練手順,推論アルゴリズムの異なる設計選択について論じ,比較する。
論文 参考訳(メタデータ) (2024-01-21T23:34:42Z) - Identifying and Analyzing Task-Encoding Tokens in Large Language Models [55.03191279766383]
本稿では,タスク性能が依存するタスク符号化トークンの識別と解析を行う。
テンプレートとストップワードトークンはタスクエンコーディングが最も困難であることを示す。
我々の研究は、大規模言語モデル(LLM)がいかにして、デモからタスクを実行するかを学習し、LLMでプレイされるさまざまな種類のトークンの役割の理解を深め、タスクエンコーディングトークンを不適切な利用から不安定を避けるための洞察を提供する。
論文 参考訳(メタデータ) (2024-01-20T20:55:21Z) - Scaling In-Context Demonstrations with Structured Attention [75.41845145597875]
我々は、文脈内学習のためのより優れたアーキテクチャ設計を提案する。
In-Context Learningのための構造化アテンションは、構造化アテンションメカニズムによって完全なアテンションを置き換える。
SAICLは、最大3.4倍の推論速度で、フルアテンションよりも同等または優れた性能を実現していることを示す。
論文 参考訳(メタデータ) (2023-07-05T23:26:01Z) - Unified Demonstration Retriever for In-Context Learning [56.06473069923567]
Unified Demonstration Retriever (textbfUDR)は、幅広いタスクのデモを検索する単一のモデルである。
我々は,高品質な候補を見つけるための反復的なマイニング戦略を備えたマルチタスクリストワイド・トレーニング・フレームワークを提案する。
13のタスクファミリーと複数のデータドメインにわたる30以上のタスクの実験は、UDRがベースラインを大幅に上回っていることを示している。
論文 参考訳(メタデータ) (2023-05-07T16:07:11Z) - ICL-D3IE: In-Context Learning with Diverse Demonstrations Updating for
Document Information Extraction [56.790794611002106]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて、文脈内学習による顕著な結果を示している。
ICL-D3IEと呼ばれるシンプルだが効果的なテキスト内学習フレームワークを提案する。
具体的には、ハードトレーニング文書から最も困難で独特なセグメントをハードデモとして抽出する。
論文 参考訳(メタデータ) (2023-03-09T06:24:50Z) - Robustness of Demonstration-based Learning Under Limited Data Scenario [54.912936555876826]
実証に基づく学習は、限られたデータシナリオ下で事前訓練された言語モデルの能力を刺激する大きな可能性を示している。
実演と予測の間に明確な整合性がないため、なぜこのような実演が学習プロセスに有益なのかは不明だ。
本稿では,実証に基づくシーケンスラベリングの頑健さを深く掘り下げるために,標準情報から直感的に有用な情報を徐々に取り除き,病理デモを設計する。
論文 参考訳(メタデータ) (2022-10-19T16:15:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。