論文の概要: Exploring Demonstration Ensembling for In-context Learning
- arxiv url: http://arxiv.org/abs/2308.08780v1
- Date: Thu, 17 Aug 2023 04:45:19 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-21 17:53:50.492803
- Title: Exploring Demonstration Ensembling for In-context Learning
- Title(参考訳): インコンテキスト学習のための実証実験
- Authors: Muhammad Khalifa, Lajanugen Logeswaran, Moontae Lee, Honglak Lee, Lu
Wang
- Abstract要約: In-context Learning (ICL) は、与えられたタスクに対する入出力ペアの言語モデル(LM)の例を示す。
本稿では,単純な結合の代替手段として,DENSE(Demonstration Ensembling)を探求する。
実験の結果,バニラ結合の最大エンハンブルは2.4点まで大きく,バニラ結合よりも優れていた。
- 参考スコア(独自算出の注目度): 75.35436025709049
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In-context learning (ICL) operates by showing language models (LMs) examples
of input-output pairs for a given task, i.e., demonstrations. The standard
approach for ICL is to prompt the LM with concatenated demonstrations followed
by the test input. This approach suffers from some issues. First, concatenation
offers almost no control over the contribution of each demo to the model
prediction. This can be sub-optimal when some demonstrations are irrelevant to
the test example. Second, due to the input length limit of some transformer
models, it might be infeasible to fit many examples into the context,
especially when dealing with long-input tasks. In this work, we explore
Demonstration Ensembling (DENSE) as an alternative to simple concatenation.
\model predicts outputs using subsets (i.e., buckets) of the demonstrations and
then combines the output probabilities resulting from each subset to produce
the final prediction. We study different ensembling methods using GPT-j and
experiment on 12 language tasks. Our experiments show weighted max ensembling
to outperform vanilla concatenation by as large as 2.4 average points. Code
available at \url{https://github.com/mukhal/icl-ensembling}.
- Abstract(参考訳): インコンテキスト学習(ICL)は、与えられたタスク、すなわちデモのための入力出力ペアの言語モデル(LM)の例を示す。
ICLの標準的なアプローチは、テスト入力に続く複雑なデモでLMを促すことである。
このアプローチにはいくつかの問題があります。
まず、結合はモデル予測に対する各デモの貢献をほとんど制御しない。
これは、いくつかのデモがテスト例とは無関係である場合、準最適である。
第二に、いくつかのトランスモデルの入力長制限のため、特に長い入力タスクを扱う場合、多くの例をコンテキストに適合させることは不可能である。
本研究は,単純な結合の代替として,DENSE(Demonstration Ensembling)を探索する。
モデルはデモのサブセット(すなわちバケット)を使って出力を予測し、各サブセットから得られる出力確率を組み合わせて最終的な予測を生成する。
我々はgpt-jを用いて様々なセンシング手法を研究し、12の言語タスクを実験する。
我々の実験では、重み付けされたmax ensemblingがバニラ結合を最大2.4平均点で上回ることを示した。
コードは \url{https://github.com/mukhal/icl-ensembling}。
関連論文リスト
- ParaICL: Towards Robust Parallel In-Context Learning [74.38022919598443]
大規模言語モデル(LLM)が自然言語処理の標準となっている。
インコンテキスト・ラーニング(ICL)は、いくつかの実演例の選択に依存している。
パラレルインコンテキスト学習(ParaICL)という新しい手法を提案する。
論文 参考訳(メタデータ) (2024-03-31T05:56:15Z) - MEND: Meta dEmonstratioN Distillation for Efficient and Effective
In-Context Learning [9.271196993624944]
大規模言語モデル(LLM)は、与えられたテスト入力と少数のインプット・アウトプットペア(デモ)を同時に予測する。
既存の解は、長い実演をコンパクトなベクトルに蒸留しようとする。
本稿では,メタdEmonstratioN蒸留(MEND)について述べる。そこでは,言語モデルが,新しい下流タスクを再学習することなく,任意の長い実演をベクトルに蒸留することを学ぶ。
論文 参考訳(メタデータ) (2024-03-11T17:03:04Z) - Not All Demonstration Examples are Equally Beneficial: Reweighting
Demonstration Examples for In-Context Learning [32.29118942982609]
大規模言語モデル(LLM)は、最近、モデルをスケールアップしてICL(In-Context Learning)能力を獲得した。
本稿では,実演例における平均重量の決め方とICLにおける適用方法について検討する。
8つのテキスト分類タスクの実験結果から,本手法は従来のICLよりも高い性能を示した。
論文 参考訳(メタデータ) (2023-10-12T13:15:11Z) - Dr.ICL: Demonstration-Retrieved In-context Learning [29.142262267850704]
インコンテキスト学習(ICL)は、LLMを使用するための強力なパラダイムとして、数発のデモでタスクを実行するために大きな言語モデルを教える。
最近の研究では、利用可能なデモのプールからの入力に対して意味論的に類似したデモを取得することで、より良いパフォーマンスが得られることが示唆されている。
この研究は、BM25のような単純な単語オーバーラップ類似度対策でさえ、ランダムに選択された実演よりも優れていることを示すことで、検索ベースのICLアプローチの適用性を拡大する。
論文 参考訳(メタデータ) (2023-05-23T14:55:25Z) - Unified Demonstration Retriever for In-Context Learning [56.06473069923567]
Unified Demonstration Retriever (textbfUDR)は、幅広いタスクのデモを検索する単一のモデルである。
我々は,高品質な候補を見つけるための反復的なマイニング戦略を備えたマルチタスクリストワイド・トレーニング・フレームワークを提案する。
13のタスクファミリーと複数のデータドメインにわたる30以上のタスクの実験は、UDRがベースラインを大幅に上回っていることを示している。
論文 参考訳(メタデータ) (2023-05-07T16:07:11Z) - ICL-D3IE: In-Context Learning with Diverse Demonstrations Updating for
Document Information Extraction [56.790794611002106]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて、文脈内学習による顕著な結果を示している。
ICL-D3IEと呼ばれるシンプルだが効果的なテキスト内学習フレームワークを提案する。
具体的には、ハードトレーニング文書から最も困難で独特なセグメントをハードデモとして抽出する。
論文 参考訳(メタデータ) (2023-03-09T06:24:50Z) - Robustness of Demonstration-based Learning Under Limited Data Scenario [54.912936555876826]
実証に基づく学習は、限られたデータシナリオ下で事前訓練された言語モデルの能力を刺激する大きな可能性を示している。
実演と予測の間に明確な整合性がないため、なぜこのような実演が学習プロセスに有益なのかは不明だ。
本稿では,実証に基づくシーケンスラベリングの頑健さを深く掘り下げるために,標準情報から直感的に有用な情報を徐々に取り除き,病理デモを設計する。
論文 参考訳(メタデータ) (2022-10-19T16:15:04Z) - Self-Generated In-Context Learning: Leveraging Auto-regressive Language
Models as a Demonstration Generator [22.532627423361177]
自己生成型インコンテキスト学習(SG-ICL)は、PLM自体からインコンテキスト学習のためのデモを生成する。
我々は、SG-ICLがゼロショット学習を著しく上回り、一般的に約0.6金のトレーニングサンプルの価値があることを示した。
論文 参考訳(メタデータ) (2022-06-16T10:52:13Z) - Contrastive Demonstration Tuning for Pre-trained Language Models [59.90340768724675]
デモの例は、プロンプトチューニングの優れた最終パフォーマンスに不可欠である。
提案手法は次の通りである: (i) 従来の急速学習アプローチにプラグイン; (ii) 多数のカテゴリを持つ広範囲な分類タスクに拡張。
16のデータセットに対する実験結果から,従来のLM-BFFとP-tuningを統合した手法により,性能が向上することが示された。
論文 参考訳(メタデータ) (2022-04-09T05:30:48Z) - Robust Maximum Entropy Behavior Cloning [15.713997170792842]
模倣学習(il)アルゴリズムは、特定のタスクを学ぶために専門家のデモンストレーションを使用する。
既存のアプローチのほとんどは、すべての専門家によるデモンストレーションは信頼性と信頼性を前提としていますが、もし与えられたデータセットに敵対的なデモが存在するとしたらどうでしょう?
敵対するデモを自律的に検出し、データセットから除外するデモからポリシーを直接生成する、新しい一般的なフレームワークを提案する。
論文 参考訳(メタデータ) (2021-01-04T22:08:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。