論文の概要: Data Curation Alone Can Stabilize In-context Learning
- arxiv url: http://arxiv.org/abs/2212.10378v2
- Date: Wed, 24 May 2023 22:32:56 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-26 23:06:56.177474
- Title: Data Curation Alone Can Stabilize In-context Learning
- Title(参考訳): データキュレーションだけでコンテキスト内学習を安定化できる
- Authors: Ting-Yun Chang and Robin Jia
- Abstract要約: In-context Learning (ICL) は、大規模な言語モデルに対して、一連のトレーニング例でそれらを促すことで、新しいタスクを実行することを可能にする。
トレーニングセットからランダムにサンプルをサンプリングすると、パフォーマンスのばらつきが高くなります。
トレーニングデータのサブセットを慎重にキュレートすることは、ICLアルゴリズムに他の変更を加えることなく、ICLのパフォーマンスを大幅に安定化させることを示す。
- 参考スコア(独自算出の注目度): 20.874674130060388
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In-context learning (ICL) enables large language models (LLMs) to perform new
tasks by prompting them with a sequence of training examples. However, it is
known that ICL is very sensitive to the choice of training examples: randomly
sampling examples from a training set leads to high variance in performance. In
this paper, we show that carefully curating a subset of training data greatly
stabilizes ICL performance without any other changes to the ICL algorithm
(e.g., prompt retrieval or calibration). We introduce two methods to choose
training subsets -- both score training examples individually, then select the
highest-scoring ones. CondAcc scores a training example by its average dev-set
ICL accuracy when combined with random training examples, while Datamodels
learns linear regressors that estimate how the presence of each training
example influences LLM outputs. Across five tasks and two LLMs, sampling from
stable subsets selected by CondAcc and Datamodels improves average accuracy
over sampling from the entire training set by 7.7% and 6.3%, respectively.
Surprisingly, the stable subset examples are not especially diverse in content
or low in perplexity, in contrast with other work suggesting that diversity and
perplexity are important when prompting LLMs.
- Abstract(参考訳): In-context Learning (ICL) は、大規模言語モデル(LLM)が訓練例を列挙することで、新しいタスクを実行することを可能にする。
しかし、iclはトレーニングサンプルの選択に非常に敏感であることが知られており、トレーニングセットからサンプルをランダムにサンプリングすると、パフォーマンスのばらつきが高くなる。
本稿では、トレーニングデータのサブセットを注意深くキュレートすることで、iclアルゴリズムに他の変更を加えることなく、iclの性能が大幅に安定化することを示す(例えば、即席検索や校正)。
トレーニングサブセットを選択するための2つの方法 -- トレーニングサンプルを個別にスコア付けし、最も高いスコアを選択する。
CondAccは、ランダムなトレーニング例と組み合わせると平均的なデベセットICL精度でトレーニング例をスコアし、Datamodelsは、各トレーニング例の存在がLM出力に与える影響を見積もる線形回帰器を学習する。
5つのタスクと2つのLCMで、CondAccとDatamodelsが選択した安定したサブセットからサンプリングすることで、トレーニング全体のサンプリングよりも平均精度が7.7%と6.3%向上する。
驚くべきことに、安定なサブセットの例は、LLMの促進において多様性とパープレキシティが重要であることを示唆する他の研究と対照的に、内容において特に多様ではない。
関連論文リスト
- One size doesn't fit all: Predicting the Number of Examples for In-Context Learning [16.712595387955574]
In-context Learning (ICL)は、ラベル付きデータのトレーニングセットに少数の局所的な例(入力と意味的に類似しているもの)を追加するプロセスを指す。
私たちの作業は、この'one fits all'アプローチの制限を軽減し、数ショットの推論で使用する各データインスタンスの例数を動的に予測します。
テキスト分類ベンチマーク実験の結果,AICLが標準ICLを最大17%上回っていることがわかった。
論文 参考訳(メタデータ) (2024-03-11T03:28:13Z) - Balanced Data Sampling for Language Model Training with Clustering [96.46042695333655]
本稿では,学習データのテキスト分布のバランスをとるためにClusterClip Smplingを提案する。
大規模な実験は、ClusterClip Smplingの有効性を検証する。
論文 参考訳(メタデータ) (2024-02-22T13:20:53Z) - Take the Bull by the Horns: Hard Sample-Reweighted Continual Training
Improves LLM Generalization [165.98557106089777]
大きな言語モデル(LLM)の能力を高めることが大きな課題だ。
本研究は,従来の事前学習データセットを用いたLCMの光連続訓練に関する実証的戦略から始まった。
次に、この戦略をインスタンス重み付け分散ロバスト最適化の原則化されたフレームワークに定式化します。
論文 参考訳(メタデータ) (2024-02-22T04:10:57Z) - How to Train Data-Efficient LLMs [56.41105687693619]
事前学習言語モデル(LLM)に対するデータ効率のアプローチについて検討する。
Ask-LLMと密度サンプリングがそれぞれのカテゴリで最適であることがわかった。
何百もの評価タスクと事前学習作業を含む19個のサンプルを比較したところ,Ask-LLMと密度がそれぞれのカテゴリで最適な方法であることが判明した。
論文 参考訳(メタデータ) (2024-02-15T02:27:57Z) - GistScore: Learning Better Representations for In-Context Example
Selection with Gist Bottlenecks [3.9638110494107095]
In-context Learning(ICL)は、大規模言語モデル(LLM)がプロンプトで条件付きで新しいタスクを実行する機能である。
本稿では,教師付き微調整によるサンプルエンコーダの学習手法であるサンプルギストリングを提案する。
我々の微調整モデルでは、既成のレトリバーよりも20%以上向上し、最先端のICL性能が得られている。
論文 参考訳(メタデータ) (2023-11-16T06:28:05Z) - Which Examples to Annotate for In-Context Learning? Towards Effective
and Efficient Selection [35.924633625147365]
大規模言語モデル(LLM)は、文脈内学習(ICL)を介して新しいタスクに適応できる
そこで本研究では,ICLのアクティブな学習手法について検討し,アノテートのための予算が限られている。
本稿では,モデルが不確実であることを示すモデル適応型最適化自由アルゴリズムAdaICLを提案する。
論文 参考訳(メタデータ) (2023-10-30T22:03:55Z) - How Many Pretraining Tasks Are Needed for In-Context Learning of Linear Regression? [92.90857135952231]
様々なタスクで事前訓練されたトランスフォーマーは、顕著なインコンテキスト学習(ICL)能力を示す。
線形回帰のための線形パラメータ化単一層線形アテンションモデルの事前学習を行う。
論文 参考訳(メタデータ) (2023-10-12T15:01:43Z) - Understanding In-Context Learning via Supportive Pretraining Data [55.648777340129364]
In-context Learning (ICL)は、推論時にいくつかの例を示すだけで、様々なNLPタスクにおける言語モデルの性能を改善する。
ICLの能力がなぜ出現するかはよく分かっていないが、モデルがそのようなデモで特別に訓練されたことはない。
我々の研究は、インスタンスレベルの事前学習データを分析して、ICLを理解するための第一歩を踏み出した。
論文 参考訳(メタデータ) (2023-06-26T22:14:04Z) - Estimating Large Language Model Capabilities without Labeled Test Data [51.428562302037534]
大規模言語モデル(LLM)は、ほんの数例からICL(In-context Learning)を実行するという印象的な能力を持っている。
ICLの精度推定タスクを提案し、新しいタスクで文脈内学習を行う場合のLLMの精度を予測する。
論文 参考訳(メタデータ) (2023-05-24T06:55:09Z) - Training Dynamics for Curriculum Learning: A Study on Monolingual and
Cross-lingual NLU [19.42920238320109]
カリキュラム学習(Curriculum Learning, CL)は、典型的に増加する困難傾向の中で、ランキングの例を通してモデルを訓練する技法である。
本研究では,学習力学を難易度指標として活用することにより,自然言語理解(NLU)タスクにCLを用いる。
実験によると、トレーニングのダイナミクスは、他の難しいメトリクスと比較して、スムーズなトレーニングでより良いパフォーマンスのモデルをもたらす可能性がある。
論文 参考訳(メタデータ) (2022-10-22T17:10:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。