論文の概要: Careful Data Curation Stabilizes In-context Learning
- arxiv url: http://arxiv.org/abs/2212.10378v1
- Date: Tue, 20 Dec 2022 15:58:54 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-21 15:39:07.046806
- Title: Careful Data Curation Stabilizes In-context Learning
- Title(参考訳): Careful Data Curationはコンテキスト内学習を安定化する
- Authors: Ting-Yun Chang and Robin Jia
- Abstract要約: In-context Learning (ICL) は、大規模な言語モデルに対して、一連のトレーニング例でそれらを促すことで、新しいタスクを実行することを可能にする。
トレーニングセットからランダムにサンプルをサンプリングすると、パフォーマンスのばらつきが高くなります。
我々は、慎重に選択されたトレーニングデータのサブセットをキュレートすると、ICLの性能が大幅に安定化することを示した。
- 参考スコア(独自算出の注目度): 20.874674130060388
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In-context learning (ICL) enables large language models (LLMs) to perform new
tasks by prompting them with a sequence of training examples. However, ICL is
very sensitive to the choice of training examples: randomly sampling examples
from a training set leads to high variance in performance. In this paper, we
show that curating a carefully chosen subset of training data greatly
stabilizes ICL performance. We propose two methods to choose training subsets,
both of which score training examples individually and then select the
highest-scoring ones. CondAcc scores a training example by its average ICL
accuracy when combined with random training examples, while Datamodels learns a
linear proxy model that estimates how the presence of each training example
influences LLM accuracy. On average, CondAcc and Datamodels outperform sampling
from the entire training set by 7.7% and 6.3%, respectively, across 5 tasks and
two LLMs. Our analysis shows that stable subset examples are no more diverse
than average, and are not outliers in terms of sequence length and perplexity.
- Abstract(参考訳): In-context Learning (ICL) は、大規模言語モデル(LLM)が訓練例を列挙することで、新しいタスクを実行することを可能にする。
しかし、ICLはトレーニング例の選択に非常に敏感で、トレーニングセットからランダムにサンプルをサンプリングすると、パフォーマンスのばらつきが高くなります。
本稿では,注意深く選択されたトレーニングデータのサブセットのキュレーションがicl性能を著しく安定化することを示す。
そこで本研究では,訓練用部分集合を選択するための2つの方法を提案する。
CondAccは、ランダムなトレーニング例と組み合わせた場合の平均ICL精度でトレーニング例をスコアし、Datamodelsは、各トレーニング例の存在がLLM精度に与える影響を見積もる線形プロキシモデルを学ぶ。
平均して、CondAccとDatamodelsは5つのタスクと2つのLLMで、トレーニングセット全体のサンプリングを7.7%と6.3%で上回っている。
解析の結果,安定な部分集合の例は平均値ほど多様ではなく,シーケンス長やパープレキシティの点では外れ値ではないことがわかった。
関連論文リスト
- One size doesn't fit all: Predicting the Number of Examples for In-Context Learning [16.712595387955574]
In-context Learning (ICL)は、ラベル付きデータのトレーニングセットから少量のローカライズされたサンプルをLLMのプロンプトに追加するプロセスを指す。
私たちの作業は、この'one fits all'アプローチの制限を軽減し、数ショットの推論で使用する各データインスタンスの例数を動的に予測します。
テキスト分類ベンチマーク実験の結果,AICLが標準ICLを最大17%上回っていることがわかった。
論文 参考訳(メタデータ) (2024-03-11T03:28:13Z) - Balanced Data Sampling for Language Model Training with Clustering [96.46042695333655]
本稿では,学習データのテキスト分布のバランスをとるためにClusterClip Smplingを提案する。
大規模な実験は、ClusterClip Smplingの有効性を検証する。
論文 参考訳(メタデータ) (2024-02-22T13:20:53Z) - Take the Bull by the Horns: Hard Sample-Reweighted Continual Training
Improves LLM Generalization [165.98557106089777]
大きな言語モデル(LLM)の能力を高めることが大きな課題だ。
本研究は,従来の事前学習データセットを用いたLCMの光連続訓練に関する実証的戦略から始まった。
次に、この戦略をインスタンス重み付け分散ロバスト最適化の原則化されたフレームワークに定式化します。
論文 参考訳(メタデータ) (2024-02-22T04:10:57Z) - How to Train Data-Efficient LLMs [56.41105687693619]
事前学習言語モデル(LLM)に対するデータ効率のアプローチについて検討する。
Ask-LLMと密度サンプリングがそれぞれのカテゴリで最適であることがわかった。
何百もの評価タスクと事前学習作業を含む19個のサンプルを比較したところ,Ask-LLMと密度がそれぞれのカテゴリで最適な方法であることが判明した。
論文 参考訳(メタデータ) (2024-02-15T02:27:57Z) - GistScore: Learning Better Representations for In-Context Example
Selection with Gist Bottlenecks [3.9638110494107095]
In-context Learning(ICL)は、大規模言語モデル(LLM)がプロンプトで条件付きで新しいタスクを実行する機能である。
本稿では,教師付き微調整によるサンプルエンコーダの学習手法であるサンプルギストリングを提案する。
我々の微調整モデルでは、既成のレトリバーよりも20%以上向上し、最先端のICL性能が得られている。
論文 参考訳(メタデータ) (2023-11-16T06:28:05Z) - Which Examples to Annotate for In-Context Learning? Towards Effective
and Efficient Selection [35.924633625147365]
大規模言語モデル(LLM)は、文脈内学習(ICL)を介して新しいタスクに適応できる
そこで本研究では,ICLのアクティブな学習手法について検討し,アノテートのための予算が限られている。
本稿では,モデルが不確実であることを示すモデル適応型最適化自由アルゴリズムAdaICLを提案する。
論文 参考訳(メタデータ) (2023-10-30T22:03:55Z) - How Many Pretraining Tasks Are Needed for In-Context Learning of Linear Regression? [92.90857135952231]
様々なタスクで事前訓練されたトランスフォーマーは、顕著なインコンテキスト学習(ICL)能力を示す。
線形回帰のための線形パラメータ化単一層線形アテンションモデルの事前学習を行う。
論文 参考訳(メタデータ) (2023-10-12T15:01:43Z) - Understanding In-Context Learning via Supportive Pretraining Data [55.648777340129364]
In-context Learning (ICL)は、推論時にいくつかの例を示すだけで、様々なNLPタスクにおける言語モデルの性能を改善する。
ICLの能力がなぜ出現するかはよく分かっていないが、モデルがそのようなデモで特別に訓練されたことはない。
我々の研究は、インスタンスレベルの事前学習データを分析して、ICLを理解するための第一歩を踏み出した。
論文 参考訳(メタデータ) (2023-06-26T22:14:04Z) - Estimating Large Language Model Capabilities without Labeled Test Data [51.428562302037534]
大規模言語モデル(LLM)は、ほんの数例からICL(In-context Learning)を実行するという印象的な能力を持っている。
ICLの精度推定タスクを提案し、新しいタスクで文脈内学習を行う場合のLLMの精度を予測する。
論文 参考訳(メタデータ) (2023-05-24T06:55:09Z) - Training Dynamics for Curriculum Learning: A Study on Monolingual and
Cross-lingual NLU [19.42920238320109]
カリキュラム学習(Curriculum Learning, CL)は、典型的に増加する困難傾向の中で、ランキングの例を通してモデルを訓練する技法である。
本研究では,学習力学を難易度指標として活用することにより,自然言語理解(NLU)タスクにCLを用いる。
実験によると、トレーニングのダイナミクスは、他の難しいメトリクスと比較して、スムーズなトレーニングでより良いパフォーマンスのモデルをもたらす可能性がある。
論文 参考訳(メタデータ) (2022-10-22T17:10:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。