論文の概要: In-Context Learning on a Budget: A Case Study in Named Entity Recognition
- arxiv url: http://arxiv.org/abs/2406.13274v1
- Date: Wed, 19 Jun 2024 07:09:46 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-21 22:49:46.564267
- Title: In-Context Learning on a Budget: A Case Study in Named Entity Recognition
- Title(参考訳): 予算の文脈学習--名前付きエンティティ認識を事例として-
- Authors: Uri Berger, Tal Baumel, Gabriel Stanovsky,
- Abstract要約: 事前定義された予算内でアノテートするサンプルを選択するための様々な方法について検討する。
注釈付きサンプルの比較的小さなプールは、トレーニングセット全体の使用に匹敵する結果が得られることがわかった。
- 参考スコア(独自算出の注目度): 16.664472010838132
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Few shot in-context learning (ICL) typically assumes access to large annotated training sets. However, in many real world scenarios, such as domain adaptation, there is only a limited budget to annotate a small number of samples, with the goal of maximizing downstream performance. We study various methods for selecting samples to annotate within a predefined budget, specifically focusing on the named entity recognition (NER) task, which has real-world applications, is expensive to annotate, and is relatively less studied in ICL setups. Across different models and datasets, we find that a relatively small pool of annotated samples can achieve results comparable to using the entire training set. Moreover, we discover that random selection of samples for annotation yields surprisingly good performance. Finally, we observe that a diverse annotation pool is correlated with improved performance. We hope that future work adopts our realistic paradigm which takes annotation budget into account.
- Abstract(参考訳): ショット・イン・コンテキスト・ラーニング(ICL)は一般的に大規模な注釈付きトレーニングセットへのアクセスを前提としている。
しかし、ドメイン適応のような現実世界のシナリオでは、下流のパフォーマンスを最大化することを目的として、少数のサンプルに注釈をつけるための限られた予算しか存在しない。
提案手法は,実世界のアプリケーションでアノテートに費用がかかり,ICL設定では比較的研究の少ない,名前付きエンティティ認識(NER)タスクに着目し,事前定義された予算内でアノテートするサンプルを選択するための様々な手法について検討する。
異なるモデルやデータセットによって、比較的小さなアノテートされたサンプルのプールが、トレーニングセット全体と同等の結果を得ることができることが分かりました。
さらに、アノテーションのためのサンプルのランダムな選択が驚くほど優れた性能をもたらすことが判明した。
最後に、多様なアノテーションプールが性能改善と相関していることを確認する。
将来的な作業には、アノテーション予算を考慮した現実的なパラダイムが採用されることを願っています。
関連論文リスト
- Prompt Optimization with EASE? Efficient Ordering-aware Automated Selection of Exemplars [66.823588073584]
大規模言語モデル(LLM)は、現実世界のアプリケーションで印象的な機能を示している。
これらの卓越した作品の品質は、パフォーマンスに大きな影響を与えます。
既存の方法は、先行注文がパフォーマンスに与える影響を適切に説明できない。
論文 参考訳(メタデータ) (2024-05-25T08:23:05Z) - Probabilistic Contrastive Learning for Long-Tailed Visual Recognition [78.70453964041718]
細長い分布は、少数の少数派が限られた数のサンプルを含む実世界のデータにしばしば現れる。
近年の研究では、教師付きコントラスト学習がデータ不均衡を緩和する有望な可能性を示していることが明らかになっている。
本稿では,特徴空間の各クラスからのサンプルデータ分布を推定する確率論的コントラスト学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-03-11T13:44:49Z) - Collaborative Learning with Different Labeling Functions [7.228285747845779]
我々は、$n$のデータ分布ごとに正確な分類器を学習することを目的とした、協調型PAC学習の亜種について研究する。
データ分布がより弱い実現可能性の仮定を満たす場合、サンプル効率の学習は依然として可能であることを示す。
論文 参考訳(メタデータ) (2024-02-16T04:32:22Z) - An Experimental Design Framework for Label-Efficient Supervised Finetuning of Large Language Models [55.01592097059969]
命令データセットの監視された微調整は、目覚ましいゼロショットの一般化能力を達成する上で重要な役割を担っている。
アクティブラーニングは、未ラベルのプールからアノテートするサンプルの有用なサブセットを特定するのに効果的である。
本研究では,能動学習の計算ボトルネックを回避するための実験設計を提案する。
論文 参考訳(メタデータ) (2024-01-12T16:56:54Z) - RetICL: Sequential Retrieval of In-Context Examples with Reinforcement Learning [53.52699766206808]
In-Context Learning (RetICL) のための検索式を提案する。
RetICLは数学用語の問題解決と科学的質問応答のタスクに基づいて評価し,一貫した性能や一致,学習可能なベースラインを示す。
論文 参考訳(メタデータ) (2023-05-23T20:15:56Z) - An Additive Instance-Wise Approach to Multi-class Model Interpretation [53.87578024052922]
解釈可能な機械学習は、ブラックボックスシステムの特定の予測を駆動する要因に関する洞察を提供する。
既存の手法は主に、局所的な加法的あるいはインスタンス的なアプローチに従う説明的入力特徴の選択に重点を置いている。
本研究は,両手法の長所を生かし,複数の対象クラスに対する局所的な説明を同時に学習するためのグローバルフレームワークを提案する。
論文 参考訳(メタデータ) (2022-07-07T06:50:27Z) - Active Learning with Weak Supervision for Gaussian Processes [12.408125305560274]
得られたアノテーションの精度を選択する能動的学習アルゴリズムを提案する。
アクティブな学習ループにおいて,アノテーションの精度を調整できることのメリットを実証的に示す。
論文 参考訳(メタデータ) (2022-04-18T14:27:31Z) - Optimizing Active Learning for Low Annotation Budgets [6.753808772846254]
ディープラーニングでは、アクティブな学習は通常、微調整によって連続した深層モデルを更新する反復的なプロセスとして実装される。
移行学習にインスパイアされたアプローチを用いてこの問題に対処する。
本稿では,ALプロセスの反復性を利用してより堅牢なサンプルを抽出する新しい取得関数を提案する。
論文 参考訳(メタデータ) (2022-01-18T18:53:10Z) - Reducing Confusion in Active Learning for Part-Of-Speech Tagging [100.08742107682264]
アクティブラーニング(AL)は、データ選択アルゴリズムを使用して、アノテーションコストを最小限に抑えるために有用なトレーニングサンプルを選択する。
本研究では、特定の出力タグのペア間の混乱を最大に低減するインスタンスの選択問題について検討する。
提案するAL戦略は,他のAL戦略よりも有意差で優れている。
論文 参考訳(メタデータ) (2020-11-02T06:24:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。