論文の概要: Reducing Confusion in Active Learning for Part-Of-Speech Tagging
- arxiv url: http://arxiv.org/abs/2011.00767v2
- Date: Sat, 21 Nov 2020 01:20:52 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-30 11:47:21.482485
- Title: Reducing Confusion in Active Learning for Part-Of-Speech Tagging
- Title(参考訳): パート音声タギングのためのアクティブラーニングにおけるコンフュージョンの低減
- Authors: Aditi Chaudhary, Antonios Anastasopoulos, Zaid Sheikh, Graham Neubig
- Abstract要約: アクティブラーニング(AL)は、データ選択アルゴリズムを使用して、アノテーションコストを最小限に抑えるために有用なトレーニングサンプルを選択する。
本研究では、特定の出力タグのペア間の混乱を最大に低減するインスタンスの選択問題について検討する。
提案するAL戦略は,他のAL戦略よりも有意差で優れている。
- 参考スコア(独自算出の注目度): 100.08742107682264
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Active learning (AL) uses a data selection algorithm to select useful
training samples to minimize annotation cost. This is now an essential tool for
building low-resource syntactic analyzers such as part-of-speech (POS) taggers.
Existing AL heuristics are generally designed on the principle of selecting
uncertain yet representative training instances, where annotating these
instances may reduce a large number of errors. However, in an empirical study
across six typologically diverse languages (German, Swedish, Galician, North
Sami, Persian, and Ukrainian), we found the surprising result that even in an
oracle scenario where we know the true uncertainty of predictions, these
current heuristics are far from optimal. Based on this analysis, we pose the
problem of AL as selecting instances which maximally reduce the confusion
between particular pairs of output tags. Extensive experimentation on the
aforementioned languages shows that our proposed AL strategy outperforms other
AL strategies by a significant margin. We also present auxiliary results
demonstrating the importance of proper calibration of models, which we ensure
through cross-view training, and analysis demonstrating how our proposed
strategy selects examples that more closely follow the oracle data
distribution.
- Abstract(参考訳): active learning (al)は、データ選択アルゴリズムを使用して有用なトレーニングサンプルを選択し、アノテーションコストを最小化する。
これは現在、pos(part-of-speech)タグなどの低リソース構文アナライザを構築する上で不可欠なツールである。
既存のalヒューリスティックは一般に、不確かだが代表的なトレーニングインスタンスを選択する原則に基づいて設計されている。
しかし6つの言語(ドイツ語、スウェーデン語、ガリシア語、北サーミ語、ペルシア語、ウクライナ語)にまたがる実証的研究において、予測の真の不確実性を知るオラクルのシナリオにおいても、これらの現在のヒューリスティックスは最適とは程遠い。
この分析に基づいて、al の問題は、出力タグの特定のペア間の混乱を最大に軽減するインスタンスの選択である。
上記の言語を広範囲に実験した結果,提案するal戦略が他のal戦略よりも有意な差を示した。
また, モデルの適切な校正の重要性を示す補助的な結果も提示し, クロスビュートレーニングを通し, 提案手法がオラクルデータ分布をより密接に追従する例をいかに選択するかを解析した。
関連論文リスト
- Words Matter: Leveraging Individual Text Embeddings for Code Generation in CLIP Test-Time Adaptation [21.20806568508201]
テスト時推論において視覚言語モデル(VLM)が遭遇する分布ドリフトを軽減するために,クラステキスト情報を活用する方法を示す。
本稿では,ラベル割り当て問題の固定セントロイドとしてジェネリッククラステキスト埋め込みを利用して,テスト時間サンプルの擬似ラベルを生成することを提案する。
多様な複雑性を示す複数の人気のあるテスト時間適応ベンチマークの実験は、CLIP-OTの優位性を実証的に示している。
論文 参考訳(メタデータ) (2024-11-26T00:15:37Z) - Uncertainty Aware Learning for Language Model Alignment [97.36361196793929]
異なるタスクシナリオのモデルアライメントを改善するために,不確実性認識学習(UAL)を提案する。
トレーニングのラベルの平滑化値を個々のサンプルの不確実性に応じて適応的に設定する。
広く使われているベンチマーク実験では、我々のUALは標準教師あり微調整よりも著しく優れています。
論文 参考訳(メタデータ) (2024-06-07T11:37:45Z) - Experimental Design for Active Transductive Inference in Large Language Models [18.2671641610825]
適応的なプロンプト設計にアクティブラーニングを使用し、それをアクティブ・インコンテクスト・プロンプト・デザイン(AIPD)と呼ぶ。
テストセットの性能を最適化するために、トレーニングセットから少数ショット例を適応的に選択し、LCMプロンプトを設計する。
GOとSALの2つのアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-04-12T23:27:46Z) - Active Learning Principles for In-Context Learning with Large Language
Models [65.09970281795769]
本稿では,アクティブ・ラーニング・アルゴリズムが,文脈内学習における効果的な実演選択手法としてどのように機能するかを検討する。
ALによる文脈内サンプル選択は,不確実性の低い高品質な事例を優先し,試験例と類似性を有することを示す。
論文 参考訳(メタデータ) (2023-05-23T17:16:04Z) - ASPEST: Bridging the Gap Between Active Learning and Selective
Prediction [56.001808843574395]
選択予測は、不確実な場合の予測を棄却する信頼性のあるモデルを学ぶことを目的としている。
アクティブラーニングは、最も有意義な例を問うことで、ラベリングの全体、すなわち人間の依存度を下げることを目的としている。
本研究では,移動対象領域からより情報のあるサンプルを検索することを目的とした,新たな学習パラダイムである能動的選択予測を導入する。
論文 参考訳(メタデータ) (2023-04-07T23:51:07Z) - Active Learning for Abstractive Text Summarization [50.79416783266641]
本稿では,抽象テキスト要約におけるアクティブラーニングのための最初の効果的なクエリ戦略を提案する。
ALアノテーションにおける私たちの戦略は、ROUGEと一貫性スコアの点からモデル性能を向上させるのに役立ちます。
論文 参考訳(メタデータ) (2023-01-09T10:33:14Z) - Learning New Tasks from a Few Examples with Soft-Label Prototypes [18.363177410917597]
ソフトラベルのプロトタイプ(SLP)に基づく新しい数ショット学習手法を提案する。
これまでにないNLPタスク(4,8,16)の学習に重点を置いている。
このデータ・リーン・セッティングにおけるテスト作業の大部分において,本手法が優れた性能を発揮することを実験的に実証した。
論文 参考訳(メタデータ) (2022-10-31T16:06:48Z) - An Additive Instance-Wise Approach to Multi-class Model Interpretation [53.87578024052922]
解釈可能な機械学習は、ブラックボックスシステムの特定の予測を駆動する要因に関する洞察を提供する。
既存の手法は主に、局所的な加法的あるいはインスタンス的なアプローチに従う説明的入力特徴の選択に重点を置いている。
本研究は,両手法の長所を生かし,複数の対象クラスに対する局所的な説明を同時に学習するためのグローバルフレームワークを提案する。
論文 参考訳(メタデータ) (2022-07-07T06:50:27Z) - Active Learning at the ImageNet Scale [43.595076693347835]
本研究では,画像ネット上でのアクティブラーニング(AL)と事前学習(SSP)の組み合わせについて検討する。
学習者が選択したクラス不均衡なサンプルから,小型の玩具データセットのパフォーマンスがImageNetのパフォーマンスを表すものではないことが判明した。
本稿では、ランダムサンプリングを一貫して上回る、単純でスケーラブルなALアルゴリズムであるBa balanced Selection (BASE)を提案する。
論文 参考訳(メタデータ) (2021-11-25T02:48:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。