論文の概要: Reducing Confusion in Active Learning for Part-Of-Speech Tagging
- arxiv url: http://arxiv.org/abs/2011.00767v2
- Date: Sat, 21 Nov 2020 01:20:52 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-30 11:47:21.482485
- Title: Reducing Confusion in Active Learning for Part-Of-Speech Tagging
- Title(参考訳): パート音声タギングのためのアクティブラーニングにおけるコンフュージョンの低減
- Authors: Aditi Chaudhary, Antonios Anastasopoulos, Zaid Sheikh, Graham Neubig
- Abstract要約: アクティブラーニング(AL)は、データ選択アルゴリズムを使用して、アノテーションコストを最小限に抑えるために有用なトレーニングサンプルを選択する。
本研究では、特定の出力タグのペア間の混乱を最大に低減するインスタンスの選択問題について検討する。
提案するAL戦略は,他のAL戦略よりも有意差で優れている。
- 参考スコア(独自算出の注目度): 100.08742107682264
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Active learning (AL) uses a data selection algorithm to select useful
training samples to minimize annotation cost. This is now an essential tool for
building low-resource syntactic analyzers such as part-of-speech (POS) taggers.
Existing AL heuristics are generally designed on the principle of selecting
uncertain yet representative training instances, where annotating these
instances may reduce a large number of errors. However, in an empirical study
across six typologically diverse languages (German, Swedish, Galician, North
Sami, Persian, and Ukrainian), we found the surprising result that even in an
oracle scenario where we know the true uncertainty of predictions, these
current heuristics are far from optimal. Based on this analysis, we pose the
problem of AL as selecting instances which maximally reduce the confusion
between particular pairs of output tags. Extensive experimentation on the
aforementioned languages shows that our proposed AL strategy outperforms other
AL strategies by a significant margin. We also present auxiliary results
demonstrating the importance of proper calibration of models, which we ensure
through cross-view training, and analysis demonstrating how our proposed
strategy selects examples that more closely follow the oracle data
distribution.
- Abstract(参考訳): active learning (al)は、データ選択アルゴリズムを使用して有用なトレーニングサンプルを選択し、アノテーションコストを最小化する。
これは現在、pos(part-of-speech)タグなどの低リソース構文アナライザを構築する上で不可欠なツールである。
既存のalヒューリスティックは一般に、不確かだが代表的なトレーニングインスタンスを選択する原則に基づいて設計されている。
しかし6つの言語(ドイツ語、スウェーデン語、ガリシア語、北サーミ語、ペルシア語、ウクライナ語)にまたがる実証的研究において、予測の真の不確実性を知るオラクルのシナリオにおいても、これらの現在のヒューリスティックスは最適とは程遠い。
この分析に基づいて、al の問題は、出力タグの特定のペア間の混乱を最大に軽減するインスタンスの選択である。
上記の言語を広範囲に実験した結果,提案するal戦略が他のal戦略よりも有意な差を示した。
また, モデルの適切な校正の重要性を示す補助的な結果も提示し, クロスビュートレーニングを通し, 提案手法がオラクルデータ分布をより密接に追従する例をいかに選択するかを解析した。
関連論文リスト
- Active Learning for Natural Language Generation [17.14395724301382]
本稿では,自然言語生成のための能動的学習に関する最初の体系的研究について述べる。
以上の結果から,既存のAL戦略は不整合であることが示唆された。
分類と生成シナリオの顕著な違いを強調し,既存のAL戦略の選択行動を分析する。
論文 参考訳(メタデータ) (2023-05-24T11:27:53Z) - Active Learning Principles for In-Context Learning with Large Language
Models [65.09970281795769]
本稿では,アクティブ・ラーニング・アルゴリズムが,文脈内学習における効果的な実演選択手法としてどのように機能するかを検討する。
ALによる文脈内サンプル選択は,不確実性の低い高品質な事例を優先し,試験例と類似性を有することを示す。
論文 参考訳(メタデータ) (2023-05-23T17:16:04Z) - ASPEST: Bridging the Gap Between Active Learning and Selective
Prediction [56.001808843574395]
選択予測は、不確実な場合の予測を棄却する信頼性のあるモデルを学ぶことを目的としている。
アクティブラーニングは、最も有意義な例を問うことで、ラベリングの全体、すなわち人間の依存度を下げることを目的としている。
本研究では,移動対象領域からより情報のあるサンプルを検索することを目的とした,新たな学習パラダイムである能動的選択予測を導入する。
論文 参考訳(メタデータ) (2023-04-07T23:51:07Z) - Active Learning for Abstractive Text Summarization [50.79416783266641]
本稿では,抽象テキスト要約におけるアクティブラーニングのための最初の効果的なクエリ戦略を提案する。
ALアノテーションにおける私たちの戦略は、ROUGEと一貫性スコアの点からモデル性能を向上させるのに役立ちます。
論文 参考訳(メタデータ) (2023-01-09T10:33:14Z) - An Additive Instance-Wise Approach to Multi-class Model Interpretation [53.87578024052922]
解釈可能な機械学習は、ブラックボックスシステムの特定の予測を駆動する要因に関する洞察を提供する。
既存の手法は主に、局所的な加法的あるいはインスタンス的なアプローチに従う説明的入力特徴の選択に重点を置いている。
本研究は,両手法の長所を生かし,複数の対象クラスに対する局所的な説明を同時に学習するためのグローバルフレームワークを提案する。
論文 参考訳(メタデータ) (2022-07-07T06:50:27Z) - Less Learn Shortcut: Analyzing and Mitigating Learning of Spurious
Feature-Label Correlation [44.319739489968164]
ディープニューラルネットワークは、タスクを理解するのではなく、意思決定をするためのショートカットとしてデータセットバイアスを取ることが多い。
本研究では,モデルがバイアスデータ分布から学習する単語特徴とラベルとの素早い相関に着目した。
本手法は, 偏りのある例と下級者の偏り度を定量的に評価する学習戦略である。
論文 参考訳(メタデータ) (2022-05-25T09:08:35Z) - Active Learning at the ImageNet Scale [43.595076693347835]
本研究では,画像ネット上でのアクティブラーニング(AL)と事前学習(SSP)の組み合わせについて検討する。
学習者が選択したクラス不均衡なサンプルから,小型の玩具データセットのパフォーマンスがImageNetのパフォーマンスを表すものではないことが判明した。
本稿では、ランダムサンプリングを一貫して上回る、単純でスケーラブルなALアルゴリズムであるBa balanced Selection (BASE)を提案する。
論文 参考訳(メタデータ) (2021-11-25T02:48:51Z) - Discriminatively-Tuned Generative Classifiers for Robust Natural
Language Inference [59.62779187457773]
自然言語推論のための生成型分類器(NLI)を提案する。
差別モデルやBERTのような大規模事前学習言語表現モデルを含む5つのベースラインと比較する。
実験の結果、GenNLIはいくつかの挑戦的なNLI実験環境において差別的ベースラインと事前訓練ベースラインの両方に優れていた。
論文 参考訳(メタデータ) (2020-10-08T04:44:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。