論文の概要: Diversity-Aware Batch Active Learning for Dependency Parsing
- arxiv url: http://arxiv.org/abs/2104.13936v1
- Date: Wed, 28 Apr 2021 18:00:05 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-30 13:15:45.921832
- Title: Diversity-Aware Batch Active Learning for Dependency Parsing
- Title(参考訳): 依存性解析のための多様性を考慮したバッチアクティブラーニング
- Authors: Tianze Shi, Adrian Benton, Igor Malioutov, Ozan \.Irsoy
- Abstract要約: DPPで多種多様なバッチを選択することは、バッチの多様性を強制しない強い選択戦略よりも優れていることを示す。
我々の多様性意識戦略は、多様性に依存しないサンプリング戦略が著しい劣化を示すコーパス複製条件下で堅牢である。
- 参考スコア(独自算出の注目度): 12.579809393060858
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While the predictive performance of modern statistical dependency parsers
relies heavily on the availability of expensive expert-annotated treebank data,
not all annotations contribute equally to the training of the parsers. In this
paper, we attempt to reduce the number of labeled examples needed to train a
strong dependency parser using batch active learning (AL). In particular, we
investigate whether enforcing diversity in the sampled batches, using
determinantal point processes (DPPs), can improve over their diversity-agnostic
counterparts. Simulation experiments on an English newswire corpus show that
selecting diverse batches with DPPs is superior to strong selection strategies
that do not enforce batch diversity, especially during the initial stages of
the learning process. Additionally, our diversityaware strategy is robust under
a corpus duplication setting, where diversity-agnostic sampling strategies
exhibit significant degradation.
- Abstract(参考訳): 現代の統計依存性パーサーの予測性能は、高価な専門家が注釈付きツリーバンクデータの可用性に大きく依存しているが、すべてのアノテーションがパーサーのトレーニングに等しく寄与するわけではない。
本稿では,バッチアクティブラーニング(al)を用いた強い依存関係パーサのトレーニングに必要なラベル付きサンプル数を削減することを試みる。
特に,DPP(Determinantal point process)を用いたサンプルバッチにおける多様性の強制が,多様性に依存しないプロセスよりも改善できるかどうかを検討する。
英ニューズワイヤコーパスにおけるシミュレーション実験により,dppを用いた多様なバッチの選択は,特に学習過程の初期段階においてバッチの多様性を強制しない強力な選択戦略よりも優れていることが示された。
さらに,ダイバーシティアウェア戦略はコーパス重複環境下で頑健であり,ダイバーシティ非依存なサンプリング戦略は著しい劣化を示す。
関連論文リスト
- Words Matter: Leveraging Individual Text Embeddings for Code Generation in CLIP Test-Time Adaptation [21.20806568508201]
テスト時推論において視覚言語モデル(VLM)が遭遇する分布ドリフトを軽減するために,クラステキスト情報を活用する方法を示す。
本稿では,ラベル割り当て問題の固定セントロイドとしてジェネリッククラステキスト埋め込みを利用して,テスト時間サンプルの擬似ラベルを生成することを提案する。
多様な複雑性を示す複数の人気のあるテスト時間適応ベンチマークの実験は、CLIP-OTの優位性を実証的に示している。
論文 参考訳(メタデータ) (2024-11-26T00:15:37Z) - Effective Demonstration Annotation for In-Context Learning via Language Model-Based Determinantal Point Process [45.632012199451275]
In-context Learning(ICL)は、インプット・アウトプット・ペアを通じてマッピングを学習する、数発の学習パラダイムである。
既存の作業は大規模にラベル付けされたサポートセットに大きく依存しているため、現実的なシナリオでは必ずしも実現できない。
言語モデルに基づく決定点プロセス(LM-DPP)を導入し、最適選択のための未ラベルインスタンスの不確かさと多様性を同時に検討する。
論文 参考訳(メタデータ) (2024-08-04T18:08:15Z) - Mitigating Shortcut Learning with Diffusion Counterfactuals and Diverse Ensembles [95.49699178874683]
拡散確率モデル(DPM)を利用したアンサンブル多様化フレームワークDiffDivを提案する。
DPMは、相関した入力特徴を示すサンプルを用いて訓練しても、新しい特徴の組み合わせで画像を生成することができることを示す。
そこで本研究では,DPM誘導の多様化は,教師付き信号の追加を必要とせず,ショートカットキューへの依存を取り除くのに十分であることを示す。
論文 参考訳(メタデータ) (2023-11-23T15:47:33Z) - Active Learning Principles for In-Context Learning with Large Language
Models [65.09970281795769]
本稿では,アクティブ・ラーニング・アルゴリズムが,文脈内学習における効果的な実演選択手法としてどのように機能するかを検討する。
ALによる文脈内サンプル選択は,不確実性の低い高品質な事例を優先し,試験例と類似性を有することを示す。
論文 参考訳(メタデータ) (2023-05-23T17:16:04Z) - Multi-View Knowledge Distillation from Crowd Annotations for
Out-of-Domain Generalization [53.24606510691877]
本稿では,既存の手法による分布を集約することで,クラウドアノテーションからソフトラベルを取得する新しい手法を提案する。
これらのアグリゲーション手法は、ドメイン外テストセット上の4つのNLPタスクにおいて、最も一貫したパフォーマンスをもたらすことを実証する。
論文 参考訳(メタデータ) (2022-12-19T12:40:18Z) - Exploiting Diversity of Unlabeled Data for Label-Efficient
Semi-Supervised Active Learning [57.436224561482966]
アクティブラーニング(英: Active Learning)は、ラベリングのための最も重要なサンプルを選択することで、高価なラベリングの問題に対処する研究分野である。
アクティブな学習環境における初期ラベル付けのための最も情報性の高いサンプル群を選択するために,多様性に基づく新しい初期データセット選択アルゴリズムを提案する。
また、一貫性に基づく埋め込みの多様性に基づくサンプリングを用いた、新しいアクティブな学習クエリ戦略を提案する。
論文 参考訳(メタデータ) (2022-07-25T16:11:55Z) - Variational Distillation for Multi-View Learning [104.17551354374821]
我々は,多視点表現学習における2つの重要な特徴を利用するために,様々な情報ボトルネックを設計する。
厳密な理論的保証の下で,本手法は,観察とセマンティックラベルの内在的相関の把握を可能にする。
論文 参考訳(メタデータ) (2022-06-20T03:09:46Z) - BERT for Sentiment Analysis: Pre-trained and Fine-Tuned Alternatives [0.0]
BERTは、大きな言語モデルで伝達学習を可能にすることで、NLP分野に革命をもたらした。
本稿では、BERT出力層が提供する異なる埋め込みと、多言語モデルの代わりに言語固有の使用について、よりよく対処する方法について研究する。
論文 参考訳(メタデータ) (2022-01-10T15:05:05Z) - Deep Active Learning for Sequence Labeling Based on Diversity and
Uncertainty in Gradient [5.33024001730262]
シーケンスラベリングタスクにおいて、不確実性と多様性の両方を組み込んだ場合、アクティブラーニングを用いてラベル付きトレーニングデータの量を削減することができることを示す。
我々は,複数のタスク,データセット,モデル,そして古典的不確実性に基づくサンプリングと多様性に基づくサンプリングを一貫して上回る勾配埋め込みアプローチにおいて,重み付けされた多様性を選択することで,シーケンスベースアプローチの効果を検討した。
論文 参考訳(メタデータ) (2020-11-27T06:03:27Z) - Reducing Confusion in Active Learning for Part-Of-Speech Tagging [100.08742107682264]
アクティブラーニング(AL)は、データ選択アルゴリズムを使用して、アノテーションコストを最小限に抑えるために有用なトレーニングサンプルを選択する。
本研究では、特定の出力タグのペア間の混乱を最大に低減するインスタンスの選択問題について検討する。
提案するAL戦略は,他のAL戦略よりも有意差で優れている。
論文 参考訳(メタデータ) (2020-11-02T06:24:58Z) - Informed Sampling for Diversity in Concept-to-Text NLG [8.883733362171034]
本稿では,言語生成モデルが確実に生成できる多様性のレベルを探索するために,Imitation Learningアプローチを提案する。
具体的には、任意のタイミングでどの単語が高品質な出力につながるかを識別するように訓練されたメタ分類器を用いて復号処理を強化する。
論文 参考訳(メタデータ) (2020-04-29T17:43:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。