論文の概要: Investigating Multi-source Active Learning for Natural Language
Inference
- arxiv url: http://arxiv.org/abs/2302.06976v1
- Date: Tue, 14 Feb 2023 11:10:18 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-15 15:35:17.392935
- Title: Investigating Multi-source Active Learning for Natural Language
Inference
- Title(参考訳): 自然言語推論のためのマルチソースアクティブラーニングの検討
- Authors: Ard Snijders, Douwe Kiela, Katerina Margatina
- Abstract要約: 本研究では,自然言語推論のタスクにおいて,複数のデータソースからなる乱数プールに適用した場合,一般的な4つのアクティブ学習方式がランダム選択よりも優れていることを示す。
我々は,不確実性に基づく戦略が,集団的アウトリージの獲得によって不確実性が低下していることを明らかにする。
さらなる分析では、集団のアウトリーチはソース間で形式的に変化し、ハード・トゥ・ラーンデータが必ずしも分類的に有害であるとは限らないことを示す。
- 参考スコア(独自算出の注目度): 34.18663328309923
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In recent years, active learning has been successfully applied to an array of
NLP tasks. However, prior work often assumes that training and test data are
drawn from the same distribution. This is problematic, as in real-life settings
data may stem from several sources of varying relevance and quality. We show
that four popular active learning schemes fail to outperform random selection
when applied to unlabelled pools comprised of multiple data sources on the task
of natural language inference. We reveal that uncertainty-based strategies
perform poorly due to the acquisition of collective outliers, i.e.,
hard-to-learn instances that hamper learning and generalization. When outliers
are removed, strategies are found to recover and outperform random baselines.
In further analysis, we find that collective outliers vary in form between
sources, and show that hard-to-learn data is not always categorically harmful.
Lastly, we leverage dataset cartography to introduce difficulty-stratified
testing and find that different strategies are affected differently by example
learnability and difficulty.
- Abstract(参考訳): 近年,NLPタスクの配列に対して能動的学習が成功している。
しかしながら、事前の作業では、トレーニングとテストデータが同じディストリビューションから引き出されると仮定されることが多い。
実際の設定データには、さまざまな関連性や品質のソースがあるため、これは問題である。
自然言語推論のタスクにおいて,複数のデータソースからなるラベルなしプールに適用した場合,4つの一般的なアクティブ学習方式はランダム選択を上回らないことを示す。
本研究では,学習や一般化を阻害する難解な学習事例をまとめて獲得することで,不確実性に基づく戦略が不十分であることを明らかにする。
外れ値を取り除いた場合、戦略はランダムなベースラインを回復し、改善する。
さらなる分析では、集団アウトリーチはソース間で形態が異なり、ハード・トゥ・ラーンデータが必ずしも分類的に有害であるとは限らないことを示す。
最後に,難易度階層化テストの導入にデータセット地図を活用することで,学習可能性や難易度によって異なる戦略が影響を受けることを見出します。
関連論文リスト
- Active Learning Principles for In-Context Learning with Large Language
Models [65.09970281795769]
本稿では,アクティブ・ラーニング・アルゴリズムが,文脈内学習における効果的な実演選択手法としてどのように機能するかを検討する。
ALによる文脈内サンプル選択は,不確実性の低い高品質な事例を優先し,試験例と類似性を有することを示す。
論文 参考訳(メタデータ) (2023-05-23T17:16:04Z) - Adaptive Negative Evidential Deep Learning for Open-set Semi-supervised Learning [69.81438976273866]
オープンセット半教師付き学習(Open-set SSL)は、ラベル付きデータ(inliers)で観測されない新しいカテゴリ(outliers)を含むラベル付きデータとテストデータを含む、より実践的なシナリオである。
本研究では,様々な不確かさを定量化するための外乱検出器として顕在的深層学習(EDL)を導入し,自己学習と推論のための異なる不確実性指標を設計する。
Inlierとoutlierの両方を含むラベルなしデータセットに適合するように、新しい適応的負の最適化戦略を提案する。
論文 参考訳(メタデータ) (2023-03-21T09:07:15Z) - Nonstationary data stream classification with online active learning and
siamese neural networks [11.501721946030779]
予測モデルをオンザフライでトレーニングするオンライン学習方法に対する新たなニーズ。
しかし、一連のオープンな課題は、実際にデプロイを妨げている。
本稿では,オンラインアクティブラーニング,シアムネットワーク,マルチキューメモリを組み合わせることで,これらの課題に対処するActiSiameseアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-10-03T17:16:03Z) - Uncertainty Estimation for Language Reward Models [5.33024001730262]
言語モデルは、テキストコーパスの教師なしトレーニングからさまざまな能力を学ぶことができる。
人間がラベル付きデータを提供するよりも選択肢を選択する方が簡単であり、事前の作業はそのような選好比較から報酬モデルをトレーニングすることで最先端のパフォーマンスを達成した。
能動的学習とリスク-逆強化学習を用いてサンプル効率とロバスト性を向上させる不確実性推定によるこれらの問題に対処することを模索する。
論文 参考訳(メタデータ) (2022-03-14T20:13:21Z) - On Modality Bias Recognition and Reduction [70.69194431713825]
マルチモーダル分類の文脈におけるモダリティバイアス問題について検討する。
本稿では,各ラベルの特徴空間を適応的に学習するプラグアンドプレイ損失関数法を提案する。
本手法は, ベースラインに比べ, 顕著な性能向上を実現している。
論文 参考訳(メタデータ) (2022-02-25T13:47:09Z) - Knowledge-driven Active Learning [70.37119719069499]
アクティブな学習戦略は、ディープラーニングモデルをトレーニングするために必要なラベル付きデータの量を最小限にすることを目的としている。
ほとんどの積極的な戦略は不確実なサンプルの選択に基づいており、しばしば決定境界に近いサンプルに制限される。
本稿では、一般的なドメイン知識を考慮し、エキスパートでないユーザがより少ないサンプルでモデルを訓練できるようにする。
論文 参考訳(メタデータ) (2021-10-15T06:11:53Z) - Mind Your Outliers! Investigating the Negative Impact of Outliers on
Active Learning for Visual Question Answering [71.15403434929915]
視覚的質問応答のタスクにおいて、5つのモデルと4つのデータセットにまたがって、多種多様な能動的学習アプローチがランダム選択を上回りません。
アクティブな学習手法が好まれるが、モデルは学習に失敗する例の集まりである。
本研究では,アクティブ学習プールにおける集団外乱の減少に伴い,アクティブ学習サンプル効率が著しく向上することを示す。
論文 参考訳(メタデータ) (2021-07-06T00:52:11Z) - Low-Regret Active learning [64.36270166907788]
トレーニングに最も有用なラベル付きデータポイントを識別するオンライン学習アルゴリズムを開発した。
私たちの仕事の中心は、予測可能な(簡単な)インスタンスの低い後悔を達成するために調整された睡眠専門家のための効率的なアルゴリズムです。
論文 参考訳(メタデータ) (2021-04-06T22:53:45Z) - Deep Active Learning for Sequence Labeling Based on Diversity and
Uncertainty in Gradient [5.33024001730262]
シーケンスラベリングタスクにおいて、不確実性と多様性の両方を組み込んだ場合、アクティブラーニングを用いてラベル付きトレーニングデータの量を削減することができることを示す。
我々は,複数のタスク,データセット,モデル,そして古典的不確実性に基づくサンプリングと多様性に基づくサンプリングを一貫して上回る勾配埋め込みアプローチにおいて,重み付けされた多様性を選択することで,シーケンスベースアプローチの効果を検討した。
論文 参考訳(メタデータ) (2020-11-27T06:03:27Z) - Curriculum Learning with Diversity for Supervised Computer Vision Tasks [1.5229257192293197]
本稿では,学習データの多様性と入力の難しさを考慮に入れた,新たなカリキュラムサンプリング戦略を提案する。
我々は、我々の戦略が不均衡なデータセットに対して非常に効率的であることを証明し、より高速な収束とより正確な結果をもたらす。
論文 参考訳(メタデータ) (2020-09-22T15:32:49Z) - On the Sample Complexity of Adversarial Multi-Source PAC Learning [46.24794665486056]
単一ソース設定では、トレーニングデータの一定割合を破損させるパワーを持つ相手がPAC学習を防止できる。
意外なことに、マルチソース設定では、敵が任意にデータソースの固定された部分を破壊することができるため、同じことが当てはまらない。
また, 他者とのデータ共有を協調的に行うことで, 悪意のある参加者でも有益であることが示唆された。
論文 参考訳(メタデータ) (2020-02-24T17:19:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。