論文の概要: Impact of Stop Sets on Stopping Active Learning for Text Classification
- arxiv url: http://arxiv.org/abs/2201.05460v1
- Date: Sat, 8 Jan 2022 18:59:15 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-23 18:15:07.157097
- Title: Impact of Stop Sets on Stopping Active Learning for Text Classification
- Title(参考訳): テキスト分類における停止セットがアクティブ学習の停止に及ぼす影響
- Authors: Luke Kurlandski and Michael Bloodgood
- Abstract要約: 効果的な能動学習アルゴリズムの重要な側面は、追加のラベル付きデータを取得するのをやめるタイミングを決定することである。
いくつかの最先端の停止方法がこの決定を下すのにストップセットを使用する。
異なる停止方法に対する異なる停止セットの選択の影響について検討する。
- 参考スコア(独自算出の注目度): 0.6445605125467572
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Active learning is an increasingly important branch of machine learning and a
powerful technique for natural language processing. The main advantage of
active learning is its potential to reduce the amount of labeled data needed to
learn high-performing models. A vital aspect of an effective active learning
algorithm is the determination of when to stop obtaining additional labeled
data. Several leading state-of-the-art stopping methods use a stop set to help
make this decision. However, there has been relatively less attention given to
the choice of stop set than to the stopping algorithms that are applied on the
stop set. Different choices of stop sets can lead to significant differences in
stopping method performance. We investigate the impact of different stop set
choices on different stopping methods. This paper shows the choice of the stop
set can have a significant impact on the performance of stopping methods and
the impact is different for stability-based methods from that on
confidence-based methods. Furthermore, the unbiased representative stop sets
suggested by original authors of methods work better than the systematically
biased stop sets used in recently published work, and stopping methods based on
stabilizing predictions have stronger performance than confidence-based
stopping methods when unbiased representative stop sets are used. We provide
the largest quantity of experimental results on the impact of stop sets to
date. The findings are important for helping to illuminate the impact of this
important aspect of stopping methods that has been under-considered in recently
published work and that can have a large practical impact on the performance of
stopping methods for important semantic computing applications such as
technology assisted review and text classification more broadly.
- Abstract(参考訳): アクティブ・ラーニングは機械学習の重要な分野であり、自然言語処理の強力な技術である。
アクティブラーニングの主な利点は、高性能モデルを学ぶのに必要なラベル付きデータの量を減らすことができることである。
効果的なアクティブラーニングアルゴリズムの重要な側面は、追加のラベル付きデータを取得するのをやめるタイミングの決定である。
いくつかの最先端の停止方法は、この決定にストップセットを使用する。
しかし、停止セットに適用される停止アルゴリズムよりも、停止セットの選択に比較的注意が向けられている。
停止セットの異なる選択は、停止メソッドのパフォーマンスに重大な違いをもたらす可能性がある。
異なる停止方法に対する異なる停止セットの選択の影響について検討する。
本稿では,停止セットの選択が停止手法の性能に重大な影響を与えることを示し,安定性に基づく手法と信頼性に基づく手法との相違点を示す。
さらに,提案手法の原著者が提案する偏りのない代表停止セットは,最近公表された作業で使用される体系的に偏りのある停止セットよりもよく動作し,不安定な代表停止セットを使用する場合,安定化予測に基づく停止手法は信頼度に基づく停止方法よりも強い性能を示す。
我々は,これまでで最大の実験結果が停止セットに与える影響について報告する。
この知見は、最近発表された研究で過小評価されており、技術支援レビューやテキスト分類といった重要な意味論的コンピューティングアプリケーションにおける停止メソッドのパフォーマンスに大きな実用的影響を与えうる停止メソッドのこの重要な側面の影響を照らすのに役立ちます。
関連論文リスト
- Preference Fine-Tuning of LLMs Should Leverage Suboptimal, On-Policy Data [102.16105233826917]
好みラベルからの学習は、微調整された大きな言語モデルにおいて重要な役割を果たす。
好みの微調整には、教師付き学習、オンライン強化学習(RL)、コントラスト学習など、いくつかの異なるアプローチがある。
論文 参考訳(メタデータ) (2024-04-22T17:20:18Z) - ActiveAD: Planning-Oriented Active Learning for End-to-End Autonomous
Driving [96.92499034935466]
自動運転のためのエンドツーエンドの差別化学習は、最近顕著なパラダイムになっている。
第一のボトルネックは、高品質なラベル付きデータに対する大胆な欲求にある。
収集した生データの一部を段階的に注釈付けする計画指向のアクティブラーニング手法を提案する。
論文 参考訳(メタデータ) (2024-03-05T11:39:07Z) - Regularizing Second-Order Influences for Continual Learning [39.16131410356833]
継続的な学習は、それまでの知識を破滅的に忘れることなく、非定常的なデータストリームで学習することを目的としている。
一般的なリプレイベースのメソッドは、見たデータを保持する小さなバッファーでリハーサルすることで、この問題に対処する。
我々は、影響関数に基づいて構築されたフレームワーク内での逐次選択ステップの相互作用を識別する。
論文 参考訳(メタデータ) (2023-04-20T09:30:35Z) - Interpolation-based Contrastive Learning for Few-Label Semi-Supervised
Learning [43.51182049644767]
半教師付き学習(SSL)は,ラベルが限定された強力なモデルを構築する上で,有効な手法であることが長年証明されてきた。
摂動サンプルを元のものと類似した予測を強制する正規化に基づく手法が注目されている。
本稿では,学習ネットワークの埋め込みを誘導し,サンプル間の線形変化を誘導する新たな対照的な損失を提案する。
論文 参考訳(メタデータ) (2022-02-24T06:00:05Z) - An Investigation of Replay-based Approaches for Continual Learning [79.0660895390689]
連続学習(CL)は機械学習(ML)の大きな課題であり、破滅的忘れ(CF)を伴わずに連続的に複数のタスクを学習する能力を記述する。
いくつかの解クラスが提案されており、その単純さと堅牢性から、いわゆるリプレイベースのアプローチは非常に有望であるように思われる。
連続学習におけるリプレイに基づくアプローチを実証的に検討し,応用の可能性を評価する。
論文 参考訳(メタデータ) (2021-08-15T15:05:02Z) - MCDAL: Maximum Classifier Discrepancy for Active Learning [74.73133545019877]
近年の最先端のアクティブラーニング手法は, 主にGAN(Generative Adversarial Networks)をサンプル取得に活用している。
本稿では,MCDAL(Maximum Discrepancy for Active Learning)と呼ぶ新しいアクティブラーニングフレームワークを提案する。
特に,両者の差分を最大化することにより,より厳密な決定境界を学習する2つの補助的分類層を利用する。
論文 参考訳(メタデータ) (2021-07-23T06:57:08Z) - Targeted Active Learning for Bayesian Decision-Making [15.491942513739676]
サンプルを逐次取得する際には,学習と意思決定を分離することが準最適である。
本稿では,ダウン・ザ・ライン決定問題を考慮に入れた,新たなアクティブな学習戦略を提案する。
具体的には、最適決定の後続分布における期待情報ゲインを最大化する、新しい能動的学習基準を導入する。
論文 参考訳(メタデータ) (2021-06-08T09:05:43Z) - Online Coreset Selection for Rehearsal-based Continual Learning [65.85595842458882]
継続的な学習では、後に再生されるトレーニング例(コアセット)のサブセットを格納し、破滅的な忘れを軽減します。
提案するオンラインコアセット選択(OCS, Online Coreset Selection)は, 各イテレーションにおいて最も代表的で情報性の高いコアセットを選択するシンプルで効果的な方法である。
提案手法は,過去のタスクに対して高親和性サンプルを選択しながら,目標データセットへのモデル適応を最大化し,破滅的忘れを直接的に抑制する。
論文 参考訳(メタデータ) (2021-06-02T11:39:25Z) - Just Label What You Need: Fine-Grained Active Selection for Perception
and Prediction through Partially Labeled Scenes [78.23907801786827]
提案手法は,コストに配慮した手法と,部分的にラベル付けされたシーンを通じて詳細なサンプル選択を可能にする一般化を導入している。
実世界の大規模自動運転データセットに関する我々の実験は、微粒な選択が知覚、予測、下流計画タスクのパフォーマンスを向上させることを示唆している。
論文 参考訳(メタデータ) (2021-04-08T17:57:41Z) - Coping with Mistreatment in Fair Algorithms [1.2183405753834557]
教師付き学習環境におけるアルゴリズムの公平性を検討し,等価機会指標の分類器最適化の効果を検討する。
このバイアスを軽減するための概念的にシンプルな方法を提案する。
提案手法を厳密に解析し,その効果を示す実世界データセット上で評価する。
論文 参考訳(メタデータ) (2021-02-22T03:26:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。