論文の概要: Early Forecasting of Text Classification Accuracy and F-Measure with
Active Learning
- arxiv url: http://arxiv.org/abs/2001.10337v2
- Date: Sat, 11 Apr 2020 08:59:27 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-08 04:56:43.937877
- Title: Early Forecasting of Text Classification Accuracy and F-Measure with
Active Learning
- Title(参考訳): アクティブラーニングによるテキスト分類精度とF測定の早期予測
- Authors: Thomas Orth and Michael Bloodgood
- Abstract要約: テキスト分類システムの性能指標として,精度とF尺度を用いた場合の予測困難度の違いについて検討する。
予測は決定木学習において最も容易であり、サポートベクトルマシンでは適度であり、ニューラルネットワークでは最も難しい。
- 参考スコア(独自算出の注目度): 0.7614628596146599
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: When creating text classification systems, one of the major bottlenecks is
the annotation of training data. Active learning has been proposed to address
this bottleneck using stopping methods to minimize the cost of data annotation.
An important capability for improving the utility of stopping methods is to
effectively forecast the performance of the text classification models.
Forecasting can be done through the use of logarithmic models regressed on some
portion of the data as learning is progressing. A critical unexplored question
is what portion of the data is needed for accurate forecasting. There is a
tension, where it is desirable to use less data so that the forecast can be
made earlier, which is more useful, versus it being desirable to use more data,
so that the forecast can be more accurate. We find that when using active
learning it is even more important to generate forecasts earlier so as to make
them more useful and not waste annotation effort. We investigate the difference
in forecasting difficulty when using accuracy and F-measure as the text
classification system performance metrics and we find that F-measure is more
difficult to forecast. We conduct experiments on seven text classification
datasets in different semantic domains with different characteristics and with
three different base machine learning algorithms. We find that forecasting is
easiest for decision tree learning, moderate for Support Vector Machines, and
most difficult for neural networks.
- Abstract(参考訳): テキスト分類システムを作成する際、大きなボトルネックの1つはトレーニングデータのアノテーションである。
データアノテーションのコストを最小限に抑えるため、このボトルネックに対処するためにアクティブラーニングが提案されている。
停止方法の有用性を改善する重要な機能は、テキスト分類モデルの性能を効果的に予測することである。
予測は、学習が進むにつれてデータの一部に回帰した対数モデルを使用することで行うことができる。
重要な未探索の疑問は、正確な予測のためにデータのどの部分が必要とされるかである。
より多くのデータを使用することが望ましいのに対して、より正確な予測ができるように、より少ないデータを使用してより早く予測を行うことが望ましいという緊張があります。
アクティブな学習では、アノテーションの無駄遣いをなくすために、より早く予測を生成することがさらに重要であることに気付きました。
テキスト分類システムの性能指標として精度とf測定値を用いた場合の予測難易度の違いを調査し,f測定値の予測が困難であることを確認した。
異なる特徴を持つセマンティックドメインと3つのベース機械学習アルゴリズムを用いて、7つのテキスト分類データセットの実験を行った。
予測は決定木学習において最も容易であり、サポートベクトルマシンでは適度であり、ニューラルネットワークでは最も難しい。
関連論文リスト
- Adaptive Pre-training Data Detection for Large Language Models via Surprising Tokens [1.2549198550400134]
大きな言語モデル(LLM)は広く使われているが、プライバシー、セキュリティ、著作権については不透明なトレーニングデータのために懸念されている。
この問題に対する現在の解決策は、メンバーシップ推論攻撃(MIA)のような機械学習プライバシで探索されたテクニックを活用する。
本稿では、この信頼性を軽減し、同定を効果的に増幅する適応型事前学習データ検出法を提案する。
論文 参考訳(メタデータ) (2024-07-30T23:43:59Z) - Robust Machine Learning by Transforming and Augmenting Imperfect
Training Data [6.928276018602774]
この論文は、現代の機械学習のいくつかのデータ感度を探求する。
まず、トレーニングデータで測定された事前の人間の識別をMLが符号化するのを防ぐ方法について論じる。
次に、トレーニング中に予測忠実度を提供するが、デプロイ時に信頼性が低い突発的特徴を含むデータから学習する問題について論じる。
論文 参考訳(メタデータ) (2023-12-19T20:49:28Z) - XAL: EXplainable Active Learning Makes Classifiers Better Low-resource Learners [71.8257151788923]
低リソーステキスト分類のための新しい説明可能なアクティブラーニングフレームワーク(XAL)を提案する。
XALは分類器に対して、推論を正当化し、合理的な説明ができないラベルのないデータを掘り下げることを推奨している。
6つのデータセットの実験では、XALは9つの強いベースラインに対して一貫した改善を達成している。
論文 参考訳(メタデータ) (2023-10-09T08:07:04Z) - LAVA: Data Valuation without Pre-Specified Learning Algorithms [20.578106028270607]
我々は、下流学習アルゴリズムに不利な方法でトレーニングデータを評価できる新しいフレームワークを導入する。
本研究では,訓練と検証セット間の非伝統的なクラスワイドワッサースタイン距離に基づいて,トレーニングセットに関連する検証性能のプロキシを開発する。
距離は、特定のリプシッツ条件下での任意のモデルに対する検証性能の上限を特徴付けることを示す。
論文 参考訳(メタデータ) (2023-04-28T19:05:16Z) - ASPEST: Bridging the Gap Between Active Learning and Selective
Prediction [56.001808843574395]
選択予測は、不確実な場合の予測を棄却する信頼性のあるモデルを学ぶことを目的としている。
アクティブラーニングは、最も有意義な例を問うことで、ラベリングの全体、すなわち人間の依存度を下げることを目的としている。
本研究では,移動対象領域からより情報のあるサンプルを検索することを目的とした,新たな学習パラダイムである能動的選択予測を導入する。
論文 参考訳(メタデータ) (2023-04-07T23:51:07Z) - Confidence Estimation for Object Detection in Document Images [1.9938405188113029]
オブジェクト検出予測の信頼性を推定する4つの推定器を提案する。
最初の2つはモンテカルロの落下に基づくもので、第3は記述統計であり、最後の1つは検出器後部確率である。
アクティブな学習フレームワークでは、最初の3つの推定器は、文書の物理ページやテキスト行の検出において、大幅な性能向上を示す。
論文 参考訳(メタデータ) (2022-08-29T06:47:18Z) - Efficient and Differentiable Conformal Prediction with General Function
Classes [96.74055810115456]
本稿では,複数の学習可能なパラメータに対する共形予測の一般化を提案する。
本研究は, クラス内において, ほぼ有効な人口被覆率, ほぼ最適効率を実現していることを示す。
実験の結果,提案アルゴリズムは有効な予測セットを学習し,効率を著しく向上できることがわかった。
論文 参考訳(メタデータ) (2022-02-22T18:37:23Z) - ALT-MAS: A Data-Efficient Framework for Active Testing of Machine
Learning Algorithms [58.684954492439424]
少量のラベル付きテストデータのみを用いて機械学習モデルを効率的にテストする新しいフレームワークを提案する。
ベイズニューラルネットワーク(bnn)を用いたモデルアンダーテストの関心指標の推定が目的である。
論文 参考訳(メタデータ) (2021-04-11T12:14:04Z) - Representation Learning for Sequence Data with Deep Autoencoding
Predictive Components [96.42805872177067]
本稿では,シーケンスデータの有用な表現が潜在空間における単純な構造を示すべきという直感に基づく,シーケンスデータの自己教師型表現学習法を提案する。
我々は,過去と将来のウィンドウ間の相互情報である潜在特徴系列の予測情報を最大化することにより,この潜時構造を奨励する。
提案手法は,ノイズの多い動的システムの潜時空間を復元し,タスク予測のための予測特徴を抽出し,エンコーダを大量の未ラベルデータで事前訓練する場合に音声認識を改善する。
論文 参考訳(メタデータ) (2020-10-07T03:34:01Z) - Post-Estimation Smoothing: A Simple Baseline for Learning with Side
Information [102.18616819054368]
本稿では,構造指標データを予測に組み込む高速かつ効率的な手法として,後推定平滑化演算子を提案する。
滑らかなステップは元の予測器とは分離されているため、機械学習タスクの幅広いクラスに適用できる。
大規模な空間的・時間的データセットに関する実験は,実測後のスムース化の速度と正確さを浮き彫りにした。
論文 参考訳(メタデータ) (2020-03-12T18:04:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。