論文の概要: Harnessing the Power of Beta Scoring in Deep Active Learning for
Multi-Label Text Classification
- arxiv url: http://arxiv.org/abs/2401.07395v1
- Date: Mon, 15 Jan 2024 00:06:24 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-17 18:18:35.095142
- Title: Harnessing the Power of Beta Scoring in Deep Active Learning for
Multi-Label Text Classification
- Title(参考訳): マルチラベルテキスト分類のための深層アクティブラーニングにおけるベータスコアの活用
- Authors: Wei Tan, Ngoc Dang Nguyen, Lan Du, Wray Buntine
- Abstract要約: 本研究は,期待損失削減フレームワーク内の適切なスコアリングルールのベータファミリを活かした,新たなアクティブな学習戦略を提案する。
これはBeta Scoring Rulesを使って期待されるスコアの増加を計算し、次にサンプルベクトル表現に変換する。
合成データセットと実データセットの総合的な評価により,複数ラベルのテキスト分類において,確立された取得技術を上回る性能が得られた。
- 参考スコア(独自算出の注目度): 6.662167018900634
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Within the scope of natural language processing, the domain of multi-label
text classification is uniquely challenging due to its expansive and uneven
label distribution. The complexity deepens due to the demand for an extensive
set of annotated data for training an advanced deep learning model, especially
in specialized fields where the labeling task can be labor-intensive and often
requires domain-specific knowledge. Addressing these challenges, our study
introduces a novel deep active learning strategy, capitalizing on the Beta
family of proper scoring rules within the Expected Loss Reduction framework. It
computes the expected increase in scores using the Beta Scoring Rules, which
are then transformed into sample vector representations. These vector
representations guide the diverse selection of informative samples, directly
linking this process to the model's expected proper score. Comprehensive
evaluations across both synthetic and real datasets reveal our method's
capability to often outperform established acquisition techniques in
multi-label text classification, presenting encouraging outcomes across various
architectural and dataset scenarios.
- Abstract(参考訳): 自然言語処理の範囲内では、広範かつ不均一なラベル分布のため、マルチラベルテキスト分類の領域は独特に困難である。
この複雑さは、高度なディープラーニングモデルをトレーニングするための注釈付きデータの広範なセット、特にラベル付けタスクが労働集約的でドメイン固有の知識を必要とする特殊な分野への要求により、より深くなる。
これらの課題に対処するために,本研究では,期待損失削減フレームワークにおける適切なスコアリングルールのベータファミリを活かした,新たな深層アクティブ学習戦略を提案する。
これはBeta Scoring Rulesを使って期待されるスコアの増加を計算し、次にサンプルベクトル表現に変換する。
これらのベクトル表現は、情報的なサンプルの多様な選択を導き、この過程をモデルが期待する適切なスコアに直接結びつける。
合成データセットと実データセットの両方にわたる総合的な評価により、多ラベルテキスト分類において確立された取得テクニックをしばしば上回り、様々なアーキテクチャおよびデータセットシナリオにおける奨励的な結果を示す。
関連論文リスト
- Downstream-Pretext Domain Knowledge Traceback for Active Learning [138.02530777915362]
本稿では、下流知識と事前学習指導のデータ相互作用をトレースするダウンストリーム・プレテキスト・ドメイン知識トレース(DOKT)手法を提案する。
DOKTは、トレースバックの多様性指標とドメインベースの不確実性推定器から構成される。
10のデータセットで行った実験は、我々のモデルが他の最先端の手法よりも優れていることを示している。
論文 参考訳(メタデータ) (2024-07-20T01:34:13Z) - A Multi-label Continual Learning Framework to Scale Deep Learning
Approaches for Packaging Equipment Monitoring [57.5099555438223]
連続シナリオにおけるマルチラベル分類を初めて研究した。
タスク数に関して対数的複雑性を持つ効率的なアプローチを提案する。
我々は,包装業界における実世界のマルチラベル予測問題に対するアプローチを検証した。
論文 参考訳(メタデータ) (2022-08-08T15:58:39Z) - Exploiting Diversity of Unlabeled Data for Label-Efficient
Semi-Supervised Active Learning [57.436224561482966]
アクティブラーニング(英: Active Learning)は、ラベリングのための最も重要なサンプルを選択することで、高価なラベリングの問題に対処する研究分野である。
アクティブな学習環境における初期ラベル付けのための最も情報性の高いサンプル群を選択するために,多様性に基づく新しい初期データセット選択アルゴリズムを提案する。
また、一貫性に基づく埋め込みの多様性に基づくサンプリングを用いた、新しいアクティブな学習クエリ戦略を提案する。
論文 参考訳(メタデータ) (2022-07-25T16:11:55Z) - Self-Training: A Survey [5.772546394254112]
半教師付きアルゴリズムは、ラベル付き観測の小さなセットとラベルなし観測の大きなセットから予測関数を学習することを目的としている。
近年,自己学習手法が注目されていることは確かである。
本稿では,バイナリクラスとマルチクラス分類のための自己学習手法と,その変種と関連する2つのアプローチを提案する。
論文 参考訳(メタデータ) (2022-02-24T11:40:44Z) - Learning Debiased and Disentangled Representations for Semantic
Segmentation [52.35766945827972]
セマンティックセグメンテーションのためのモデルに依存しない訓練手法を提案する。
各トレーニングイテレーションで特定のクラス情報をランダムに除去することにより、クラス間の機能依存を効果的に削減する。
提案手法で訓練したモデルは,複数のセマンティックセグメンテーションベンチマークにおいて強い結果を示す。
論文 参考訳(メタデータ) (2021-10-31T16:15:09Z) - Semi-supervised Active Learning for Instance Segmentation via Scoring
Predictions [25.408505612498423]
インスタンスセグメンテーションのための新規かつ原則的な半教師付きアクティブ学習フレームワークを提案する。
具体的には,クラス,バウンディングボックス,マスクの手がかりを明示的に評価するトリプレットスコア予測(tsp)という不確実性サンプリング戦略を提案する。
医用画像データセットを用いた結果から,提案手法が有意義な方法で利用可能なデータから知識を具現化することを示す。
論文 参考訳(メタデータ) (2020-12-09T02:36:52Z) - A Survey on Recent Advances in Sequence Labeling from Deep Learning
Models [19.753741555478793]
シーケンスラベリングは、様々なタスクを含む基本的な研究課題である。
ディープラーニングは、複雑な機能を自動的に学習する強力な能力のため、シーケンスラベリングタスクに使用されている。
論文 参考訳(メタデータ) (2020-11-13T02:29:50Z) - Predicting Themes within Complex Unstructured Texts: A Case Study on
Safeguarding Reports [66.39150945184683]
本稿では,教師付き分類手法を用いた保護レポートにおいて,主テーマの自動識別の問題に焦点をあてる。
この結果から,ラベル付きデータに制限のある複雑なタスクであっても,深層学習モデルが対象知識の振る舞いをシミュレートする可能性が示唆された。
論文 参考訳(メタデータ) (2020-10-27T19:48:23Z) - Text Recognition in Real Scenarios with a Few Labeled Samples [55.07859517380136]
Scene Text Recognition (STR) はコンピュータビジョン分野におけるホットな研究テーマである。
本稿では,数ショットの逆数列領域適応 (FASDA) を用いて構築シーケンスを適応する手法を提案する。
我々のアプローチは、ソースドメインとターゲットドメインの間の文字レベルの混乱を最大化することができる。
論文 参考訳(メタデータ) (2020-06-22T13:03:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。