論文の概要: Dominant Set-based Active Learning for Text Classification and its
Application to Online Social Media
- arxiv url: http://arxiv.org/abs/2202.00540v1
- Date: Fri, 28 Jan 2022 19:19:03 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-05 08:55:14.276658
- Title: Dominant Set-based Active Learning for Text Classification and its
Application to Online Social Media
- Title(参考訳): テキスト分類のための集合型アクティブラーニングとそのオンラインソーシャルメディアへの応用
- Authors: Toktam A. Oghaz, Ivan Garibay
- Abstract要約: 本稿では,最小限のアノテーションコストで大規模未ラベルコーパスのトレーニングを行うための,プールベースのアクティブラーニング手法を提案する。
提案手法には調整すべきパラメータが一切ないため,データセットに依存しない。
本手法は,最先端のアクティブラーニング戦略と比較して高い性能を実現する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in natural language processing (NLP) in online social media
are evidently owed to large-scale datasets. However, labeling, storing, and
processing a large number of textual data points, e.g., tweets, has remained
challenging. On top of that, in applications such as hate speech detection,
labeling a sufficiently large dataset containing offensive content can be
mentally and emotionally taxing for human annotators. Thus, NLP methods that
can make the best use of significantly less labeled data points are of great
interest. In this paper, we present a novel pool-based active learning method
that can be used for the training of large unlabeled corpus with minimum
annotation cost. For that, we propose to find the dominant sets of local
clusters in the feature space. These sets represent maximally cohesive
structures in the data. Then, the samples that do not belong to any of the
dominant sets are selected to be used to train the model, as they represent the
boundaries of the local clusters and are more challenging to classify. Our
proposed method does not have any parameters to be tuned, making it
dataset-independent, and it can approximately achieve the same classification
accuracy as full training data, with significantly fewer data points.
Additionally, our method achieves a higher performance in comparison to the
state-of-the-art active learning strategies. Furthermore, our proposed
algorithm is able to incorporate conventional active learning scores, such as
uncertainty-based scores, into its selection criteria. We show the
effectiveness of our method on different datasets and using different neural
network architectures.
- Abstract(参考訳): オンラインソーシャルメディアにおける自然言語処理(NLP)の最近の進歩は、明らかに大規模なデータセットに負っている。
しかし、大量のテキストデータポイント(例えばツイート)のラベル付け、保存、処理は依然として困難である。
それに加えて、ヘイトスピーチ検出などのアプリケーションでは、攻撃的コンテンツを含む十分に大きなデータセットをラベル付けすることは、人間のアノテータに対して精神的および感情的に課税することができる。
したがって、ラベル付きデータポイントを著しく少ないものにできるNLP手法は非常に興味深い。
本稿では,最小のアノテーションコストで大規模未ラベルコーパスのトレーニングに使用できる,プールベースのアクティブラーニング手法を提案する。
そこで我々は,局所クラスタ群を特徴空間に配置する手法を提案する。
これらの集合はデータの最大結合構造を表す。
すると、支配的な集合のどれにも属さないサンプルは、局所クラスタの境界を表すため、モデルのトレーニングに使用されるように選択され、分類することがより困難になる。
提案手法は,データセットに依存しないパラメータを持たず,完全なトレーニングデータと同等の分類精度をほぼ達成でき,データポイントも大幅に少ない。
さらに,本手法は,最先端のアクティブ学習戦略と比較して高い性能を実現する。
さらに,提案アルゴリズムは,不確実性に基づくスコアなどの従来のアクティブな学習スコアを選択基準に組み込むことができる。
異なるデータセットと異なるニューラルネットワークアーキテクチャを用いて,本手法の有効性を示す。
関連論文リスト
- Classification Tree-based Active Learning: A Wrapper Approach [4.706932040794696]
本稿では,木構造にサンプリングプロセスを整理し,分類のためのラッパー能動的学習法を提案する。
ラベル付き標本の初期集合上に構築された分類木は、空間を低エントロピー領域に分解すると考えられる。
この適応は、既存のアクティブラーニング手法よりも大幅に向上することが証明されている。
論文 参考訳(メタデータ) (2024-04-15T17:27:00Z) - Exploring Data Redundancy in Real-world Image Classification through
Data Selection [20.389636181891515]
ディープラーニングモデルはトレーニングに大量のデータを必要とすることが多く、結果としてコストが増大する。
実世界の画像データの冗長性を調べるために,シナプスインテリジェンスと勾配ノルムに基づく2つのデータ評価指標を提案する。
オンラインおよびオフラインのデータ選択アルゴリズムは、検査されたデータ値に基づいてクラスタリングとグループ化によって提案される。
論文 参考訳(メタデータ) (2023-06-25T03:31:05Z) - infoVerse: A Universal Framework for Dataset Characterization with
Multidimensional Meta-information [68.76707843019886]
infoVerseは、データセットの特徴付けのための普遍的なフレームワークである。
infoVerseは、様々なモデル駆動メタ情報を統合することで、データセットの多次元特性をキャプチャする。
実世界の3つのアプリケーション(データプルーニング、アクティブラーニング、データアノテーション)において、infoVerse空間で選択されたサンプルは、強いベースラインを一貫して上回る。
論文 参考訳(メタデータ) (2023-05-30T18:12:48Z) - M-Tuning: Prompt Tuning with Mitigated Label Bias in Open-Set Scenarios [103.6153593636399]
緩和ラベルバイアス(M-Tuning)を用いた視覚言語プロンプトチューニング手法を提案する。
これはWordNetからのオープンワードを導入し、クローズドセットラベルワードのみからもっと多くのプロンプトテキストを形成する単語の範囲を広げ、シミュレートされたオープンセットシナリオでプロンプトをチューニングする。
提案手法は,様々なスケールのデータセット上で最高の性能を達成し,広範囲にわたるアブレーション研究もその有効性を検証した。
論文 参考訳(メタデータ) (2023-03-09T09:05:47Z) - Exploiting Diversity of Unlabeled Data for Label-Efficient
Semi-Supervised Active Learning [57.436224561482966]
アクティブラーニング(英: Active Learning)は、ラベリングのための最も重要なサンプルを選択することで、高価なラベリングの問題に対処する研究分野である。
アクティブな学習環境における初期ラベル付けのための最も情報性の高いサンプル群を選択するために,多様性に基づく新しい初期データセット選択アルゴリズムを提案する。
また、一貫性に基づく埋め込みの多様性に基づくサンプリングを用いた、新しいアクティブな学習クエリ戦略を提案する。
論文 参考訳(メタデータ) (2022-07-25T16:11:55Z) - CvS: Classification via Segmentation For Small Datasets [52.821178654631254]
本稿では,分類ラベルをセグメントマップの予測から導出する小型データセットのコスト効率の高い分類器であるCvSを提案する。
我々は,CvSが従来の手法よりもはるかに高い分類結果が得られることを示す多種多様な問題に対して,本フレームワークの有効性を評価する。
論文 参考訳(メタデータ) (2021-10-29T18:41:15Z) - SCARF: Self-Supervised Contrastive Learning using Random Feature
Corruption [72.35532598131176]
本稿では,特徴のランダムなサブセットを乱してビューを形成するコントラスト学習手法であるSCARFを提案する。
SCARFは既存の戦略を補完し、オートエンコーダのような代替手段より優れていることを示す。
論文 参考訳(メタデータ) (2021-06-29T08:08:33Z) - Online Coreset Selection for Rehearsal-based Continual Learning [65.85595842458882]
継続的な学習では、後に再生されるトレーニング例(コアセット)のサブセットを格納し、破滅的な忘れを軽減します。
提案するオンラインコアセット選択(OCS, Online Coreset Selection)は, 各イテレーションにおいて最も代表的で情報性の高いコアセットを選択するシンプルで効果的な方法である。
提案手法は,過去のタスクに対して高親和性サンプルを選択しながら,目標データセットへのモデル適応を最大化し,破滅的忘れを直接的に抑制する。
論文 参考訳(メタデータ) (2021-06-02T11:39:25Z) - Contextual Diversity for Active Learning [9.546771465714876]
大規模なデータセットは、多くの実用化のためにディープ畳み込みニューラルネットワーク(CNN)の使用を制限する。
空間的に共起するクラスに関連した混乱を捉える文脈的多様性の概念を導入する。
本研究は,活発な学習に文脈的多様性を用いることの利点を明らかにした。
論文 参考訳(メタデータ) (2020-08-13T07:04:15Z) - Reinforced active learning for image segmentation [34.096237671643145]
深部強化学習(RL)に基づく意味的セグメンテーションのための新しいアクティブラーニング戦略を提案する。
エージェントは、ラベルなしデータのプールからラベル付けされる小さな情報領域(画像全体とは対照的に)のサブセットを選択するポリシーを学ぶ。
本手法では, 意味的セグメンテーション問題の大規模性質に適応して, 能動的学習のための深部Q-network (DQN) の定式化を新たに提案する。
論文 参考訳(メタデータ) (2020-02-16T14:03:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。