論文の概要: The Application of Active Query K-Means in Text Classification
- arxiv url: http://arxiv.org/abs/2107.07682v1
- Date: Fri, 16 Jul 2021 03:06:35 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-19 23:33:20.647865
- Title: The Application of Active Query K-Means in Text Classification
- Title(参考訳): アクティブクエリK-平均のテキスト分類への応用
- Authors: Yukun Jiang
- Abstract要約: アクティブ・ラーニング(Active Learning)は、ラベルのない大量のデータを扱う最先端の機械学習アプローチである。
従来の教師なしk平均クラスタリングは、この研究で最初に半教師付きバージョンに修正される。
また,Penalized Min-Max-Selectionを用いて,アルゴリズムをさらにアクティブな学習シナリオに拡張する試みを行った。
中国のニュースデータセットでテストした結果、トレーニングのコストを下げながら精度が一貫した向上を示した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Active learning is a state-of-art machine learning approach to deal with an
abundance of unlabeled data. In the field of Natural Language Processing,
typically it is costly and time-consuming to have all the data annotated. This
inefficiency inspires out our application of active learning in text
classification. Traditional unsupervised k-means clustering is first modified
into a semi-supervised version in this research. Then, a novel attempt is
applied to further extend the algorithm into active learning scenario with
Penalized Min-Max-selection, so as to make limited queries that yield more
stable initial centroids. This method utilizes both the interactive query
results from users and the underlying distance representation. After tested on
a Chinese news dataset, it shows a consistent increase in accuracy while
lowering the cost in training.
- Abstract(参考訳): アクティブ・ラーニング(Active Learning)は、ラベルのない大量のデータを扱う最先端の機械学習アプローチである。
自然言語処理の分野では、一般的にすべてのデータが注釈付けされるのは費用と時間を要する。
この非効率さは、テキスト分類におけるアクティブラーニングの適用を誘発する。
従来の教師なしk平均クラスタリングは、この研究で最初に半教師付きバージョンに修正される。
次に,Penalized Min-Max-Selectionを用いて,アルゴリズムをさらにアクティブな学習シナリオに拡張し,より安定した初期セントロイドを生成する限定クエリを実現する。
本手法は,ユーザからの対話型クエリ結果と,それに基づく距離表現の両方を利用する。
中国のニュースデータセットでテストした結果、トレーニングのコストを下げながら精度が一貫した向上を示した。
関連論文リスト
- Employing Sentence Space Embedding for Classification of Data Stream from Fake News Domain [0.24999074238880487]
本稿では,文空間法を用いた自然言語データストリーム分類手法を提案する。
画像分類専用の畳み込みディープネットワークを使用することで、テキストデータに基づいてフェイクニュースを認識できる。
実生活のFakedditデータセットに基づいて,提案手法をデータストリーム分類のための最先端アルゴリズムと比較した。
論文 参考訳(メタデータ) (2024-07-15T15:23:21Z) - Co-training for Low Resource Scientific Natural Language Inference [65.37685198688538]
遠隔教師付きラベルに分類器のトレーニング力学に基づいて重みを割り当てる新しいコトレーニング手法を提案する。
予測された信頼度に対する任意のしきい値に基づいてサンプルをフィルタリングするのではなく、重要重みを割り当てることにより、自動ラベル付きデータの使用を最大化する。
提案手法は、遠隔監視ベースラインに対するマクロF1の1.5%の改善と、他の強力なSSLベースラインよりも大幅に改善されている。
論文 参考訳(メタデータ) (2024-06-20T18:35:47Z) - Self-Training for Sample-Efficient Active Learning for Text Classification with Pre-Trained Language Models [3.546617486894182]
我々は,4つのテキスト分類ベンチマークで評価した,新しい効果的な自己学習戦略であるHASTを紹介する。
その結果、4つのデータセットのうち3つに対して、再現された自己学習手法よりも優れており、以前の実験に匹敵する分類結果が得られることがわかった。
論文 参考訳(メタデータ) (2024-06-13T15:06:11Z) - Maximizing Data Efficiency for Cross-Lingual TTS Adaptation by
Self-Supervised Representation Mixing and Embedding Initialization [57.38123229553157]
本稿では,テキスト音声合成システムにおける言語適応のための効果的な伝達学習フレームワークを提案する。
ラベル付きおよびラベルなしの最小データを用いて言語適応を実現することに注力する。
実験結果から,本フレームワークは,ラベル付きデータの4つの発声とラベル付きデータの15分で,未知の言語で理解不能な音声を合成できることが示唆された。
論文 参考訳(メタデータ) (2024-01-23T21:55:34Z) - Cache & Distil: Optimising API Calls to Large Language Models [82.32065572907125]
ジェネレーティブAIツールの大規模デプロイは、ユーザクエリをフルフィルするために、LLM(Large Language Model)に対する高価なAPI呼び出しに依存することが多い。
これらの呼び出しの頻度を縮めるために、より小さな言語モデル(学生)を用いることができる。
この学生は、ユーザー要求の増加に独立して対処する能力が徐々に向上する。
論文 参考訳(メタデータ) (2023-10-20T15:01:55Z) - Ensemble Transfer Learning for Multilingual Coreference Resolution [60.409789753164944]
非英語で作業する場合に頻繁に発生する問題は、注釈付きトレーニングデータの不足である。
我々は,様々なトランスファー学習技術を組み合わせた,シンプルだが効果的なアンサンブルベースのフレームワークを設計する。
また、ウィキペディアアンカーテキストを利用して、コア参照解決モデルをブートストラップする低コストのTL手法を提案する。
論文 参考訳(メタデータ) (2023-01-22T18:22:55Z) - TAAL: Test-time Augmentation for Active Learning in Medical Image
Segmentation [7.856339385917824]
本稿では,セグメンテーションのための半教師付きアクティブラーニング手法であるTAAL(Test-time Augmentation for Active Learning)を提案する。
以上の結果から,TAALは既存のベースライン法よりも,完全教師付きと半教師付きの両方で優れていることが示された。
論文 参考訳(メタデータ) (2023-01-16T22:19:41Z) - Dominant Set-based Active Learning for Text Classification and its
Application to Online Social Media [0.0]
本稿では,最小限のアノテーションコストで大規模未ラベルコーパスのトレーニングを行うための,プールベースのアクティブラーニング手法を提案する。
提案手法には調整すべきパラメータが一切ないため,データセットに依存しない。
本手法は,最先端のアクティブラーニング戦略と比較して高い性能を実現する。
論文 参考訳(メタデータ) (2022-01-28T19:19:03Z) - ZeroBERTo -- Leveraging Zero-Shot Text Classification by Topic Modeling [57.80052276304937]
本稿では、教師なしクラスタリングのステップを利用して、分類タスクの前に圧縮されたデータ表現を得る新しいモデルZeroBERToを提案する。
また,ZeroBERToは,FolhaUOLデータセットのF1スコアにおいて,XLM-Rを約12%上回り,長い入力と実行時間の短縮に優れた性能を示した。
論文 参考訳(メタデータ) (2022-01-04T20:08:17Z) - Bayesian active learning for production, a systematic study and a
reusable library [85.32971950095742]
本稿では,現在のアクティブラーニング技術の主な欠点について分析する。
実世界のデータセットの最も一般的な課題が深層能動学習プロセスに与える影響について,系統的研究を行った。
部分的不確実性サンプリングやより大きいクエリサイズといった,アクティブな学習ループを高速化する2つの手法を導出する。
論文 参考訳(メタデータ) (2020-06-17T14:51:11Z) - R\'{e}nyi Entropy Bounds on the Active Learning Cost-Performance
Tradeoff [27.436483977171328]
半教師付き分類は、しばしば豊富なラベル付けされていないデータの統計的知識と、しばしば制限されたラベル付けされたデータを組み合わせて、全体的な分類精度を最大化する方法について研究する。
本稿では,ラベル付きラベル付きデータを用いた半教師付き分類における最適ポリシーの非漸近解析を開始する。
本稿では,ラベルクエリ予算によるコスト対効果のトレードオフと全体分類精度の観点から,共同最適化型アクティブラーニングと半教師付き分類ポリシーを初めて評価する。
論文 参考訳(メタデータ) (2020-02-05T22:38:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。