論文の概要: Utilizing Weak Supervision To Generate Indonesian Conservation Dataset
- arxiv url: http://arxiv.org/abs/2310.11258v1
- Date: Tue, 17 Oct 2023 13:23:18 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-18 15:52:33.440499
- Title: Utilizing Weak Supervision To Generate Indonesian Conservation Dataset
- Title(参考訳): 弱視を利用してインドネシアの保全データセットを生成する
- Authors: Mega Fransiska, Diah Pitaloka, Saripudin, Satrio Putra, Lintang
Sutawika
- Abstract要約: 迅速かつ大規模なデータセット作成のための有望なアプローチとして、弱みの監視が登場している。
本稿では,インドネシアのNLPデータセットを保護ニューステキストから構築する方法について述べる。
- 参考スコア(独自算出の注目度): 3.357014575278386
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Weak supervision has emerged as a promising approach for rapid and
large-scale dataset creation in response to the increasing demand for
accelerated NLP development. By leveraging labeling functions, weak supervision
allows practitioners to generate datasets quickly by creating learned label
models that produce soft-labeled datasets. This paper aims to show how such an
approach can be utilized to build an Indonesian NLP dataset from conservation
news text. We construct two types of datasets: multi-class classification and
sentiment classification. We then provide baseline experiments using various
pretrained language models. These baseline results demonstrate test
performances of 59.79% accuracy and 55.72% F1-score for sentiment
classification, 66.87% F1-score-macro, 71.5% F1-score-micro, and 83.67% ROC-AUC
for multi-class classification. Additionally, we release the datasets and
labeling functions used in this work for further research and exploration.
- Abstract(参考訳): 弱監視は、NLP開発を加速する需要の増加に対応する、迅速かつ大規模データセット作成のための有望なアプローチとして現れている。
ラベル機能を利用することで、弱い監督により、ソフトラベル付きデータセットを生成する学習ラベルモデルを作成することで、実践者が迅速にデータセットを生成することができる。
本稿では,インドネシアのNLPデータセットを保護ニューステキストから構築する方法について述べる。
マルチクラス分類と感情分類の2種類のデータセットを構築した。
次に、様々な事前学習言語モデルを用いてベースライン実験を行う。
これらの基準値は59.79%の精度と55.72%のF1スコア、66.87%のF1スコアマクロ、71.5%のF1スコアマイクロ、83.67%のROC-AUCの試験結果を示している。
さらに,本研究で使用されるデータセットとラベル機能もリリースして,さらなる研究と探索を行う。
関連論文リスト
- A Small Claims Court for the NLP: Judging Legal Text Classification Strategies With Small Datasets [0.0]
本稿では,小ラベル付きデータセットと大量の未ラベルデータの使用を最適化するための最善の戦略について検討する。
我々は,ブラジルの検察官事務所に要求の記録を用いて,対象の1つに記述を割り当てる。
その結果, BERTとデータ拡張, 半教師付き学習戦略を併用したUnsupervised Data Augmentation (UDA) が得られた。
論文 参考訳(メタデータ) (2024-09-09T18:10:05Z) - A Self Supervised StyleGAN for Image Annotation and Classification with
Extremely Limited Labels [35.43549147657739]
画像アノテーションと分類のための自己教師型アプローチであるSS-StyleGANを提案する。
提案手法は,50と10の小さなラベル付きデータセットを用いて,強力な分類結果が得られることを示す。
論文 参考訳(メタデータ) (2023-12-26T09:46:50Z) - Is margin all you need? An extensive empirical study of active learning
on tabular data [66.18464006872345]
我々は,OpenML-CC18ベンチマークを用いて,69の実世界のデータセット上での各種能動学習アルゴリズムの性能を解析した。
意外なことに、古典的なマージンサンプリング技術は、現在の最先端技術を含む、他のすべてのものよりも優れている。
論文 参考訳(メタデータ) (2022-10-07T21:18:24Z) - Active Transfer Prototypical Network: An Efficient Labeling Algorithm
for Time-Series Data [1.7205106391379026]
本稿では,プロトタイプネットワーク(ProtoNet)をALイテレーションに組み込むことで,トレードオフ問題に対処する新しいFew-Shot Learning(FSL)ベースのALフレームワークを提案する。
このフレームワークは、UCI HAR/HAPTデータセットと現実世界のブレーキ操作データセットに基づいて検証された。
学習性能は、両方のデータセットにおける従来のALアルゴリズムを大幅に上回り、それぞれ10%と5%のラベル付け作業で90%の分類精度を達成した。
論文 参考訳(メタデータ) (2022-09-28T16:14:40Z) - AutoGeoLabel: Automated Label Generation for Geospatial Machine Learning [69.47585818994959]
リモートセンシングデータのためのラベルの自動生成のためのビッグデータ処理パイプラインを評価する。
我々は,大規模データプラットフォームであるIBM PAIRSを用いて,密集都市部でそのようなラベルを動的に生成する。
論文 参考訳(メタデータ) (2022-01-31T20:02:22Z) - Dominant Set-based Active Learning for Text Classification and its
Application to Online Social Media [0.0]
本稿では,最小限のアノテーションコストで大規模未ラベルコーパスのトレーニングを行うための,プールベースのアクティブラーニング手法を提案する。
提案手法には調整すべきパラメータが一切ないため,データセットに依存しない。
本手法は,最先端のアクティブラーニング戦略と比較して高い性能を実現する。
論文 参考訳(メタデータ) (2022-01-28T19:19:03Z) - The Word is Mightier than the Label: Learning without Pointillistic
Labels using Data Programming [11.536162323162099]
ほとんどの高度な教師付き機械学習(ML)モデルは、大量のポイントバイポイントラベル付きトレーニング例に依存している。
大量のデータをハンドラベリングすることは、面倒で、高価で、エラーを起こしやすい。
論文 参考訳(メタデータ) (2021-08-24T19:11:28Z) - Combining Feature and Instance Attribution to Detect Artifacts [62.63504976810927]
トレーニングデータアーティファクトの識別を容易にする手法を提案する。
提案手法は,トレーニングデータのアーティファクトの発見に有効であることを示す。
我々は,これらの手法が実際にNLP研究者にとって有用かどうかを評価するために,小規模なユーザスタディを実施している。
論文 参考訳(メタデータ) (2021-07-01T09:26:13Z) - SLADE: A Self-Training Framework For Distance Metric Learning [75.54078592084217]
我々は、追加のラベルのないデータを活用することで、検索性能を向上させるための自己学習フレームワークSLADEを提案する。
まず、ラベル付きデータに基づいて教師モデルをトレーニングし、ラベルなしデータに対して擬似ラベルを生成する。
次に、最終機能埋め込みを生成するために、ラベルと擬似ラベルの両方で学生モデルをトレーニングします。
論文 参考訳(メタデータ) (2020-11-20T08:26:10Z) - Classify and Generate Reciprocally: Simultaneous Positive-Unlabelled
Learning and Conditional Generation with Extra Data [77.31213472792088]
クラスラベルデータの不足は、多くの機械学習問題において、ユビキタスなボトルネックとなっている。
本稿では, 正負ラベル付き(PU)分類と, 余分なラベル付きデータによる条件生成を活用することで, この問題に対処する。
本稿では,PU分類と条件生成を併用した新たなトレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-14T08:27:40Z) - Omni-supervised Facial Expression Recognition via Distilled Data [120.11782405714234]
ネットワークトレーニングにおいて,信頼度の高いサンプルを多量のラベルのないデータで活用するためのオムニ教師付き学習を提案する。
我々は,新しいデータセットが学習したFERモデルの能力を大幅に向上させることができることを実験的に検証した。
そこで本研究では,生成したデータセットを複数のクラスワイド画像に圧縮するために,データセット蒸留戦略を適用することを提案する。
論文 参考訳(メタデータ) (2020-05-18T09:36:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。