Fugu-MT 論文翻訳(概要): Utilizing Weak Supervision To Generate Indonesian Conservation Dataset

論文の概要: Utilizing Weak Supervision To Generate Indonesian Conservation Dataset

arxiv url: http://arxiv.org/abs/2310.11258v1
Date: Tue, 17 Oct 2023 13:23:18 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-18 15:52:33.440499
Title: Utilizing Weak Supervision To Generate Indonesian Conservation Dataset
Title（参考訳）: 弱視を利用してインドネシアの保全データセットを生成する
Authors: Mega Fransiska, Diah Pitaloka, Saripudin, Satrio Putra, Lintang Sutawika
Abstract要約: 迅速かつ大規模なデータセット作成のための有望なアプローチとして、弱みの監視が登場している。本稿では,インドネシアのNLPデータセットを保護ニューステキストから構築する方法について述べる。
参考スコア（独自算出の注目度）: 3.357014575278386
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Weak supervision has emerged as a promising approach for rapid and large-scale dataset creation in response to the increasing demand for accelerated NLP development. By leveraging labeling functions, weak supervision allows practitioners to generate datasets quickly by creating learned label models that produce soft-labeled datasets. This paper aims to show how such an approach can be utilized to build an Indonesian NLP dataset from conservation news text. We construct two types of datasets: multi-class classification and sentiment classification. We then provide baseline experiments using various pretrained language models. These baseline results demonstrate test performances of 59.79% accuracy and 55.72% F1-score for sentiment classification, 66.87% F1-score-macro, 71.5% F1-score-micro, and 83.67% ROC-AUC for multi-class classification. Additionally, we release the datasets and labeling functions used in this work for further research and exploration.
Abstract（参考訳）: 弱監視は、NLP開発を加速する需要の増加に対応する、迅速かつ大規模データセット作成のための有望なアプローチとして現れている。ラベル機能を利用することで、弱い監督により、ソフトラベル付きデータセットを生成する学習ラベルモデルを作成することで、実践者が迅速にデータセットを生成することができる。本稿では,インドネシアのNLPデータセットを保護ニューステキストから構築する方法について述べる。マルチクラス分類と感情分類の2種類のデータセットを構築した。次に、様々な事前学習言語モデルを用いてベースライン実験を行う。これらの基準値は59.79%の精度と55.72%のF1スコア、66.87%のF1スコアマクロ、71.5%のF1スコアマイクロ、83.67%のROC-AUCの試験結果を示している。さらに,本研究で使用されるデータセットとラベル機能もリリースして,さらなる研究と探索を行う。

関連論文リスト

Binary Token-Level Classification with DeBERTa for All-Type MWE Identification: A Lightweight Approach with Linguistic Enhancement [1.8429656136522097]
本稿では,バイナリトークンレベルの分類,言語的特徴の統合,データ拡張を組み合わせた,MWE識別のための包括的アプローチを提案する。我々のDeBERTa-v3大規模モデルは、CoAMデータセット上で69.8%のF1を達成し、このデータセットで最高の結果(Qwen-72B, 57.8% F1)を12ポイント上回り、パラメータは165倍少ない。
論文参考訳（メタデータ） (2026-01-27T08:42:54Z)
FiNERweb: Datasets and Artifacts for Scalable Multilingual Named Entity Recognition [12.125413756152833]
教師/学生のパラダイムを91言語と25のスクリプトに拡張するデータセット生成パイプラインであるFiNERwebを紹介した。 FineWeb-Edu 上に構築した手法では,回帰モデルを用いて NER 関連パスを識別し,多言語 LLM でアノテートする。実験の結果, 回帰モデルは84F1以上を達成でき, また, FiNERwebでトレーニングしたモデルでは, ゼロショット転送設定で同等あるいは改善された性能が得られることがわかった。
論文参考訳（メタデータ） (2025-12-15T20:36:39Z)
Zero-shot data citation function classification using transformer-based large language models (LLMs) [0.0]
オープンソースの大規模言語モデルを用いて、特定のゲノムデータセットを組み込んだ出版物の構造化データ利用事例ラベルを生成する。以上の結果から, 既定カテゴリを持たないゼロショットデータ引用分類タスクにおいて, ストックモデルがF1スコア.674を達成できることが示唆された。
論文参考訳（メタデータ） (2025-11-04T19:33:30Z)
Advancing Scientific Text Classification: Fine-Tuned Models with Dataset Expansion and Hard-Voting [0.0]
BERT、SciBERT、BioBERT、BlueBERTは、科学テキスト分類のためのWeb of Science (WoS-46985)データセットで微調整されている。我々は、WoSデータベースで7つのターゲットクエリを実行し、WoS-46985のメインクラスに準拠したカテゴリ毎に1000の項目を検索することでデータセットを増強する。動的学習率と早期停止による拡張データセットの微調整は、分類精度を大幅に向上させる。
論文参考訳（メタデータ） (2025-04-26T21:06:49Z)
A Small Claims Court for the NLP: Judging Legal Text Classification Strategies With Small Datasets [0.0]
本稿では,小ラベル付きデータセットと大量の未ラベルデータの使用を最適化するための最善の戦略について検討する。我々は,ブラジルの検察官事務所に要求の記録を用いて,対象の1つに記述を割り当てる。その結果, BERTとデータ拡張, 半教師付き学習戦略を併用したUnsupervised Data Augmentation (UDA) が得られた。
論文参考訳（メタデータ） (2024-09-09T18:10:05Z)
Co-training for Low Resource Scientific Natural Language Inference [65.37685198688538]
遠隔教師付きラベルに分類器のトレーニング力学に基づいて重みを割り当てる新しいコトレーニング手法を提案する。予測された信頼度に対する任意のしきい値に基づいてサンプルをフィルタリングするのではなく、重要重みを割り当てることにより、自動ラベル付きデータの使用を最大化する。提案手法は、遠隔監視ベースラインに対するマクロF1の1.5%の改善と、他の強力なSSLベースラインよりも大幅に改善されている。
論文参考訳（メタデータ） (2024-06-20T18:35:47Z)
A Self Supervised StyleGAN for Image Annotation and Classification with Extremely Limited Labels [35.43549147657739]
画像アノテーションと分類のための自己教師型アプローチであるSS-StyleGANを提案する。提案手法は,50と10の小さなラベル付きデータセットを用いて,強力な分類結果が得られることを示す。
論文参考訳（メタデータ） (2023-12-26T09:46:50Z)
Is margin all you need? An extensive empirical study of active learning on tabular data [66.18464006872345]
我々は,OpenML-CC18ベンチマークを用いて,69の実世界のデータセット上での各種能動学習アルゴリズムの性能を解析した。意外なことに、古典的なマージンサンプリング技術は、現在の最先端技術を含む、他のすべてのものよりも優れている。
論文参考訳（メタデータ） (2022-10-07T21:18:24Z)
Active Transfer Prototypical Network: An Efficient Labeling Algorithm for Time-Series Data [1.7205106391379026]
本稿では,プロトタイプネットワーク(ProtoNet)をALイテレーションに組み込むことで,トレードオフ問題に対処する新しいFew-Shot Learning(FSL)ベースのALフレームワークを提案する。このフレームワークは、UCI HAR/HAPTデータセットと現実世界のブレーキ操作データセットに基づいて検証された。学習性能は、両方のデータセットにおける従来のALアルゴリズムを大幅に上回り、それぞれ10%と5%のラベル付け作業で90%の分類精度を達成した。
論文参考訳（メタデータ） (2022-09-28T16:14:40Z)
AutoGeoLabel: Automated Label Generation for Geospatial Machine Learning [69.47585818994959]
リモートセンシングデータのためのラベルの自動生成のためのビッグデータ処理パイプラインを評価する。我々は,大規模データプラットフォームであるIBM PAIRSを用いて,密集都市部でそのようなラベルを動的に生成する。
論文参考訳（メタデータ） (2022-01-31T20:02:22Z)
Dominant Set-based Active Learning for Text Classification and its Application to Online Social Media [0.0]
本稿では,最小限のアノテーションコストで大規模未ラベルコーパスのトレーニングを行うための,プールベースのアクティブラーニング手法を提案する。提案手法には調整すべきパラメータが一切ないため,データセットに依存しない。本手法は,最先端のアクティブラーニング戦略と比較して高い性能を実現する。
論文参考訳（メタデータ） (2022-01-28T19:19:03Z)
The Word is Mightier than the Label: Learning without Pointillistic Labels using Data Programming [11.536162323162099]
ほとんどの高度な教師付き機械学習(ML)モデルは、大量のポイントバイポイントラベル付きトレーニング例に依存している。大量のデータをハンドラベリングすることは、面倒で、高価で、エラーを起こしやすい。
論文参考訳（メタデータ） (2021-08-24T19:11:28Z)
Combining Feature and Instance Attribution to Detect Artifacts [62.63504976810927]
トレーニングデータアーティファクトの識別を容易にする手法を提案する。提案手法は,トレーニングデータのアーティファクトの発見に有効であることを示す。我々は,これらの手法が実際にNLP研究者にとって有用かどうかを評価するために,小規模なユーザスタディを実施している。
論文参考訳（メタデータ） (2021-07-01T09:26:13Z)
SLADE: A Self-Training Framework For Distance Metric Learning [75.54078592084217]
我々は、追加のラベルのないデータを活用することで、検索性能を向上させるための自己学習フレームワークSLADEを提案する。まず、ラベル付きデータに基づいて教師モデルをトレーニングし、ラベルなしデータに対して擬似ラベルを生成する。次に、最終機能埋め込みを生成するために、ラベルと擬似ラベルの両方で学生モデルをトレーニングします。
論文参考訳（メタデータ） (2020-11-20T08:26:10Z)
Classify and Generate Reciprocally: Simultaneous Positive-Unlabelled Learning and Conditional Generation with Extra Data [77.31213472792088]
クラスラベルデータの不足は、多くの機械学習問題において、ユビキタスなボトルネックとなっている。本稿では, 正負ラベル付き(PU)分類と, 余分なラベル付きデータによる条件生成を活用することで, この問題に対処する。本稿では,PU分類と条件生成を併用した新たなトレーニングフレームワークを提案する。
論文参考訳（メタデータ） (2020-06-14T08:27:40Z)
Omni-supervised Facial Expression Recognition via Distilled Data [120.11782405714234]
ネットワークトレーニングにおいて,信頼度の高いサンプルを多量のラベルのないデータで活用するためのオムニ教師付き学習を提案する。我々は,新しいデータセットが学習したFERモデルの能力を大幅に向上させることができることを実験的に検証した。そこで本研究では,生成したデータセットを複数のクラスワイド画像に圧縮するために,データセット蒸留戦略を適用することを提案する。
論文参考訳（メタデータ） (2020-05-18T09:36:51Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。