論文の概要: Salutary Labeling with Zero Human Annotation
- arxiv url: http://arxiv.org/abs/2405.17627v2
- Date: Mon, 30 Sep 2024 00:12:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-01 21:59:19.801668
- Title: Salutary Labeling with Zero Human Annotation
- Title(参考訳): ゼロヒューマンアノテーションを用いたサルタラベリング
- Authors: Wenxiao Xiao, Hongfu Liu,
- Abstract要約: 本稿では,ヒトのアノテーションを使わずに最も有益なラベルを最も有益なサンプルに自動的に割り当てるサルタラベリングを提案する。
9つのベンチマークデータセットで行った実験は、従来のアクティブな学習戦略よりも有意なラベル付け手法の優れた性能を示した。
- 参考スコア(独自算出の注目度): 23.935005901515318
- License:
- Abstract: Active learning strategically selects informative unlabeled data points and queries their ground truth labels for model training. The prevailing assumption underlying this machine learning paradigm is that acquiring these ground truth labels will optimally enhance model performance. However, this assumption may not always hold true or maximize learning capacity, particularly considering the costly labor annotations required for ground truth labels. In contrast to traditional ground truth labeling, this paper proposes salutary labeling, which automatically assigns the most beneficial labels to the most informative samples without human annotation. Specifically, we utilize the influence function, a tool for estimating sample influence, to select newly added samples and assign their salutary labels by choosing the category that maximizes their positive influence. This process eliminates the need for human annotation. Extensive experiments conducted on nine benchmark datasets demonstrate the superior performance of our salutary labeling approach over traditional active learning strategies. Additionally, we provide several in-depth explorations and practical applications of large language model (LLM) fine-tuning.
- Abstract(参考訳): アクティブラーニングは、戦略的に情報のないデータポイントを選択し、モデルトレーニングのために彼らの基盤となる真理ラベルを問い合わせる。
この機械学習パラダイムの根底にある最も一般的な前提は、これらの基礎となる真理ラベルを取得することで、モデルの性能が最適に向上するということである。
しかし、この仮定は、特に真理ラベルに必要なコストのかかる労働アノテーションを考えると、必ずしも真あるいは最大学習能力を保持するとは限らない。
従来の真実ラベルとは対照的に,人間のアノテーションを使わずに最も有益なラベルを最も有益なサンプルに自動的に割り当てる敬意表示を提案する。
具体的には、サンプル影響を推定するツールであるインフルエンス関数を用いて、新たに追加されたサンプルを選択し、その正の影響を最大化するカテゴリを選択して、それらのサルタリーラベルを割り当てる。
このプロセスは人間のアノテーションを不要にする。
9つのベンチマークデータセットで実施した大規模な実験は、従来のアクティブな学習戦略よりも有意なラベル付け手法の優れた性能を示す。
さらに,大規模言語モデル(LLM)の詳細な検討と実践的応用について述べる。
関連論文リスト
- Vision-language Assisted Attribute Learning [53.60196963381315]
大規模な属性ラベリングは通常不完全で部分的である。
既存の属性学習手法は、欠落したラベルを否定的な扱いをすることが多い。
利用可能な視覚言語知識を活用して、モデル学習の強化に欠落しているラベルを明確に明らかにする。
論文 参考訳(メタデータ) (2023-12-12T06:45:19Z) - Virtual Category Learning: A Semi-Supervised Learning Method for Dense
Prediction with Extremely Limited Labels [63.16824565919966]
本稿では,ラベルの修正を伴わずに,混乱したサンプルを積極的に使用することを提案する。
仮想カテゴリー(VC)は、モデルの最適化に安全に貢献できるように、各混乱したサンプルに割り当てられる。
私たちの興味深い発見は、密集した視覚タスクにおけるVC学習の利用に注目しています。
論文 参考訳(メタデータ) (2023-12-02T16:23:52Z) - Eliciting and Learning with Soft Labels from Every Annotator [31.10635260890126]
個々のアノテータからソフトラベルを効率よく抽出することに注力する。
ラベルによる学習は,従来の手法と同等のモデル性能を達成できることを実証する。
論文 参考訳(メタデータ) (2022-07-02T12:03:00Z) - Debiased Pseudo Labeling in Self-Training [77.83549261035277]
ディープニューラルネットワークは、大規模ラベル付きデータセットの助けを借りて、幅広いタスクで顕著なパフォーマンスを達成する。
ラベル付きデータの要求を軽減するため、ラベル付けされていないデータに擬似ラベルを付けることにより、学術と産業の両方で自己学習が広く使われている。
疑似ラベルの生成と利用を2つの独立した頭文字で分離するデバイアスドを提案する。
論文 参考訳(メタデータ) (2022-02-15T02:14:33Z) - An Empirical Investigation of Learning from Biased Toxicity Labels [15.822714574671412]
我々は,人間の注釈付きラベルの小さなデータセットと,合成されたラベルの大きいがノイズの多いデータセットを,異なるトレーニング戦略が活用できるかを検討する。
これらの手法の精度と公平性、および両者のトレードオフを評価する。
論文 参考訳(メタデータ) (2021-10-04T17:19:57Z) - Towards Good Practices for Efficiently Annotating Large-Scale Image
Classification Datasets [90.61266099147053]
多数の画像の分類ラベルを収集するための効率的なアノテーション戦略を検討する。
人間のラベリング作業を最小化するための修正とベストプラクティスを提案します。
ImageNet100の125kイメージサブセットのシミュレーション実験では、平均で0.35のアノテーションで80%のトップ-1の精度でアノテートできることが示されている。
論文 参考訳(メタデータ) (2021-04-26T16:29:32Z) - Just Label What You Need: Fine-Grained Active Selection for Perception
and Prediction through Partially Labeled Scenes [78.23907801786827]
提案手法は,コストに配慮した手法と,部分的にラベル付けされたシーンを通じて詳細なサンプル選択を可能にする一般化を導入している。
実世界の大規模自動運転データセットに関する我々の実験は、微粒な選択が知覚、予測、下流計画タスクのパフォーマンスを向上させることを示唆している。
論文 参考訳(メタデータ) (2021-04-08T17:57:41Z) - Debiased Contrastive Learning [64.98602526764599]
我々は,同ラベルデータポイントのサンプリングを補正する,偏りのあるコントラスト目的の開発を行う。
実証的に、提案する目的は、視覚、言語、強化学習ベンチマークにおける表現学習の最先端を一貫して上回る。
論文 参考訳(メタデータ) (2020-07-01T04:25:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。