論文の概要: "Garbage In, Garbage Out" Revisited: What Do Machine Learning
Application Papers Report About Human-Labeled Training Data?
- arxiv url: http://arxiv.org/abs/2107.02278v1
- Date: Mon, 5 Jul 2021 21:24:02 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-08 05:50:45.192394
- Title: "Garbage In, Garbage Out" Revisited: What Do Machine Learning
Application Papers Report About Human-Labeled Training Data?
- Title(参考訳): garbage in, garbage out"の再検討: ヒューマンラベルトレーニングデータに関する機械学習応用論文はどのようなものか?
- Authors: R. Stuart Geiger, Dominique Cope, Jamie Ip, Marsha Lotosh, Aayush
Shah, Jenny Weng, Rebekah Tang
- Abstract要約: ラベル付きトレーニングデータからモデルを自動的に抽出する監視された機械学習は、そのデータの品質に匹敵する。
本研究は、機械学習の応用出版物において、トレーニングデータのラベル付けに関する「ベストプラクティス」がどの程度続くかを調査した先行研究に基づいている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Supervised machine learning, in which models are automatically derived from
labeled training data, is only as good as the quality of that data. This study
builds on prior work that investigated to what extent 'best practices' around
labeling training data were followed in applied ML publications within a single
domain (social media platforms). In this paper, we expand by studying
publications that apply supervised ML in a far broader spectrum of disciplines,
focusing on human-labeled data. We report to what extent a random sample of ML
application papers across disciplines give specific details about whether best
practices were followed, while acknowledging that a greater range of
application fields necessarily produces greater diversity of labeling and
annotation methods. Because much of machine learning research and education
only focuses on what is done once a "ground truth" or "gold standard" of
training data is available, it is especially relevant to discuss issues around
the equally-important aspect of whether such data is reliable in the first
place. This determination becomes increasingly complex when applied to a
variety of specialized fields, as labeling can range from a task requiring
little-to-no background knowledge to one that must be performed by someone with
career expertise.
- Abstract(参考訳): ラベル付きトレーニングデータからモデルを自動的に抽出する監視された機械学習は、そのデータの品質に匹敵する。
この研究は、単一のドメイン(ソーシャルメディアプラットフォーム)で適用されたMLパブリッシングにおいて、トレーニングデータのラベル付けに関する「ベストプラクティス」がどの程度追跡されたかを調査した先行研究に基づいている。
本稿では,人間ラベルデータに焦点をあて,教師付きMLを幅広い分野に応用する出版物の研究により拡大する。
我々は、分野をまたいだmlアプリケーション論文のランダムなサンプルが、ベストプラクティスが従ったかどうかの具体的な詳細を報告しながら、より多くのアプリケーションフィールドが必ずしもラベリングとアノテーションメソッドのより多様なものを生み出す必要があることを認めている。
機械学習の研究や教育の多くは、トレーニングデータの「根拠の真実」や「金の標準」が一度ある場合にのみ行われることに焦点を当てているため、そのようなデータがそもそも信頼できるかどうかという、等しく重要な側面に関する議論が特に重要である。
この決定は、様々な専門分野に適用されるとますます複雑になる。ラベリングは、バックグラウンド知識をほとんど必要としないタスクから、キャリアの専門知識を持つ人によって実行されなければならないタスクまで幅広い。
関連論文リスト
- Analyzing Dataset Annotation Quality Management in the Wild [63.07224587146207]
最先端モデルのトレーニングと評価に使用される一般的なデータセットでさえ、誤ったアノテーションやバイアス、アーティファクトの量は無視できない。
データセット作成プロジェクトに関するプラクティスやガイドラインは存在するが、品質管理の実施方法に関する大規模な分析はまだ行われていない。
論文 参考訳(メタデータ) (2023-07-16T21:22:40Z) - Revisit Few-shot Intent Classification with PLMs: Direct Fine-tuning vs. Continual Pre-training [20.98770732015944]
少量のラベル付きデータのみを使用して、基礎となる意図に基づいて発話を分類するために、深層学習モデルを訓練する。
この課題に対するPLMの過度な適合問題は、予想されるほど深刻ではないため、継続事前学習は必須ではない可能性がある。
限られた利用可能なデータの利用を最大化するために,コンテキスト拡張法を提案し,逐次自己蒸留を利用して性能を向上させる。
論文 参考訳(メタデータ) (2023-06-08T15:26:52Z) - Learning Instructions with Unlabeled Data for Zero-Shot Cross-Task
Generalization [68.91386402390403]
本研究では,学習中の命令をよりよく活用するために,Unlabeled Data Augmented Instruction Tuning (UDIT)を提案する。
タスクやデータセットのさまざまなシナリオにおいて,UDITの有効性を示すための広範な実験を行う。
論文 参考訳(メタデータ) (2022-10-17T15:25:24Z) - Is margin all you need? An extensive empirical study of active learning
on tabular data [66.18464006872345]
我々は,OpenML-CC18ベンチマークを用いて,69の実世界のデータセット上での各種能動学習アルゴリズムの性能を解析した。
意外なことに、古典的なマージンサンプリング技術は、現在の最先端技術を含む、他のすべてのものよりも優れている。
論文 参考訳(メタデータ) (2022-10-07T21:18:24Z) - The Word is Mightier than the Label: Learning without Pointillistic
Labels using Data Programming [11.536162323162099]
ほとんどの高度な教師付き機械学習(ML)モデルは、大量のポイントバイポイントラベル付きトレーニング例に依存している。
大量のデータをハンドラベリングすることは、面倒で、高価で、エラーを起こしやすい。
論文 参考訳(メタデータ) (2021-08-24T19:11:28Z) - Streaming Self-Training via Domain-Agnostic Unlabeled Images [62.57647373581592]
視覚認識モデル学習の過程を民主化することを目的としたストリーミング自己学習(SST)を提案する。
SSTの鍵となるのは、(1)ドメインに依存しない未ラベル画像により、追加の知識や監督なしにいくつかのラベル付き例でより良いモデルを学ぶことができ、(2)学習は継続的なプロセスであり、学習更新のスケジュールを構築することで行うことができる。
論文 参考訳(メタデータ) (2021-04-07T17:58:39Z) - A Survey on Deep Learning with Noisy Labels: How to train your model
when you cannot trust on the annotations? [21.562089974755125]
ノイズラベルの存在下でのディープラーニングモデルのトレーニングを改善するために,いくつかのアプローチが提案されている。
本稿では,ロバストな損失,サンプル重み付け,サンプル選択,メタラーニング,組み合わせアプローチの3つのグループでアルゴリズムを分類する。
論文 参考訳(メタデータ) (2020-12-05T15:45:20Z) - DAGA: Data Augmentation with a Generation Approach for Low-resource
Tagging Tasks [88.62288327934499]
線形化ラベル付き文に基づいて訓練された言語モデルを用いた新しい拡張手法を提案する。
本手法は, 教師付き設定と半教師付き設定の両方に適用可能である。
論文 参考訳(メタデータ) (2020-11-03T07:49:15Z) - Principles and Practice of Explainable Machine Learning [12.47276164048813]
本稿では、特に機械学習(ML)とパターン認識モデルに関するデータ駆動手法に焦点を当てる。
メソッドの頻度と複雑さが増すにつれて、少なくともビジネスの利害関係者はモデルの欠点に懸念を抱いている。
我々は、業界実践者が説明可能な機械学習の分野をよりよく理解するための調査を実施した。
論文 参考訳(メタデータ) (2020-09-18T14:50:27Z) - Adversarial Knowledge Transfer from Unlabeled Data [62.97253639100014]
本稿では,インターネット規模の未ラベルデータから知識を伝達し,分類器の性能を向上させるための新しいAdversarial Knowledge Transferフレームワークを提案する。
我々の手法の重要な新しい側面は、ラベル付けされていないソースデータは、ラベル付けされたターゲットデータと異なるクラスであることができ、個別のプリテキストタスクを定義する必要がないことである。
論文 参考訳(メタデータ) (2020-08-13T08:04:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。