論文の概要: A Pitfall of Learning from User-generated Data: In-depth Analysis of
Subjective Class Problem
- arxiv url: http://arxiv.org/abs/2003.10621v1
- Date: Tue, 24 Mar 2020 02:25:52 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-20 08:24:52.126908
- Title: A Pitfall of Learning from User-generated Data: In-depth Analysis of
Subjective Class Problem
- Title(参考訳): ユーザ生成データからの学習の落とし穴--主観的クラス問題の深い分析
- Authors: Kei Nemoto and Shweta Jain
- Abstract要約: ユーザ定義ラベルに主観クラスと客観クラスという2種類のクラスを提案する。
我々はこれを主観的クラス問題と定義し、オラクルクエリを使わずにデータセット内の主観的ラベルを検出するためのフレームワークを提供する。
- 参考スコア(独自算出の注目度): 1.218340575383456
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Research in the supervised learning algorithms field implicitly assumes that
training data is labeled by domain experts or at least semi-professional
labelers accessible through crowdsourcing services like Amazon Mechanical Turk.
With the advent of the Internet, data has become abundant and a large number of
machine learning based systems started being trained with user-generated data,
using categorical data as true labels. However, little work has been done in
the area of supervised learning with user-defined labels where users are not
necessarily experts and might be motivated to provide incorrect labels in order
to improve their own utility from the system. In this article, we propose two
types of classes in user-defined labels: subjective class and objective class -
showing that the objective classes are as reliable as if they were provided by
domain experts, whereas the subjective classes are subject to bias and
manipulation by the user. We define this as a subjective class issue and
provide a framework for detecting subjective labels in a dataset without
querying oracle. Using this framework, data mining practitioners can detect a
subjective class at an early stage of their projects, and avoid wasting their
precious time and resources by dealing with subjective class problem with
traditional machine learning techniques.
- Abstract(参考訳): 教師付き学習アルゴリズムの研究は、トレーニングデータがAmazon Mechanical Turkのようなクラウドソーシングサービスを通じてアクセス可能な、ドメインの専門家または少なくともセミプロフェッショナルのラベルによってラベル付けされていることを暗黙的に仮定している。
インターネットが出現すると、データが豊富になり、多くの機械学習ベースのシステムが、分類データを真のラベルとして使用して、ユーザ生成データでトレーニングされ始めた。
しかし,ユーザ定義ラベルを用いた教師あり学習の分野では,ユーザが必ずしも専門家ではなく,システムから自身のユーティリティを改善するために,誤ったラベルを提供することを動機付けている部分はほとんどない。
本稿では,ユーザ定義ラベルにおける2種類のクラスを提案する。主観的クラスと客観的なクラス表示では,主観的クラスはドメインの専門家が提供するものと同じくらい信頼性が高いが,主観的クラスはユーザによるバイアスや操作の対象である。
我々はこれを主観的クラス問題と定義し、オラクルに問い合わせることなくデータセット内の主観的ラベルを検出するためのフレームワークを提供する。
このフレームワークを利用することで、データマイニング実践者はプロジェクトの初期段階で主観的なクラスを検出し、従来の機械学習技術で主観的なクラス問題に対処することで、貴重な時間とリソースの無駄を避けることができる。
関連論文リスト
- Towards Open-Domain Topic Classification [69.21234350688098]
ユーザが定義した分類をリアルタイムで受け入れるオープンドメイントピック分類システムを導入する。
ユーザは、任意の候補ラベルに対してテキストスニペットを分類し、Webインターフェースから即座にレスポンスを受け取ることができます。
論文 参考訳(メタデータ) (2023-06-29T20:25:28Z) - AutoWS: Automated Weak Supervision Framework for Text Classification [1.748907524043535]
本稿では、ドメインエキスパートへの依存を減らしつつ、弱い監督プロセスの効率を高めるための新しい枠組みを提案する。
本手法では,ラベルクラス毎にラベル付きサンプルの小さなセットが必要であり,多数のラベル付きデータにノイズ付きラベルを割り当てるラベル付き関数のセットを自動生成する。
論文 参考訳(メタデータ) (2023-02-07T07:12:05Z) - On Guiding Visual Attention with Language Specification [76.08326100891571]
注意をそらすのではなく,タスク関連機能に分類証拠を限定するためのアドバイスとして,ハイレベルな言語仕様を用いる。
この方法で空間的注意を監督することは、偏りのあるノイズのあるデータを用いた分類タスクの性能を向上させる。
論文 参考訳(メタデータ) (2022-02-17T22:40:19Z) - Debiased Pseudo Labeling in Self-Training [77.83549261035277]
ディープニューラルネットワークは、大規模ラベル付きデータセットの助けを借りて、幅広いタスクで顕著なパフォーマンスを達成する。
ラベル付きデータの要求を軽減するため、ラベル付けされていないデータに擬似ラベルを付けることにより、学術と産業の両方で自己学習が広く使われている。
疑似ラベルの生成と利用を2つの独立した頭文字で分離するデバイアスドを提案する。
論文 参考訳(メタデータ) (2022-02-15T02:14:33Z) - Classification of Consumer Belief Statements From Social Media [0.0]
複雑な専門家アノテーションがいかにして分類に有効に活用できるかを考察する。
自動クラス抽象化アプローチは、テキスト分類タスクのドメインエキスパートベースラインに対して極めてよく機能することがわかった。
論文 参考訳(メタデータ) (2021-06-29T15:25:33Z) - Streaming Self-Training via Domain-Agnostic Unlabeled Images [62.57647373581592]
視覚認識モデル学習の過程を民主化することを目的としたストリーミング自己学習(SST)を提案する。
SSTの鍵となるのは、(1)ドメインに依存しない未ラベル画像により、追加の知識や監督なしにいくつかのラベル付き例でより良いモデルを学ぶことができ、(2)学習は継続的なプロセスであり、学習更新のスケジュールを構築することで行うことができる。
論文 参考訳(メタデータ) (2021-04-07T17:58:39Z) - End-to-End Learning from Noisy Crowd to Supervised Machine Learning
Models [6.278267504352446]
我々は、ハイブリッドインテリジェンス、すなわち深層モデルと人間の専門家を組み合わせることで、ノイズの多いクラウドソースデータからエンドツーエンドの学習フレームワークを設計することを提唱する。
ラベルアグリゲーションは,アノテータの混乱行列を推定して学習プロセスを改善することにより,どのような効果があるかを示す。
我々は、SVMとディープニューラルネットワークを用いて、複数の画像データセット上での戦略の有効性を実証する。
論文 参考訳(メタデータ) (2020-11-13T09:48:30Z) - Adversarial Knowledge Transfer from Unlabeled Data [62.97253639100014]
本稿では,インターネット規模の未ラベルデータから知識を伝達し,分類器の性能を向上させるための新しいAdversarial Knowledge Transferフレームワークを提案する。
我々の手法の重要な新しい側面は、ラベル付けされていないソースデータは、ラベル付けされたターゲットデータと異なるクラスであることができ、個別のプリテキストタスクを定義する必要がないことである。
論文 参考訳(メタデータ) (2020-08-13T08:04:27Z) - Deep Active Learning with Crowdsourcing Data for Privacy Policy
Classification [6.5443502434659955]
アクティブラーニングとクラウドソーシングの技術は、Calpricという自動分類ツールの開発に使用されている。
Calpricは、ラベル付けコストを最小限に抑えつつ、高い精度で熟練した人間のアノテータによるアノテーションに匹敵するアノテーションを実行することができる。
我々のモデルは、オリジナルのラベル付け作業の62%だけを使用して、同じF1スコアを達成することができる。
論文 参考訳(メタデータ) (2020-08-07T02:13:31Z) - Automatically Discovering and Learning New Visual Categories with
Ranking Statistics [145.89790963544314]
我々は,他のクラスをラベル付けした画像コレクションにおいて,新しいクラスを発見する問題に対処する。
汎用クラスタリングモデルを学び、後者を用いて、非競合データ中の新しいクラスを識別する。
我々は,標準分類ベンチマークに対するアプローチと,新しいカテゴリー発見法の性能を,有意なマージンで評価した。
論文 参考訳(メタデータ) (2020-02-13T18:53:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。