論文の概要: The Dataset Nutrition Label (2nd Gen): Leveraging Context to Mitigate
Harms in Artificial Intelligence
- arxiv url: http://arxiv.org/abs/2201.03954v1
- Date: Mon, 10 Jan 2022 18:43:47 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-12 21:49:43.911420
- Title: The Dataset Nutrition Label (2nd Gen): Leveraging Context to Mitigate
Harms in Artificial Intelligence
- Title(参考訳): データセット栄養ラベル(第2世代):人工知能におけるハームの緩和にコンテキストを活用する
- Authors: Kasia S. Chmielinski, Sarah Newman, Matt Taylor, Josh Joseph, Kemi
Thomas, Jessica Yurkofsky, Yue Chelsea Qiu
- Abstract要約: Data Nutrition Projectは2020年後半にデータセット栄養ラベルを更新した。
本稿では,ラベルが緩和を意図したトレーニングデータに対する害と偏見について論じる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As the production of and reliance on datasets to produce automated
decision-making systems (ADS) increases, so does the need for processes for
evaluating and interrogating the underlying data. After launching the Dataset
Nutrition Label in 2018, the Data Nutrition Project has made significant
updates to the design and purpose of the Label, and is launching an updated
Label in late 2020, which is previewed in this paper. The new Label includes
context-specific Use Cases &Alerts presented through an updated design and user
interface targeted towards the data scientist profile. This paper discusses the
harm and bias from underlying training data that the Label is intended to
mitigate, the current state of the work including new datasets being labeled,
new and existing challenges, and further directions of the work, as well as
Figures previewing the new label.
- Abstract(参考訳): 自動意思決定システム(ADS)を生成するためのデータセットの生成と依存が増加するにつれて、基盤となるデータの評価と尋問のプロセスも必要になる。
2018年にデータセット栄養ラベル(dataset nutrition label)をローンチして以来、data nutritionプロジェクトは、このラベルの設計と目的を大幅に更新し、2020年末に更新したラベルを本論文でプレビューする予定である。
新しいラベルには、データサイエンティストプロファイルをターゲットとしたデザインとユーザーインターフェースのアップデートを通じて提示されるコンテキスト固有のユースケースとアラートが含まれている。
本稿では,ラベルが緩和を意図したトレーニングデータからの害とバイアス,ラベル付けされた新たなデータセット,新たな課題,作業のさらなる方向性,新たなラベルのプレビューなど,作業の現在の状況について論じる。
関連論文リスト
- You can't handle the (dirty) truth: Data-centric insights improve pseudo-labeling [60.27812493442062]
擬似ラベル法を改善するためにラベル付きデータ品質を調査することが重要であることを示す。
具体的には、擬似ラベルの拡張のために、DIPSと呼ばれる新しいデータキャラクタリゼーションと選択フレームワークを導入する。
本研究では,多種多様な実世界のデータセットを対象とした擬似ラベル手法に対するDIPSの適用性と影響を実証する。
論文 参考訳(メタデータ) (2024-06-19T17:58:40Z) - Soft Curriculum for Learning Conditional GANs with Noisy-Labeled and
Uncurated Unlabeled Data [70.25049762295193]
本稿では,トレーニング中にノイズラベル付きおよび未処理データを受け入れる条件付き画像生成フレームワークを提案する。
本稿では,ラベルのないデータに新たなラベルを割り当てながら,逆行訓練にインスタンスワイドを割り当てるソフトカリキュラム学習を提案する。
実験により,本手法は,定量および定性性能の両面において,既存の半教師付き・ラベル付きロバストな手法より優れていることが示された。
論文 参考訳(メタデータ) (2023-07-17T08:31:59Z) - Label Information Bottleneck for Label Enhancement [12.783783498844016]
ラベルエンハンスメント(LE)のための新しいラベル情報ボトルネック(LIB)法を提案する。
本手法はLE問題を,1)本質的なラベル関連情報を用いて表現を学習すること,2)学習した表現に基づいてラベル分布を復元すること,の2つの共同プロセスとして定式化する。
本手法では,ラベル割り当てに関するラベル関連情報とラベルギャップに関するラベル関連情報の両方を探索することができる。
論文 参考訳(メタデータ) (2023-03-13T03:46:37Z) - The Problem of Zombie Datasets:A Framework For Deprecating Datasets [55.878249096379804]
我々は、ImageNet、8000 Million Tiny Images、MS-Celeb-1M、Duke MTMC、Brainwash、HRT Transgenderなど、いくつかの著名なデータセットの公開後処理について検討する。
本稿では,リスクの考慮,影響の緩和,アピール機構,タイムライン,非推奨プロトコル,公開チェックなどを含むデータセットの非推奨化フレームワークを提案する。
論文 参考訳(メタデータ) (2021-10-18T20:13:51Z) - Labeled Data Generation with Inexact Supervision [33.110134862501546]
本稿では,ラベル付きデータ生成における不正確な管理を伴う新しい問題について検討する。
そこで本研究では,高品質なラベル付きデータをターゲット分類タスクのために合成する,ADDESと呼ばれる新しい生成フレームワークを提案する。
論文 参考訳(メタデータ) (2021-06-08T22:22:26Z) - Adaptive Self-training for Few-shot Neural Sequence Labeling [55.43109437200101]
ニューラルシークエンスラベリングモデルにおけるラベル不足問題に対処する手法を開発した。
自己学習は、大量のラベルのないデータから学ぶための効果的なメカニズムとして機能する。
メタラーニングは、適応的なサンプル再重み付けにおいて、ノイズのある擬似ラベルからのエラー伝播を軽減するのに役立つ。
論文 参考訳(メタデータ) (2020-10-07T22:29:05Z) - Adversarial Knowledge Transfer from Unlabeled Data [62.97253639100014]
本稿では,インターネット規模の未ラベルデータから知識を伝達し,分類器の性能を向上させるための新しいAdversarial Knowledge Transferフレームワークを提案する。
我々の手法の重要な新しい側面は、ラベル付けされていないソースデータは、ラベル付けされたターゲットデータと異なるクラスであることができ、個別のプリテキストタスクを定義する必要がないことである。
論文 参考訳(メタデータ) (2020-08-13T08:04:27Z) - Unsupervised Multi-label Dataset Generation from Web Data [2.267916014951237]
本稿では,Webデータからマルチラベルデータセットを教師なしで生成するシステムを提案する。
シングルラベルデータセットの生成は、教師なしノイズ低減フェーズ(アンカーを使用したクラスタのクラスタリングと選択)を使用して、正しくラベル付けされた画像の85%を取得する。
次に、クラスアクティベーションマップと各クラスに関連する不確実性を用いて、データセット内の画像に新しいラベルを割り当てる、教師なしラベル拡張処理を実行する。
論文 参考訳(メタデータ) (2020-05-12T08:57:59Z) - GraftNet: An Engineering Implementation of CNN for Fine-grained
Multi-label Task [17.885793498743723]
GraftNetは木のようなカスタマイズ可能なネットワークで、トランクにはジェネリックな特徴抽出のための動的グラフが事前訓練されている。
本研究では,人間の属性認識タスクにおいて,細粒度多ラベル分類の優れた性能を示す。
論文 参考訳(メタデータ) (2020-04-27T11:08:28Z) - Low-Budget Label Query through Domain Alignment Enforcement [48.06803561387064]
我々は低予算ラベルクエリと呼ばれる新しい問題に取り組む。
まず、ソースとターゲットドメインの整合性を改善するために、Unsupervised Domain Adaptation (UDA) 法を改善します。
そこで我々は,予測整合分布の均一サンプリングに基づく簡易かつ効果的な選択法を提案する。
論文 参考訳(メタデータ) (2020-01-01T16:52:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。