論文の概要: Casual Conversations v2: Designing a large consent-driven dataset to
measure algorithmic bias and robustness
- arxiv url: http://arxiv.org/abs/2211.05809v1
- Date: Thu, 10 Nov 2022 19:06:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2022-11-14 15:11:12.375895
- Title: Casual Conversations v2: Designing a large consent-driven dataset to
measure algorithmic bias and robustness
- Title(参考訳): Casual Conversations v2: アルゴリズムバイアスとロバスト性を測定するための大規模な同意駆動データセットの設計
- Authors: Caner Hazirbas, Yejin Bang, Tiezheng Yu, Parisa Assar, Bilal Porgali,
V\'itor Albiero, Stefan Hermanek, Jacqueline Pan, Emily McReynolds, Miranda
Bogen, Pascale Fung, Cristian Canton Ferrer
- Abstract要約: Metaは、カテゴリの包括的なリストを持つ大規模な同意駆動データセットの収集に取り組んでいる。
本稿では,このようなカテゴリの設計とCasual Conversations v2のサブカテゴリについて述べる。
- 参考スコア(独自算出の注目度): 34.435124846961415
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Developing robust and fair AI systems require datasets with comprehensive set
of labels that can help ensure the validity and legitimacy of relevant
measurements. Recent efforts, therefore, focus on collecting person-related
datasets that have carefully selected labels, including sensitive
characteristics, and consent forms in place to use those attributes for model
testing and development. Responsible data collection involves several stages,
including but not limited to determining use-case scenarios, selecting
categories (annotations) such that the data are fit for the purpose of
measuring algorithmic bias for subgroups and most importantly ensure that the
selected categories/subcategories are robust to regional diversities and
inclusive of as many subgroups as possible.
Meta, in a continuation of our efforts to measure AI algorithmic bias and
robustness
(https://ai.facebook.com/blog/shedding-light-on-fairness-in-ai-with-a-new-data-set),
is working on collecting a large consent-driven dataset with a comprehensive
list of categories. This paper describes our proposed design of such categories
and subcategories for Casual Conversations v2.
- Abstract(参考訳): 堅牢で公正なAIシステムの開発には、関連する測定の妥当性と正当性を保証するために、包括的なラベルセットを持つデータセットが必要である。
そのため、近年の取り組みは、機密性を含むラベルを慎重に選択した人物関連データセットの収集と、それらの属性をモデルテストや開発に利用するための同意フォームに焦点を当てている。
責任あるデータ収集にはいくつかの段階があり、ユースケースのシナリオを決定すること、サブグループのアルゴリズムバイアスを測定するためにデータが適合するカテゴリ(注釈)を選択すること、そして最も重要なことは、選択されたカテゴリ/サブカテゴリが地域多様性に頑健であり、可能な限り多くのサブグループを包含していることを保証することである。
Metaは、AIアルゴリズムのバイアスと堅牢性(https://ai.facebook.com/blog/shedding-light-on-fairness-in-a-new-data-set)を測定するために、大規模な同意駆動データセットの収集に取り組んでいる。
本稿では,このようなカテゴリの設計とCasual Conversations v2のサブカテゴリについて述べる。
関連論文リスト
- Take the essence and discard the dross: A Rethinking on Data Selection for Fine-Tuning Large Language Models [36.22392593103493]
微調整された大規模言語モデル(LLM)のデータ選択は、既存のデータセットから高品質なサブセットを選択することを目的としている。
既存の調査では、微調整フェーズの詳細な調査を見落としている。
特徴抽出, 基準設計, セレクタ評価を含む新しい3段階の手法を導入し, これらの手法を体系的に分類し, 評価する。
論文 参考訳(メタデータ) (2024-06-20T08:58:58Z) - Unsupervised Anomaly Detection for Auditing Data and Impact of
Categorical Encodings [20.37092575427039]
自動車クレームのデータセットは、自動車修理の不正な保険請求から成り立っている。
異常検出のためのベンチマークデータセットの欠落という一般的な問題に対処する。
データセットは浅層および深層学習法に基づいて評価される。
論文 参考訳(メタデータ) (2022-10-25T14:33:17Z) - Towards Group Robustness in the presence of Partial Group Labels [61.33713547766866]
入力サンプルとターゲットラベルの間に 急激な相関関係がある ニューラルネットワークの予測を誤った方向に導く
本稿では,制約セットから最悪のグループ割り当てを最適化するアルゴリズムを提案する。
グループ間で総合的な集計精度を維持しつつ,少数集団のパフォーマンス向上を示す。
論文 参考訳(メタデータ) (2022-01-10T22:04:48Z) - Selecting the suitable resampling strategy for imbalanced data
classification regarding dataset properties [62.997667081978825]
医学、情報検索、サイバーセキュリティ、ソーシャルメディアなどの多くのアプリケーションドメインでは、分類モデルの導入に使用されるデータセットは、各クラスのインスタンスの不平等な分布を持つことが多い。
この状況は不均衡データ分類と呼ばれ、少数民族の例では予測性能が低い。
オーバーサンプリングとアンダーサンプリングの技術は、各クラスの例の数とバランスをとることでこの問題に対処する、よく知られた戦略である。
論文 参考訳(メタデータ) (2021-12-15T18:56:39Z) - Auditing for Diversity using Representative Examples [17.016881905579044]
本稿では,ラベルのないデータセットの相違を近似する費用対効果のアプローチを提案する。
提案アルゴリズムは,データセットの要素と制御セットの要素のペアワイズ類似性を利用して近似を効果的にブートストラップする。
本稿では,データセットのサイズよりもはるかに小さい制御セットを用いることで,近似誤差を小さく抑えることができることを示す。
論文 参考訳(メタデータ) (2021-07-15T15:21:17Z) - Joint Representation Learning and Novel Category Discovery on Single-
and Multi-modal Data [16.138075558585516]
信頼性の高い表現を共同学習し、ラベルなしのデータにクラスタを割り当てる汎用的なエンドツーエンドフレームワークを提案する。
我々は共有表現空間にウィナーテイクオール(wta)ハッシュアルゴリズムを採用し,ラベルなしデータに対してペアワイズ擬似ラベルを生成する。
大規模マルチモーダルビデオベンチマークKinetics-400およびVGG-Sound、および画像ベンチマークCIFAR10、CIFAR100およびImageNetに関するフレームワークを徹底的に評価します。
論文 参考訳(メタデータ) (2021-04-26T15:56:16Z) - Bayesian Semi-supervised Crowdsourcing [71.20185379303479]
クラウドソーシングは、大規模なデータセットを効率的にラベル付けし、さまざまな学習タスクを実行するための強力なパラダイムとして登場した。
この研究は、半スーパービジョンの2つの体制の下で、半教師付きクラウドソース分類を扱う。
論文 参考訳(メタデータ) (2020-12-20T23:18:51Z) - On Cross-Dataset Generalization in Automatic Detection of Online Abuse [7.163723138100273]
Wikipedia Detoxデータセットの良質な例は、プラットフォーム固有のトピックに偏っていることを示す。
教師なしトピックモデリングとトピックのキーワードの手動検査を用いてこれらの例を同定する。
頑健なデータセット設計のために、収集したデータを検査し、一般化不可能なコンテンツを小さくするために、安価な教師なし手法を適用することを提案する。
論文 参考訳(メタデータ) (2020-10-14T21:47:03Z) - Summary-Source Proposition-level Alignment: Task, Datasets and
Supervised Baseline [94.0601799665342]
資料の参照要約における文のアライメントは,補助的な要約作業として有用であった。
本稿では,2つの重要な新機能を導入しながら,要約ソースアライメントを明示的なタスクとして確立することを提案する。
我々は提案レベルのアライメントのための新しいトレーニングデータセットを作成し、利用可能な要約評価データから自動的に抽出する。
教師なしアプローチよりも優れたアライメント品質を示す教師付き命題アライメントベースラインモデルを提案する。
論文 参考訳(メタデータ) (2020-09-01T17:27:12Z) - Towards Model-Agnostic Post-Hoc Adjustment for Balancing Ranking
Fairness and Algorithm Utility [54.179859639868646]
Bipartiteランキングは、ラベル付きデータから正の個人よりも上位の個人をランク付けするスコアリング機能を学ぶことを目的としている。
学習したスコアリング機能が、異なる保護グループ間で体系的な格差を引き起こすのではないかという懸念が高まっている。
本稿では、二部構成のランキングシナリオにおいて、それらのバランスをとるためのモデル後処理フレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-15T10:08:39Z) - Causal Feature Selection for Algorithmic Fairness [61.767399505764736]
データ管理の統合コンポーネントにおける公平性について検討する。
本稿では,データセットの公平性を保証する特徴のサブコレクションを同定する手法を提案する。
論文 参考訳(メタデータ) (2020-06-10T20:20:10Z) - Global Multiclass Classification and Dataset Construction via
Heterogeneous Local Experts [37.27708297562079]
得られたデータセットの信頼性を確保しながら、ラベルの数を最小化する方法を示す。
MNISTとCIFAR-10データセットを用いた実験では、アグリゲーション方式の良好な精度が示されている。
論文 参考訳(メタデータ) (2020-05-21T18:07:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。