論文の概要: The Casual Conversations v2 Dataset
- arxiv url: http://arxiv.org/abs/2303.04838v1
- Date: Wed, 8 Mar 2023 19:17:05 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-10 17:17:23.846288
- Title: The Casual Conversations v2 Dataset
- Title(参考訳): Casual Conversations v2 データセット
- Authors: Bilal Porgali, V\'itor Albiero, Jordan Ryda, Cristian Canton Ferrer,
Caner Hazirbas
- Abstract要約: データセットには、5,567人のユニークな有料参加者による26,467の動画が含まれており、平均して1人あたりの動画数は5本である。
参加者は、AIモデルの公正性を評価するためにデータを使用することに同意し、自己申告された年齢、性別、言語/方言、障害ステータス、身体的装飾、物理的属性、位置情報を提供した。
- 参考スコア(独自算出の注目度): 6.439761523935614
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: This paper introduces a new large consent-driven dataset aimed at assisting
in the evaluation of algorithmic bias and robustness of computer vision and
audio speech models in regards to 11 attributes that are self-provided or
labeled by trained annotators. The dataset includes 26,467 videos of 5,567
unique paid participants, with an average of almost 5 videos per person,
recorded in Brazil, India, Indonesia, Mexico, Vietnam, Philippines, and the
USA, representing diverse demographic characteristics. The participants agreed
for their data to be used in assessing fairness of AI models and provided
self-reported age, gender, language/dialect, disability status, physical
adornments, physical attributes and geo-location information, while trained
annotators labeled apparent skin tone using the Fitzpatrick Skin Type and Monk
Skin Tone scales, and voice timbre. Annotators also labeled for different
recording setups and per-second activity annotations.
- Abstract(参考訳): 本稿では,コンピュータビジョンと音声モデルのアルゴリズム的バイアスとロバスト性の評価を支援することを目的とした,新たな大規模同意駆動データセットを提案する。
データセットには、5,567人のユニークな有料参加者による26,467本のビデオが含まれており、ブラジル、インド、インドネシア、メキシコ、ベトナム、フィリピン、アメリカ合衆国で平均5本のビデオが記録されている。
参加者は、AIモデルの公正さを評価するために自分のデータを使用することに同意し、自己申告された年齢、性別、言語/方言、障害状態、身体的装飾、物理的属性、位置情報を提供した。
アノテーションには、異なる記録設定と秒単位のアクティビティアノテーションがラベル付けされている。
関連論文リスト
- Towards measuring fairness in speech recognition: Fair-Speech dataset [14.703638352216132]
本論文では,ASRモデルの精度評価を支援するために,新たなデータセットであるFair-Speechを紹介した。
私たちのデータセットには、米国593人による録音された音声で約26.5Kの発声が含まれています。
論文 参考訳(メタデータ) (2024-08-22T20:55:17Z) - Spoken Stereoset: On Evaluating Social Bias Toward Speaker in Speech Large Language Models [50.40276881893513]
本研究では,音声大言語モデル(SLLM)における社会的バイアスの評価を目的としたデータセットであるSpken Stereosetを紹介する。
多様な人口集団の発話に対して異なるモデルがどのように反応するかを調べることで、これらのバイアスを特定することを目指している。
これらの結果から,ほとんどのモデルではバイアスが最小であるが,ステレオタイプや反ステレオタイプ傾向がわずかにみられた。
論文 参考訳(メタデータ) (2024-08-14T16:55:06Z) - Sonos Voice Control Bias Assessment Dataset: A Methodology for Demographic Bias Assessment in Voice Assistants [10.227469020901232]
本稿ではSonos Voice Control Bias Assessmentデータセットを紹介する。
1,038人のスピーカー、166時間、170kのオーディオサンプル、9,040のユニークなラベル付き文字起こし。
その結果、年齢、方言、民族によって統計的に有意な差が見られた。
論文 参考訳(メタデータ) (2024-05-14T12:53:32Z) - DeVAn: Dense Video Annotation for Video-Language Models [68.70692422636313]
実世界のビデオクリップに記述を生成する視覚言語モデルの有効性を評価するために,人間の注釈付きデータセットを提案する。
データセットには、20秒から60秒間の8.5KのYouTubeビデオクリップが含まれており、幅広いトピックや関心事をカバーしている。
論文 参考訳(メタデータ) (2023-10-08T08:02:43Z) - A Deep Dive into the Disparity of Word Error Rates Across Thousands of
NPTEL MOOC Videos [4.809236881780707]
英語のSsim9.8$Kの技術講義とインド・デモグラフィーの様々な部分を表すインストラクターによる書き起こしからなる8740時間の大規模音声データセットのキュレーションについて述べる。
私たちは、キュレートされたデータセットを使用して、インドの多様な話者の人口統計学的特徴にまたがる、YouTube Automatic CaptionsとOpenAI Whisperモデルのパフォーマンスの既存の格差を測定します。
論文 参考訳(メタデータ) (2023-07-20T05:03:00Z) - Slovo: Russian Sign Language Dataset [83.93252084624997]
本稿では,クラウドソーシングプラットフォームを用いたロシア手話(RSL)ビデオデータセットであるSlovoについて述べる。
データセットには20,000のFullHDレコードが含まれており、194人の署名者が受信した1,000の独立したRSLジェスチャーに分割されている。
論文 参考訳(メタデータ) (2023-05-23T21:00:42Z) - APES: Audiovisual Person Search in Untrimmed Video [87.4124877066541]
音声人物探索データセット(APES)について述べる。
APESには36時間のビデオにラベル付けされた1,9K以上のIDが含まれている。
APESの重要な特徴は、顔と同一アイデンティティの音声セグメントをリンクする密集した時間アノテーションを含むことである。
論文 参考訳(メタデータ) (2021-06-03T08:16:42Z) - Towards measuring fairness in AI: the Casual Conversations dataset [9.246092246471955]
私たちのデータセットは3,011人の被験者で構成されており、45,000以上のビデオがあり、1人あたり平均15本のビデオがある。
ビデオはアメリカの複数の州で撮影され、年齢、性別、肌の色など様々な種類の成人が撮影された。
論文 参考訳(メタデータ) (2021-04-06T22:48:22Z) - Vyaktitv: A Multimodal Peer-to-Peer Hindi Conversations based Dataset
for Personality Assessment [50.15466026089435]
本稿では,ピアツーピアのHindi会話データセットであるVyaktitvを提案する。
参加者の高品質な音声とビデオの録音と、会話ごとにヒングリッシュのテキストによる書き起こしで構成されている。
データセットには、収入、文化的指向など、すべての参加者のための豊富な社会デコグラフィー的特徴が含まれています。
論文 参考訳(メタデータ) (2020-08-31T17:44:28Z) - The EPIC-KITCHENS Dataset: Collection, Challenges and Baselines [88.47608066382267]
この大規模なデータセットが、32人の参加者によって、彼らのネイティブキッチン環境でどのようにキャプチャされたか、詳しく説明します。
録音は10カ国から4カ国で行われた。
私たちのデータセットは、11.5万フレームからなる55時間のビデオで構成されており、合計39.6Kアクションセグメントと454.2Kオブジェクトバウンディングボックスを密にラベル付けしています。
論文 参考訳(メタデータ) (2020-04-29T21:57:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。