論文の概要: TEDI: Trustworthy and Ethical Dataset Indicators to Analyze and Compare Dataset Documentation
- arxiv url: http://arxiv.org/abs/2505.17841v1
- Date: Fri, 23 May 2025 12:55:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-26 18:08:34.081613
- Title: TEDI: Trustworthy and Ethical Dataset Indicators to Analyze and Compare Dataset Documentation
- Title(参考訳): TEDI:データセットドキュメンテーションの分析と比較のための信頼できる倫理的データセットインジケータ
- Authors: Wiebke Hutiri, Mircea Cimpoi, Morgan Scheuerman, Victoria Matthews, Alice Xiang,
- Abstract要約: マルチモーダルデータセットの信頼性と倫理的属性を特徴付ける143の指標を含むTEDIを紹介する。
TEDIを用いて、人間の声を含む100以上のマルチモーダルデータセットを手動でアノテートし分析した。
同意、プライバシー、有害なコンテンツ指標に関連する属性やプラクティスを文書化したデータセットは、ごくわずかしかありません。
- 参考スコア(独自算出の注目度): 3.1695945518308366
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Dataset transparency is a key enabler of responsible AI, but insights into multimodal dataset attributes that impact trustworthy and ethical aspects of AI applications remain scarce and are difficult to compare across datasets. To address this challenge, we introduce Trustworthy and Ethical Dataset Indicators (TEDI) that facilitate the systematic, empirical analysis of dataset documentation. TEDI encompasses 143 fine-grained indicators that characterize trustworthy and ethical attributes of multimodal datasets and their collection processes. The indicators are framed to extract verifiable information from dataset documentation. Using TEDI, we manually annotated and analyzed over 100 multimodal datasets that include human voices. We further annotated data sourcing, size, and modality details to gain insights into the factors that shape trustworthy and ethical dimensions across datasets. We find that only a select few datasets have documented attributes and practices pertaining to consent, privacy, and harmful content indicators. The extent to which these and other ethical indicators are addressed varies based on the data collection method, with documentation of datasets collected via crowdsourced and direct collection approaches being more likely to mention them. Scraping dominates scale at the cost of ethical indicators, but is not the only viable collection method. Our approach and empirical insights contribute to increasing dataset transparency along trustworthy and ethical dimensions and pave the way for automating the tedious task of extracting information from dataset documentation in future.
- Abstract(参考訳): データセットの透明性は、責任あるAIの重要な実現要因であるが、AIアプリケーションの信頼性と倫理的側面に影響を与えるマルチモーダルデータセット属性に対する洞察は依然として少なく、データセット間で比較することは困難である。
この課題に対処するために、データセットドキュメンテーションの体系的で経験的な分析を容易にするTrustworthy and Ethical Dataset Indicators (TEDI)を導入する。
TEDIは、マルチモーダルデータセットとその収集プロセスの信頼性と倫理的属性を特徴付ける143のきめ細かい指標を含んでいる。
インジケータはフレーム化され、データセットのドキュメントから検証可能な情報を抽出する。
TEDIを用いて、人間の声を含む100以上のマルチモーダルデータセットを手動でアノテートし分析した。
さらに、データソーシング、サイズ、モダリティの詳細を注釈付けして、データセット全体の信頼性と倫理的次元を形作る要因に関する洞察を得ました。
同意、プライバシー、有害なコンテンツ指標に関連する属性やプラクティスを文書化したデータセットは、ごくわずかしかありません。
これらやその他の倫理的指標に対処する範囲は、データ収集方法によって異なり、クラウドソースおよび直接収集アプローチを通じて収集されたデータセットのドキュメントは、それらに言及する可能性が高くなる。
スクラップは、倫理指標のコストで規模を独占するが、唯一実行可能な収集方法ではない。
我々のアプローチと経験的洞察は、信頼に値する、倫理的な次元に沿ったデータセットの透明性の向上に寄与し、将来、データセットドキュメントから情報を抽出する退屈なタスクを自動化するための道を開いた。
関連論文リスト
- DSAI: Unbiased and Interpretable Latent Feature Extraction for Data-Centric AI [24.349800949355465]
大規模言語モデル(LLM)は、大きなデータセットの潜在特性を客観的に識別するのにしばしば苦労する。
本研究では,非バイアスで解釈可能な特徴抽出を可能にするフレームワークであるData Scientist AI(DSAI)を提案する。
論文 参考訳(メタデータ) (2024-12-09T08:47:05Z) - Web-Scale Visual Entity Recognition: An LLM-Driven Data Approach [56.55633052479446]
Webスケールのビジュアルエンティティ認識は、クリーンで大規模なトレーニングデータがないため、重大な課題を呈している。
本稿では,ラベル検証,メタデータ生成,合理性説明に多モーダル大言語モデル(LLM)を活用することによって,そのようなデータセットをキュレートする新しい手法を提案する。
実験により、この自動キュレートされたデータに基づいてトレーニングされたモデルは、Webスケールの視覚的エンティティ認識タスクで最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2024-10-31T06:55:24Z) - SciER: An Entity and Relation Extraction Dataset for Datasets, Methods, and Tasks in Scientific Documents [49.54155332262579]
我々は,科学論文のデータセット,メソッド,タスクに関連するエンティティに対して,新たなエンティティと関係抽出データセットをリリースする。
我々のデータセットには、24k以上のエンティティと12kの関係を持つ106の注釈付きフルテキストの科学出版物が含まれています。
論文 参考訳(メタデータ) (2024-10-28T15:56:49Z) - Collect, Measure, Repeat: Reliability Factors for Responsible AI Data
Collection [8.12993269922936]
AIのデータ収集は責任ある方法で行うべきだと我々は主張する。
本稿では,データ収集をメトリクスの集合でガイドするResponsible AI(RAI)手法を提案する。
論文 参考訳(メタデータ) (2023-08-22T18:01:27Z) - infoVerse: A Universal Framework for Dataset Characterization with
Multidimensional Meta-information [68.76707843019886]
infoVerseは、データセットの特徴付けのための普遍的なフレームワークである。
infoVerseは、様々なモデル駆動メタ情報を統合することで、データセットの多次元特性をキャプチャする。
実世界の3つのアプリケーション(データプルーニング、アクティブラーニング、データアノテーション)において、infoVerse空間で選択されたサンプルは、強いベースラインを一貫して上回る。
論文 参考訳(メタデータ) (2023-05-30T18:12:48Z) - Revisiting Table Detection Datasets for Visually Rich Documents [17.846536373106268]
この研究では、高品質なアノテーションでいくつかのオープンデータセットを再検討し、ノイズを特定し、クリーン化し、これらのデータセットのアノテーション定義を、Open-Tablesと呼ばれるより大きなデータセットとマージするように調整する。
情報通信技術(ICT)コモディティのPDFファイルを用いた新しいICT-TDデータセットを提案する。
実験の結果,データソースが異なるにも関わらず,既存のオープンデータセット間の領域差は小さいことがわかった。
論文 参考訳(メタデータ) (2023-05-04T01:08:15Z) - Modeling Entities as Semantic Points for Visual Information Extraction
in the Wild [55.91783742370978]
文書画像から鍵情報を正確かつ堅牢に抽出する手法を提案する。
我々は、エンティティを意味的ポイントとして明示的にモデル化する。つまり、エンティティの中心点は、異なるエンティティの属性と関係を記述する意味情報によって豊かになる。
提案手法は,従来の最先端モデルと比較して,エンティティラベルとリンクの性能を著しく向上させることができる。
論文 参考訳(メタデータ) (2023-03-23T08:21:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。