Fugu-MT 論文翻訳(概要): TEDI: Trustworthy and Ethical Dataset Indicators to Analyze and Compare Dataset Documentation

論文の概要: TEDI: Trustworthy and Ethical Dataset Indicators to Analyze and Compare Dataset Documentation

arxiv url: http://arxiv.org/abs/2505.17841v1
Date: Fri, 23 May 2025 12:55:33 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-26 18:08:34.081613
Title: TEDI: Trustworthy and Ethical Dataset Indicators to Analyze and Compare Dataset Documentation
Title（参考訳）: TEDI:データセットドキュメンテーションの分析と比較のための信頼できる倫理的データセットインジケータ
Authors: Wiebke Hutiri, Mircea Cimpoi, Morgan Scheuerman, Victoria Matthews, Alice Xiang,
Abstract要約: マルチモーダルデータセットの信頼性と倫理的属性を特徴付ける143の指標を含むTEDIを紹介する。 TEDIを用いて、人間の声を含む100以上のマルチモーダルデータセットを手動でアノテートし分析した。同意、プライバシー、有害なコンテンツ指標に関連する属性やプラクティスを文書化したデータセットは、ごくわずかしかありません。
参考スコア（独自算出の注目度）: 3.1695945518308366
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Dataset transparency is a key enabler of responsible AI, but insights into multimodal dataset attributes that impact trustworthy and ethical aspects of AI applications remain scarce and are difficult to compare across datasets. To address this challenge, we introduce Trustworthy and Ethical Dataset Indicators (TEDI) that facilitate the systematic, empirical analysis of dataset documentation. TEDI encompasses 143 fine-grained indicators that characterize trustworthy and ethical attributes of multimodal datasets and their collection processes. The indicators are framed to extract verifiable information from dataset documentation. Using TEDI, we manually annotated and analyzed over 100 multimodal datasets that include human voices. We further annotated data sourcing, size, and modality details to gain insights into the factors that shape trustworthy and ethical dimensions across datasets. We find that only a select few datasets have documented attributes and practices pertaining to consent, privacy, and harmful content indicators. The extent to which these and other ethical indicators are addressed varies based on the data collection method, with documentation of datasets collected via crowdsourced and direct collection approaches being more likely to mention them. Scraping dominates scale at the cost of ethical indicators, but is not the only viable collection method. Our approach and empirical insights contribute to increasing dataset transparency along trustworthy and ethical dimensions and pave the way for automating the tedious task of extracting information from dataset documentation in future.
Abstract（参考訳）: データセットの透明性は、責任あるAIの重要な実現要因であるが、AIアプリケーションの信頼性と倫理的側面に影響を与えるマルチモーダルデータセット属性に対する洞察は依然として少なく、データセット間で比較することは困難である。この課題に対処するために、データセットドキュメンテーションの体系的で経験的な分析を容易にするTrustworthy and Ethical Dataset Indicators (TEDI)を導入する。 TEDIは、マルチモーダルデータセットとその収集プロセスの信頼性と倫理的属性を特徴付ける143のきめ細かい指標を含んでいる。インジケータはフレーム化され、データセットのドキュメントから検証可能な情報を抽出する。 TEDIを用いて、人間の声を含む100以上のマルチモーダルデータセットを手動でアノテートし分析した。さらに、データソーシング、サイズ、モダリティの詳細を注釈付けして、データセット全体の信頼性と倫理的次元を形作る要因に関する洞察を得ました。同意、プライバシー、有害なコンテンツ指標に関連する属性やプラクティスを文書化したデータセットは、ごくわずかしかありません。これらやその他の倫理的指標に対処する範囲は、データ収集方法によって異なり、クラウドソースおよび直接収集アプローチを通じて収集されたデータセットのドキュメントは、それらに言及する可能性が高くなる。スクラップは、倫理指標のコストで規模を独占するが、唯一実行可能な収集方法ではない。我々のアプローチと経験的洞察は、信頼に値する、倫理的な次元に沿ったデータセットの透明性の向上に寄与し、将来、データセットドキュメントから情報を抽出する退屈なタスクを自動化するための道を開いた。

関連論文リスト

OpenDataArena: A Fair and Open Arena for Benchmarking Post-Training Dataset Value [74.80873109856563]
OpenDataArena(ODA)は、トレーニング後のデータの本質的な価値をベンチマークするために設計された、総合的でオープンなプラットフォームである。 ODAは4つの主要な柱からなる包括的なエコシステムを確立している。 (i) 多様なモデル間で公平でオープンな比較を保証する統一的なトレーニング評価パイプライン、 (ii) 異なる軸数に沿ってデータ品質をプロファイリングする多次元スコアリングフレームワーク、 (iii) データセットの系図を視覚化してコンポーネントソースを識別するインタラクティブなデータ系統探索である。
論文参考訳（メタデータ） (2025-12-16T03:33:24Z)
DSAI: Unbiased and Interpretable Latent Feature Extraction for Data-Centric AI [24.349800949355465]
大規模言語モデル(LLM)は、大きなデータセットの潜在特性を客観的に識別するのにしばしば苦労する。本研究では,非バイアスで解釈可能な特徴抽出を可能にするフレームワークであるData Scientist AI(DSAI)を提案する。
論文参考訳（メタデータ） (2024-12-09T08:47:05Z)
Web-Scale Visual Entity Recognition: An LLM-Driven Data Approach [56.55633052479446]
Webスケールのビジュアルエンティティ認識は、クリーンで大規模なトレーニングデータがないため、重大な課題を呈している。本稿では,ラベル検証,メタデータ生成,合理性説明に多モーダル大言語モデル(LLM)を活用することによって,そのようなデータセットをキュレートする新しい手法を提案する。実験により、この自動キュレートされたデータに基づいてトレーニングされたモデルは、Webスケールの視覚的エンティティ認識タスクで最先端のパフォーマンスを達成することが示された。
論文参考訳（メタデータ） (2024-10-31T06:55:24Z)
SciER: An Entity and Relation Extraction Dataset for Datasets, Methods, and Tasks in Scientific Documents [49.54155332262579]
我々は,科学論文のデータセット,メソッド,タスクに関連するエンティティに対して,新たなエンティティと関係抽出データセットをリリースする。我々のデータセットには、24k以上のエンティティと12kの関係を持つ106の注釈付きフルテキストの科学出版物が含まれています。
論文参考訳（メタデータ） (2024-10-28T15:56:49Z)
The MERIT Dataset: Modelling and Efficiently Rendering Interpretable Transcripts [0.0]
本稿では,学校レポートの文脈における完全ラベル付きデータセットであるMERITデータセットを紹介する。その性質上、MERITデータセットは、制御された方法でバイアスを含む可能性があるため、言語モデル(LLM)で誘導されるバイアスをベンチマークするための貴重なツールである。データセットの有用性を示すため,トークン分類モデルを用いたベンチマークを行い,SOTAモデルにおいてもデータセットが重要な課題となることを示す。
論文参考訳（メタデータ） (2024-08-31T12:56:38Z)
Collect, Measure, Repeat: Reliability Factors for Responsible AI Data Collection [8.12993269922936]
AIのデータ収集は責任ある方法で行うべきだと我々は主張する。本稿では,データ収集をメトリクスの集合でガイドするResponsible AI(RAI)手法を提案する。
論文参考訳（メタデータ） (2023-08-22T18:01:27Z)
infoVerse: A Universal Framework for Dataset Characterization with Multidimensional Meta-information [68.76707843019886]
infoVerseは、データセットの特徴付けのための普遍的なフレームワークである。 infoVerseは、様々なモデル駆動メタ情報を統合することで、データセットの多次元特性をキャプチャする。実世界の3つのアプリケーション(データプルーニング、アクティブラーニング、データアノテーション)において、infoVerse空間で選択されたサンプルは、強いベースラインを一貫して上回る。
論文参考訳（メタデータ） (2023-05-30T18:12:48Z)
Revisiting Table Detection Datasets for Visually Rich Documents [17.846536373106268]
この研究では、高品質なアノテーションでいくつかのオープンデータセットを再検討し、ノイズを特定し、クリーン化し、これらのデータセットのアノテーション定義を、Open-Tablesと呼ばれるより大きなデータセットとマージするように調整する。情報通信技術(ICT)コモディティのPDFファイルを用いた新しいICT-TDデータセットを提案する。実験の結果,データソースが異なるにも関わらず,既存のオープンデータセット間の領域差は小さいことがわかった。
論文参考訳（メタデータ） (2023-05-04T01:08:15Z)
Modeling Entities as Semantic Points for Visual Information Extraction in the Wild [55.91783742370978]
文書画像から鍵情報を正確かつ堅牢に抽出する手法を提案する。我々は、エンティティを意味的ポイントとして明示的にモデル化する。つまり、エンティティの中心点は、異なるエンティティの属性と関係を記述する意味情報によって豊かになる。提案手法は,従来の最先端モデルと比較して,エンティティラベルとリンクの性能を著しく向上させることができる。
論文参考訳（メタデータ） (2023-03-23T08:21:16Z)
TRoVE: Transforming Road Scene Datasets into Photorealistic Virtual Environments [84.6017003787244]
本研究では、シミュレーションデータセットに存在する困難とドメインギャップに対処する合成データ生成パイプラインを提案する。既存のデータセットからアノテーションや視覚的手がかりを利用すれば、自動マルチモーダルデータ生成が容易になることを示す。
論文参考訳（メタデータ） (2022-08-16T20:46:08Z)
Data Cards: Purposeful and Transparent Dataset Documentation for Responsible AI [0.0]
我々は、データセットの透明性、目的、人間中心のドキュメンテーションを促進するためのデータカードを提案する。データカードは、利害関係者が必要とするMLデータセットのさまざまな側面に関する重要な事実の要約である。実世界のユーティリティと人間中心性にデータカードを基盤とするフレームワークを提示する。
論文参考訳（メタデータ） (2022-04-03T13:49:36Z)
SciREX: A Challenge Dataset for Document-Level Information Extraction [56.83748634747753]
ドキュメントレベルで大規模な情報抽出データセットを作成するのは難しい。複数のIEタスクを含む文書レベルのIEデータセットであるSciREXを紹介する。我々は、従来の最先端のIEモデルをドキュメントレベルのIEに拡張する強力なベースラインとして、ニューラルモデルを開発する。
論文参考訳（メタデータ） (2020-05-01T17:30:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。