Fugu-MT 論文翻訳(概要): Collect, Measure, Repeat: Reliability Factors for Responsible AI Data Collection

論文の概要: Collect, Measure, Repeat: Reliability Factors for Responsible AI Data Collection

arxiv url: http://arxiv.org/abs/2308.12885v1
Date: Tue, 22 Aug 2023 18:01:27 GMT
ステータス: 翻訳完了
システム内更新日: 2023-08-25 13:27:15.453715
Title: Collect, Measure, Repeat: Reliability Factors for Responsible AI Data Collection
Title（参考訳）: collect, measure, repeat: 責任あるaiデータ収集の信頼性因子
Authors: Oana Inel, Tim Draws and Lora Aroyo
Abstract要約: AIのデータ収集は責任ある方法で行うべきだと我々は主張する。本稿では,データ収集をメトリクスの集合でガイドするResponsible AI(RAI)手法を提案する。
参考スコア（独自算出の注目度）: 8.12993269922936
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The rapid entry of machine learning approaches in our daily activities and high-stakes domains demands transparency and scrutiny of their fairness and reliability. To help gauge machine learning models' robustness, research typically focuses on the massive datasets used for their deployment, e.g., creating and maintaining documentation for understanding their origin, process of development, and ethical considerations. However, data collection for AI is still typically a one-off practice, and oftentimes datasets collected for a certain purpose or application are reused for a different problem. Additionally, dataset annotations may not be representative over time, contain ambiguous or erroneous annotations, or be unable to generalize across issues or domains. Recent research has shown these practices might lead to unfair, biased, or inaccurate outcomes. We argue that data collection for AI should be performed in a responsible manner where the quality of the data is thoroughly scrutinized and measured through a systematic set of appropriate metrics. In this paper, we propose a Responsible AI (RAI) methodology designed to guide the data collection with a set of metrics for an iterative in-depth analysis of the factors influencing the quality and reliability} of the generated data. We propose a granular set of measurements to inform on the internal reliability of a dataset and its external stability over time. We validate our approach across nine existing datasets and annotation tasks and four content modalities. This approach impacts the assessment of data robustness used for AI applied in the real world, where diversity of users and content is eminent. Furthermore, it deals with fairness and accountability aspects in data collection by providing systematic and transparent quality analysis for data collections.
Abstract（参考訳）: 日々の活動や高い領域における機械学習アプローチの急速な導入は、その公正さと信頼性の透明性と精査を要求する。機械学習モデルの堅牢性を評価するために、研究は通常、デプロイメントに使用される膨大なデータセット(例えば、その起源、開発プロセス、倫理的考慮事項を理解するためのドキュメントの作成と保守)に焦点を当てる。しかし、AIのデータ収集は一般的には1回限りのプラクティスであり、特定の目的のために収集されたデータセットやアプリケーションが異なる問題のために再利用されることが多い。加えて、データセットのアノテーションは時間とともに代表されない、あいまいで誤ったアノテーションを含んでいる、あるいは問題やドメインをまたいで一般化できない場合がある。最近の研究では、これらのプラクティスが不公平、偏見、あるいは不正確な結果をもたらす可能性があることが示されている。我々は、AIのデータ収集は、データの品質を徹底的に精査し、適切なメトリクスの体系的なセットを通じて測定する責任ある方法で行うべきであると論じる。本稿では,生成されたデータの品質と信頼性に影響を与える要因を反復的に詳細に分析するために,データ収集を一連の指標で導くための責任あるai(rai)手法を提案する。本稿では,データセットの内部信頼性と時間経過に伴う外部安定性を知らせる粒度測定手法を提案する。既存の9つのデータセットとアノテーションタスクと4つのコンテンツモダリティにまたがるアプローチを検証する。このアプローチは、ユーザとコンテンツの多様性が引き起こされる現実世界でaiに適用されるデータロバスト性の評価に影響する。さらに、データコレクションに対して体系的で透明な品質分析を提供することで、データ収集における公平性と説明責任の側面も扱う。

関連論文リスト

Beyond Internal Data: Constructing Complete Datasets for Fairness Testing [26.037607208689977]
この研究は、人口統計を含む完全なデータセットがアクセスできない場合に、分類器の公平性を評価することに重点を置いている。人口統計情報を含む完全合成データを構築するために,異なる重なり合うデータセットを活用することを提案する。合成データの忠実度を実データと比較することにより検証し、そのような合成データ上でのテストから得られた公正度指標が実データから得られたものと一致していることを実証的に示す。
論文参考訳（メタデータ） (2025-07-24T16:35:42Z)
Datasheets Aren't Enough: DataRubrics for Automated Quality Metrics and Accountability [41.23032741638842]
本稿では,データセットレビュープロセスに,体系的な記述型評価指標を組み込むことを提唱する。我々は、人間とモデル生成データセットの品質を評価するための構造化フレームワークであるDataRubricsを紹介する。
論文参考訳（メタデータ） (2025-06-02T15:31:52Z)
AssistedDS: Benchmarking How External Domain Knowledge Assists LLMs in Automated Data Science [44.18533574465929]
AssistedDSは、大規模言語モデルがドメイン知識をどのように扱うかを評価するために設計されたベンチマークである。我々は、最先端のLLMを、有害なドメイン知識を識別し、有効に適用する能力に基づいて評価する。我々の結果は、専門家の知識を批判的に評価し活用する現在のモデルの能力に、かなりのギャップがあることを示します。
論文参考訳（メタデータ） (2025-05-25T05:50:21Z)
Detecting Dataset Bias in Medical AI: A Generalized and Modality-Agnostic Auditing Framework [8.520644988801243]
機械学習データセットの潜時バイアスは、トレーニング中に増幅され、テスト中に/または隠される。本稿では,偏見源に関するターゲット仮説を生成するためのデータモダリティに依存しない監査フレームワークを提案する。大規模医療データセットを解析することにより,本手法の適用可能性と価値を実証する。
論文参考訳（メタデータ） (2025-03-13T02:16:48Z)
Towards Explainable Automated Data Quality Enhancement without Domain Knowledge [0.0]
我々は,任意のデータセットにおけるデータ品質問題を自動的に評価し,修正するための包括的フレームワークを提案する。私たちの主な目的は、欠如、冗長性、不整合という3つの基本的な欠陥に対処することです。統計的手法と機械学習アルゴリズムを統合するハイブリッドアプローチを採用する。
論文参考訳（メタデータ） (2024-09-16T10:08:05Z)
Lazy Data Practices Harm Fairness Research [49.02318458244464]
本稿では,公正な機械学習データセットを包括的に分析し,不反射的手法がアルゴリズム的公正度発見の到達度と信頼性をいかに妨げているかを示す。本分析では,(1)データと評価における特定の保護属性の表現のテクスブフラック,(2)データ前処理におけるマイノリティの広汎なテキストbf,(3)フェアネス研究の一般化を脅かすテキストbfopaqueデータ処理の3つの分野について検討した。この研究は、公正なMLにおけるデータプラクティスの批判的な再評価の必要性を強調し、データセットのソーシングと使用の両方を改善するための指針を提供する。
論文参考訳（メタデータ） (2024-04-26T09:51:24Z)
On Responsible Machine Learning Datasets with Fairness, Privacy, and Regulatory Norms [56.119374302685934]
AI技術の信頼性に関する深刻な懸念があった。機械学習とディープラーニングのアルゴリズムは、開発に使用されるデータに大きく依存する。本稿では,責任あるルーブリックを用いてデータセットを評価するフレームワークを提案する。
論文参考訳（メタデータ） (2023-10-24T14:01:53Z)
Auditing and Generating Synthetic Data with Controllable Trust Trade-offs [54.262044436203965]
合成データセットとAIモデルを包括的に評価する総合監査フレームワークを導入する。バイアスや差別の防止、ソースデータへの忠実性の確保、実用性、堅牢性、プライバシ保護などに焦点を当てている。多様なユースケースにまたがる様々な生成モデルを監査することにより,フレームワークの有効性を実証する。
論文参考訳（メタデータ） (2023-04-21T09:03:18Z)
Data AUDIT: Identifying Attribute Utility- and Detectability-Induced Bias in Task Models [8.420252576694583]
医用画像データセットの厳密で定量的なスクリーニングのための第1の手法を提案する。提案手法は,データセット属性に関連するリスクを,検出性と実用性の観点から分解する。本手法を用いて, ほぼ知覚不能なバイアス誘発アーティファクトを確実に同定するスクリーニング手法を提案する。
論文参考訳（メタデータ） (2023-04-06T16:50:15Z)
Data-SUITE: Data-centric identification of in-distribution incongruous examples [81.21462458089142]
Data-SUITEは、ID(In-distriion)データの不連続領域を特定するためのデータ中心のフレームワークである。我々は,Data-SUITEの性能保証とカバレッジ保証を実証的に検証する。
論文参考訳（メタデータ） (2022-02-17T18:58:31Z)
Algorithmic Fairness Datasets: the Story so Far [68.45921483094705]
データ駆動アルゴリズムは、人々の幸福に直接影響し、批判的な決定をサポートするために、さまざまな領域で研究されている。研究者のコミュニティは、既存のアルゴリズムの株式を調査し、新しいアルゴリズムを提案し、歴史的に不利な人口に対する自動意思決定のリスクと機会の理解を深めてきた。公正な機械学習の進歩はデータに基づいており、適切に文書化された場合にのみ適切に使用できる。残念なことに、アルゴリズムフェアネスコミュニティは、特定のリソース(オパシティ)に関する情報の不足と利用可能な情報の分散(スパーシティ)によって引き起こされる、集合的なデータドキュメント負債に悩まされている。
論文参考訳（メタデータ） (2022-02-03T17:25:46Z)
Towards Handling Uncertainty-at-Source in AI -- A Review and Next Steps for Interval Regression [6.166295570030645]
本稿では,近年の成長領域である区間値データの線形回帰に着目した。我々は,最先端手法の詳細な分析を行い,特性の異なるデータセットに適用した場合の動作,利点,落とし穴を明らかにする。
論文参考訳（メタデータ） (2021-04-15T05:31:10Z)
Causal Feature Selection for Algorithmic Fairness [61.767399505764736]
データ管理の統合コンポーネントにおける公平性について検討する。本稿では,データセットの公平性を保証する特徴のサブコレクションを同定する手法を提案する。
論文参考訳（メタデータ） (2020-06-10T20:20:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。