Fugu-MT 論文翻訳(概要): A Taxonomy of Challenges to Curating Fair Datasets

論文の概要: A Taxonomy of Challenges to Curating Fair Datasets

arxiv url: http://arxiv.org/abs/2406.06407v2
Date: Thu, 31 Oct 2024 18:47:52 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:33.431696
Title: A Taxonomy of Challenges to Curating Fair Datasets
Title（参考訳）: 公正データセットの定式化への挑戦の分類学
Authors: Dora Zhao, Morgan Klaus Scheuerman, Pooja Chitre, Jerone T. A. Andrews, Georgia Panagiotidou, Shawn Walker, Kathleen H. Pine, Alice Xiang,
Abstract要約: 本稿では,データセットキュレーションライフサイクルを通じて発生する課題とトレードオフを包括的に分類する。われわれの研究結果は、データキュレーションに影響を及ぼすより広い公平な環境の中で、大きな問題を浮き彫りにしている。
参考スコア（独自算出の注目度）: 9.084239061045588
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Despite extensive efforts to create fairer machine learning (ML) datasets, there remains a limited understanding of the practical aspects of dataset curation. Drawing from interviews with 30 ML dataset curators, we present a comprehensive taxonomy of the challenges and trade-offs encountered throughout the dataset curation lifecycle. Our findings underscore overarching issues within the broader fairness landscape that impact data curation. We conclude with recommendations aimed at fostering systemic changes to better facilitate fair dataset curation practices.
Abstract（参考訳）: より公平な機械学習(ML)データセットを作成するための広範な努力にもかかわらず、データセットキュレーションの実践的な側面については、まだ限定的な理解が残っている。 30のMLデータセットキュレーターとのインタビューから、データセットキュレーションライフサイクルで発生する課題とトレードオフの包括的な分類を提示する。われわれの研究結果は、データキュレーションに影響を及ぼすより広い公平な環境の中で、大きな問題を浮き彫りにしている。我々は、公正なデータセットキュレーションの実践をより促進するために、体系的な変更を促進することを目的としたレコメンデーションで締めくくります。

関連論文リスト

Can LLMs Clean Up Your Mess? A Survey of Application-Ready Data Preparation with LLMs [66.63911043019294]
データ準備は、生のデータセットを識別し、データセット間の関係を解明し、それらから貴重な洞察を抽出することを目的としている。本稿では,様々な下流タスクのためのデータ準備にLLM技術を用いることに焦点を当てる。データクリーニング、標準化、エラー処理、計算、データ統合、データ豊か化という3つの主要なタスクにフィールドを編成するタスク中心の分類を導入します。
論文参考訳（メタデータ） (2026-01-22T12:02:45Z)
A Survey on Efficient Large Language Model Training: From Data-centric Perspectives [42.897899343082806]
本稿では,データ中心の観点から学習後のデータ効率の高い大規模言語モデルに関する最初の体系的な調査を示す。本稿では,データ選択,データ品質向上,合成データ生成,データ蒸留・圧縮,自己進化型データエコシステムを対象とする,データ効率の高いLCMポストトレーニング手法の分類法を提案する。我々の研究が、大規模モデルトレーニングにおけるデータ利用の可能性の最大化に、さらなる探究を促すことを願っています。
論文参考訳（メタデータ） (2025-10-29T17:01:55Z)
Adapting Vision-Language Models Without Labels: A Comprehensive Survey [74.17944178027015]
VLM(Vision-Language Models)は、幅広いタスクにまたがる顕著な一般化機能を示す。近年,ラベル付きデータに依存しない教師なし適応手法に注目が集まっている。本稿では,未ラベルの視覚データの可用性と性質に基づく分類法を提案し,既存のアプローチを4つの重要なパラダイムに分類する。
論文参考訳（メタデータ） (2025-08-07T16:27:37Z)
Machine Learning Methods for Small Data and Upstream Bioprocessing Applications: A Comprehensive Review [13.205760966688619]
データは機械学習(ML)アプリケーションには不可欠だが、大規模なデータセットの取得にはコストと時間を要する可能性がある。このレビューでは、小さなデータによって生じる課題に対処するために設計されたML手法について検討し、それらを分類学に分類し、実践的な応用を導く。これらのメソッドがさまざまな観点から小さなデータ課題にどのように対処するかを分析することで、このレビューは実行可能な洞察を提供する。
論文参考訳（メタデータ） (2025-06-14T03:13:05Z)
A Systematic Review of NeurIPS Dataset Management Practices [7.974245534539289]
我々はNeurIPSトラックで公開されたデータセットの体系的なレビューを行い、証明、配布、倫理的開示、ライセンスの4つの重要な側面に焦点を当てる。この結果から, データセットの出現は不明瞭なフィルタリングやキュレーションのプロセスのため, しばしば不明瞭であることが明らかとなった。これらの矛盾は、データセットの公開と管理のための標準化されたデータインフラストラクチャーの緊急の必要性を浮き彫りにする。
論文参考訳（メタデータ） (2024-10-31T23:55:41Z)
The State of Data Curation at NeurIPS: An Assessment of Dataset Development Practices in the Datasets and Benchmarks Track [1.5993707490601146]
この研究は、データキュレーションのレンズを通してNeurIPSにおけるデータセット開発プラクティスの分析を提供する。本稿では,ルーブリックとツールキットからなるデータセットドキュメンテーションの評価フレームワークを提案する。結果は、環境のフットプリント、倫理的考慮、データ管理に関するドキュメントの必要性がさらに高まっていることを示している。
論文参考訳（メタデータ） (2024-10-29T19:07:50Z)
Machine Learning Data Practices through a Data Curation Lens: An Evaluation Framework [1.5993707490601146]
機械学習におけるデータプラクティスをデータキュレーションの実践として評価する。機械学習の研究者たちは、しばしばモデル開発を強調するが、標準的なデータキュレーションの原則を適用するのに苦労している。
論文参考訳（メタデータ） (2024-05-04T16:21:05Z)
Lazy Data Practices Harm Fairness Research [49.02318458244464]
本稿では,公正な機械学習データセットを包括的に分析し,不反射的手法がアルゴリズム的公正度発見の到達度と信頼性をいかに妨げているかを示す。本分析では,(1)データと評価における特定の保護属性の表現のテクスブフラック,(2)データ前処理におけるマイノリティの広汎なテキストbf,(3)フェアネス研究の一般化を脅かすテキストbfopaqueデータ処理の3つの分野について検討した。この研究は、公正なMLにおけるデータプラクティスの批判的な再評価の必要性を強調し、データセットのソーシングと使用の両方を改善するための指針を提供する。
論文参考訳（メタデータ） (2024-04-26T09:51:24Z)
Data Acquisition: A New Frontier in Data-centric AI [65.90972015426274]
まず、現在のデータマーケットプレースを調査し、データセットに関する詳細な情報を提供するプラットフォームが不足していることを明らかにする。次に、データプロバイダと取得者間のインタラクションをモデル化するベンチマークであるDAMチャレンジを紹介します。提案手法の評価は,機械学習における効果的なデータ取得戦略の必要性を浮き彫りにしている。
論文参考訳（メタデータ） (2023-11-22T22:15:17Z)
Concept Drift and Long-Tailed Distribution in Fine-Grained Visual Categorization: Benchmark and Method [84.68818879525568]
コンセプションドリフトとLong-Tailed Distributionデータセットを提案する。インスタンスの特徴は時間によって異なり、長い尾の分布を示す傾向がある。本稿ではCDLTに関連する学習課題に対処する機能組換えフレームワークを提案する。
論文参考訳（メタデータ） (2023-06-04T12:42:45Z)
Embrace Limited and Imperfect Training Datasets: Opportunities and Challenges in Plant Disease Recognition Using Deep Learning [5.526950086166696]
貧弱なデータセットを受け入れることは可能であり、これらのデータセットの使用に伴う課題を明確に定義することを目的としています。我々は植物病の認識に重点を置いているが、貧しいデータセットの受け入れと分析の原則は農業を含む幅広い分野に適用可能であることを強調している。
論文参考訳（メタデータ） (2023-05-19T08:58:09Z)
Evaluating the effect of data augmentation and BALD heuristics on distillation of Semantic-KITTI dataset [63.20765930558542]
Active Learningは、自律運転データセットにおけるLiDAR知覚タスクに対して、比較的未調査のままである。本研究では,データセット蒸留やコアサブセット選択のタスクに適用したベイズ能動学習手法を評価する。また,ベイジアンALを用いたデータセット蒸留におけるデータ拡張の適用効果についても検討した。
論文参考訳（メタデータ） (2023-02-21T13:56:47Z)
A Comprehensive Survey of Dataset Distillation [73.15482472726555]
限られた計算能力で無制限に成長するデータを扱うことは困難になっている。ディープラーニング技術はこの10年で前例のない発展を遂げた。本稿では,多面的なデータセット蒸留の総合的な理解を提供する。
論文参考訳（メタデータ） (2023-01-13T15:11:38Z)
A Survey of Dataset Refinement for Problems in Computer Vision Datasets [11.45536223418548]
大規模データセットはコンピュータビジョンの進歩に重要な役割を果たしてきた。クラス不均衡、ノイズの多いラベル、データセットバイアス、高いリソースコストといった問題に悩まされることが多い。データセット問題を解決するために、様々なデータ中心のソリューションが提案されている。データセットを再構成することで、データセットの品質が向上します。
論文参考訳（メタデータ） (2022-10-21T03:58:43Z)
Learning to Count in the Crowd from Limited Labeled Data [109.2954525909007]
我々は,限られた数のラベル付きサンプルから参加者を数えることを学ぶことで,アノテーションの努力を減らすことに重点を置いている。具体的には,未ラベルデータに対する擬似地下真理推定を含むガウス過程に基づく反復学習機構を提案する。
論文参考訳（メタデータ） (2020-07-07T04:17:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。