論文の概要: A Critical Field Guide for Working with Machine Learning Datasets
- arxiv url: http://arxiv.org/abs/2501.15491v1
- Date: Sun, 26 Jan 2025 11:43:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-28 13:58:09.368498
- Title: A Critical Field Guide for Working with Machine Learning Datasets
- Title(参考訳): 機械学習データセットを扱うためのクリティカルフィールドガイド
- Authors: Sarah Ciston, Mike Ananny, Kate Crawford,
- Abstract要約: 機械学習データセットを扱うためのクリティカルフィールドガイドは、良心的なデータセットスチュワードシップのための実践的なガイダンスを示唆している。
既存の機械学習データセットを扱うための質問、提案、戦略、リソースを提供する。
学生、ジャーナリスト、アーティスト、研究者、開発者はデータセット特有の問題を避けることができる。
- 参考スコア(独自算出の注目度): 0.716879432974126
- License:
- Abstract: Machine learning datasets are powerful but unwieldy. Despite the fact that large datasets commonly contain problematic material--whether from a technical, legal, or ethical perspective--datasets are valuable resources when handled carefully and critically. A Critical Field Guide for Working with Machine Learning Datasets suggests practical guidance for conscientious dataset stewardship. It offers questions, suggestions, strategies, and resources for working with existing machine learning datasets at every phase of their lifecycle. It combines critical AI theories and applied data science concepts, explained in accessible language. Equipped with this understanding, students, journalists, artists, researchers, and developers can be more capable of avoiding the problems unique to datasets. They can also construct more reliable, robust solutions, or even explore new ways of thinking with machine learning datasets that are more critical and conscientious.
- Abstract(参考訳): 機械学習データセットは強力だが扱いにくい。
大規模なデータセットには、技術的、法的、倫理的の観点からも、問題のある資料が一般的に含まれているにもかかわらず、データセットは慎重に、批判的に扱われる貴重なリソースである。
A critical Field Guide for Working with Machine Learning Datasets suggests practical guidance for conscientious dataset stewardship。
既存の機械学習データセットをライフサイクルの各フェーズで扱うための質問、提案、戦略、リソースを提供する。
重要なAI理論と、アクセシブル言語で説明されるデータサイエンスの概念を結合する。
この理解に基づいて、学生、ジャーナリスト、アーティスト、研究者、開発者はデータセット固有の問題を避けることができる。
また、より信頼性が高く堅牢なソリューションを構築したり、より批判的で良心的な機械学習データセットを使って、新たな考え方を探求することも可能だ。
関連論文リスト
- Machine Learning Data Practices through a Data Curation Lens: An Evaluation Framework [1.5993707490601146]
機械学習におけるデータプラクティスをデータキュレーションの実践として評価する。
機械学習の研究者たちは、しばしばモデル開発を強調するが、標準的なデータキュレーションの原則を適用するのに苦労している。
論文 参考訳(メタデータ) (2024-05-04T16:21:05Z) - AI Competitions and Benchmarks: Dataset Development [42.164845505628506]
本章では,我々の実践経験に富んだ,確立した方法論ツールの概要について概観する。
データセット開発に関わるタスクを開発し、その効果的な管理に関する洞察を提供する。
次に、データ収集、変換、品質評価を含む実装プロセスの詳細について述べる。
論文 参考訳(メタデータ) (2024-04-15T12:01:42Z) - The Frontier of Data Erasure: Machine Unlearning for Large Language Models [56.26002631481726]
大規模言語モデル(LLM)はAIの進歩の基礎となっている。
LLMは機密情報、偏見情報、著作権情報を記憶し、広めることによってリスクを生じさせる。
機械学習は、これらの懸念を軽減するための最先端のソリューションとして現れます。
論文 参考訳(メタデータ) (2024-03-23T09:26:15Z) - On Responsible Machine Learning Datasets with Fairness, Privacy, and Regulatory Norms [56.119374302685934]
AI技術の信頼性に関する深刻な懸念があった。
機械学習とディープラーニングのアルゴリズムは、開発に使用されるデータに大きく依存する。
本稿では,責任あるルーブリックを用いてデータセットを評価するフレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-24T14:01:53Z) - A Vision for Semantically Enriched Data Science [19.604667287258724]
ドメイン知識の活用やデータセマンティクスといった重要な分野は、ほとんど自動化されていない分野です。
データサイエンスの自動化のための新しいツールと組み合わせて、データに対する“セマンティック”な理解と推論を活用することが、一貫性と説明可能なデータ拡張と変換にどのように役立つか、私たちは考えています。
論文 参考訳(メタデータ) (2023-03-02T16:03:12Z) - Understanding the World Through Action [91.3755431537592]
ラベルのないデータを利用するための汎用的で原則的で強力なフレームワークは、強化学習から導き出すことができると私は主張する。
このような手順が、下流の潜在的なタスクとどのように密接に一致しているかについて論じます。
論文 参考訳(メタデータ) (2021-10-24T22:33:52Z) - REGRAD: A Large-Scale Relational Grasp Dataset for Safe and
Object-Specific Robotic Grasping in Clutter [52.117388513480435]
本稿では,オブジェクト間の関係のモデル化を継続するregradという新しいデータセットを提案する。
データセットは2D画像と3Dポイントクラウドの両方で収集されます。
ユーザは、好きなだけ多くのデータを生成するために、自由に独自のオブジェクトモデルをインポートできる。
論文 参考訳(メタデータ) (2021-04-29T05:31:21Z) - Data and its (dis)contents: A survey of dataset development and use in
machine learning research [11.042648980854487]
機械学習におけるデータの収集と利用方法に関する多くの懸念を調査します。
この分野の実践的かつ倫理的な問題のいくつかに対処するには、データのより慎重で徹底した理解が必要であると主張する。
論文 参考訳(メタデータ) (2020-12-09T22:13:13Z) - An Ethical Highlighter for People-Centric Dataset Creation [62.886916477131486]
本稿では,既存のデータセットの倫理的評価を導くための分析フレームワークを提案する。
我々の研究は、先行研究のレビューと分析によって知らされ、そのような倫理的課題が生じる場所を強調します。
論文 参考訳(メタデータ) (2020-11-27T07:18:44Z) - DeGAN : Data-Enriching GAN for Retrieving Representative Samples from a
Trained Classifier [58.979104709647295]
我々は、トレーニングされたネットワークの将来の学習タスクのために、利用可能なデータの豊富さと関連するデータの欠如の間のギャップを埋める。
利用可能なデータは、元のトレーニングデータセットまたは関連するドメインデータセットの不均衡なサブセットである可能性があるため、代表サンプルを検索するために使用します。
関連ドメインからのデータを活用して最先端のパフォーマンスを実現することを実証する。
論文 参考訳(メタデータ) (2019-12-27T02:05:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。