論文の概要: Do Datasets Have Politics? Disciplinary Values in Computer Vision
Dataset Development
- arxiv url: http://arxiv.org/abs/2108.04308v1
- Date: Mon, 9 Aug 2021 19:07:58 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-11 14:16:17.443062
- Title: Do Datasets Have Politics? Disciplinary Values in Computer Vision
Dataset Development
- Title(参考訳): データセットには政治がありますか?
コンピュータビジョンデータセット開発における学際的価値
- Authors: Morgan Klaus Scheuerman, Emily Denton, Alex Hanna
- Abstract要約: 約500のコンピュータビジョンデータセットのコーパスを収集し、そこから異なるビジョンタスクで114のデータセットパブリッシュをサンプリングしました。
我々は、コンピュータビジョンデータセットの著者が、ケアを犠牲にして効率をどのように評価するか、コンテキストを犠牲にして普遍性、データ作業を犠牲にしてモデルワークをいかに評価するかについて議論する。
私たちは、沈黙された値をデータセットの生成とキュレーションプロセスにどのように組み込むか、という提案で締めくくります。
- 参考スコア(独自算出の注目度): 6.182409582844314
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Data is a crucial component of machine learning. The field is reliant on data
to train, validate, and test models. With increased technical capabilities,
machine learning research has boomed in both academic and industry settings,
and one major focus has been on computer vision. Computer vision is a popular
domain of machine learning increasingly pertinent to real-world applications,
from facial recognition in policing to object detection for autonomous
vehicles. Given computer vision's propensity to shape machine learning research
and impact human life, we seek to understand disciplinary practices around
dataset documentation - how data is collected, curated, annotated, and packaged
into datasets for computer vision researchers and practitioners to use for
model tuning and development. Specifically, we examine what dataset
documentation communicates about the underlying values of vision data and the
larger practices and goals of computer vision as a field. To conduct this
study, we collected a corpus of about 500 computer vision datasets, from which
we sampled 114 dataset publications across different vision tasks. Through both
a structured and thematic content analysis, we document a number of values
around accepted data practices, what makes desirable data, and the treatment of
humans in the dataset construction process. We discuss how computer vision
datasets authors value efficiency at the expense of care; universality at the
expense of contextuality; impartiality at the expense of positionality; and
model work at the expense of data work. Many of the silenced values we identify
sit in opposition with social computing practices. We conclude with suggestions
on how to better incorporate silenced values into the dataset creation and
curation process.
- Abstract(参考訳): データは機械学習の重要な要素である。
フィールドはモデルをトレーニング、検証、テストするためのデータに依存しています。
技術的能力の向上に伴い、機械学習の研究は学術と産業の両方で盛んになり、コンピュータビジョンに重点が置かれている。
コンピュータビジョンは、警察の顔認識から自動運転車の物体検出まで、現実の応用にますます関心を持つ機械学習の一般的な分野である。
機械学習の研究を形作り、人間の生活に影響を与えるというコンピュータビジョンの正当性を考えると、データセットドキュメントに関する学際的なプラクティス — データをどのように収集、キュレーション、注釈付け、パッケージ化して、コンピュータビジョンの研究者や実践者がモデルチューニングと開発に使用するデータセットに組み込むか – を理解しようとしています。
具体的には、ビジョンデータの基盤となる価値と、フィールドとしてのコンピュータビジョンのより大きなプラクティスと目標について、データセットのドキュメントが何を伝えるのかを調べます。
そこで本研究では,約500個のコンピュータビジョンデータセットのコーパスを収集し,異なるビジョンタスクにまたがる114個のデータセットのパブリッシングをサンプリングした。
構造化コンテンツ分析とテーマコンテンツ分析の両方を通じて、受け入れられたデータプラクティス、望ましいデータ生成方法、データセット構築プロセスにおける人間の扱いに関する多くの価値を文書化する。
本稿では,コンピュータビジョンデータセットの作成者がケアの犠牲で効率性を評価する方法,文脈性の犠牲による普遍性,位置性犠牲での公平性,データワークの犠牲によるモデルワークについて論じる。
私たちが認識する沈黙的価値の多くは、ソーシャルコンピューティングの実践に反するものです。
最後に、沈黙した値をデータセットの作成とキュレーションプロセスにうまく組み込む方法を提案する。
関連論文リスト
- BEHAVIOR Vision Suite: Customizable Dataset Generation via Simulation [57.40024206484446]
我々は、コンピュータビジョンモデルの体系的評価のために、完全にカスタマイズされた合成データを生成するためのツールと資産のセットであるBEHAVIOR Vision Suite(BVS)を紹介する。
BVSはシーンレベルで多数の調整可能なパラメータをサポートする。
アプリケーションシナリオを3つ紹介する。
論文 参考訳(メタデータ) (2024-05-15T17:57:56Z) - Machine Learning Data Practices through a Data Curation Lens: An Evaluation Framework [1.5993707490601146]
機械学習におけるデータプラクティスをデータキュレーションの実践として評価する。
機械学習の研究者たちは、しばしばモデル開発を強調するが、標準的なデータキュレーションの原則を適用するのに苦労している。
論文 参考訳(メタデータ) (2024-05-04T16:21:05Z) - SeeBel: Seeing is Believing [0.9790236766474201]
本稿では,全画像のセグメンテーションにおけるデータセット統計とAI性能を比較するための3つの可視化手法を提案する。
我々のプロジェクトは、画像の注意重みを可視化することで、セグメンテーションのための訓練されたAIモデルの解釈可能性をさらに高めようとしている。
我々は,コンピュータビジョンとAI領域における可視化ツールの有効性を検討するために,実際のユーザを対象に調査を行うことを提案する。
論文 参考訳(メタデータ) (2023-12-18T05:11:00Z) - On Responsible Machine Learning Datasets with Fairness, Privacy, and Regulatory Norms [56.119374302685934]
AI技術の信頼性に関する深刻な懸念があった。
機械学習とディープラーニングのアルゴリズムは、開発に使用されるデータに大きく依存する。
本稿では,責任あるルーブリックを用いてデータセットを評価するフレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-24T14:01:53Z) - Privacy-Preserving Graph Machine Learning from Data to Computation: A
Survey [67.7834898542701]
我々は,グラフ機械学習のプライバシ保護手法の見直しに重点を置いている。
まずプライバシ保護グラフデータを生成する方法を検討する。
次に,プライバシ保護情報を送信する方法について述べる。
論文 参考訳(メタデータ) (2023-07-10T04:30:23Z) - A Survey on RGB-D Datasets [69.73803123972297]
本稿では,深度情報を含む画像データセットをレビューし,分類した。
アクセス可能なデータを含む203のデータセットを収集し、それらをシーン/オブジェクト、ボディ、医療の3つのカテゴリに分類しました。
論文 参考訳(メタデータ) (2022-01-15T05:35:19Z) - MetaGraspNet: A Large-Scale Benchmark Dataset for Vision-driven Robotic
Grasping via Physics-based Metaverse Synthesis [78.26022688167133]
本稿では,物理に基づくメタバース合成による視覚駆動型ロボットグルーピングのための大規模ベンチマークデータセットを提案する。
提案するデータセットには,10万の画像と25種類のオブジェクトが含まれている。
また,オブジェクト検出とセグメンテーション性能を評価するためのデータセットとともに,新しいレイアウト重み付け性能指標を提案する。
論文 参考訳(メタデータ) (2021-12-29T17:23:24Z) - On The State of Data In Computer Vision: Human Annotations Remain
Indispensable for Developing Deep Learning Models [0.0]
高品質ラベル付きデータセットは機械学習(ML)の発展に重要な役割を果たす
2012年にImageNetデータセットとAlexNetモデルが登場して以来、新しいオープンソースのラベル付きビジョンデータセットのサイズはほぼ一定である。
コンピュータビジョンコミュニティの少数の出版物は、Imagenetよりも桁違いの大きさのデータセットの教師付き学習に取り組む。
論文 参考訳(メタデータ) (2021-07-31T00:08:21Z) - REGRAD: A Large-Scale Relational Grasp Dataset for Safe and
Object-Specific Robotic Grasping in Clutter [52.117388513480435]
本稿では,オブジェクト間の関係のモデル化を継続するregradという新しいデータセットを提案する。
データセットは2D画像と3Dポイントクラウドの両方で収集されます。
ユーザは、好きなだけ多くのデータを生成するために、自由に独自のオブジェクトモデルをインポートできる。
論文 参考訳(メタデータ) (2021-04-29T05:31:21Z) - Shuffler: A Large Scale Data Management Tool for ML in Computer Vision [0.0]
我々は,大規模なコンピュータビジョンデータセットの管理を容易にするオープンソースツールであるshufflerを提案する。
Shuffler氏は、コンピュータビジョンに適用された教師あり学習に一般的に役立つアノテーションによる40以上のデータ処理操作を定義している。
論文 参考訳(メタデータ) (2021-04-11T22:27:28Z) - Data Vision: Learning to See Through Algorithmic Abstraction [6.730787776951012]
データを通して学ぶことは、アルゴリズムによる知識生産の現代的な形式の中心である。
本稿では,データ解析学習環境において,機械化や識別の要求が頻繁に発生する状況について考察する。
論文 参考訳(メタデータ) (2020-02-09T15:46:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。