論文の概要: A Survey of Data Optimization for Problems in Computer Vision Datasets
- arxiv url: http://arxiv.org/abs/2210.11717v1
- Date: Fri, 21 Oct 2022 03:58:43 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-24 15:11:12.228359
- Title: A Survey of Data Optimization for Problems in Computer Vision Datasets
- Title(参考訳): コンピュータビジョンデータセットにおける問題に対するデータ最適化に関する調査
- Authors: Zhijing Wan, Zhixiang Wang, CheukTing Chung and Zheng Wang
- Abstract要約: 人工知能におけるデータ最適化の最近の進歩について概観する。
まず,大規模コンピュータビジョンデータセットに存在する様々な問題を要約し,解析する。
第2に,データサンプリング,データサブセット選択,アクティブラーニングという,データ最適化アルゴリズムを最適化形式に従って3つの方向に分類する。
- 参考スコア(独自算出の注目度): 13.578497252766423
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent years have witnessed remarkable progress in artificial intelligence
(AI) thanks to refined deep network structures, powerful computing devices, and
large-scale labeled datasets. However, researchers have mainly invested in the
optimization of models and computational devices, leading to the fact that good
models and powerful computing devices are currently readily available, while
datasets are still stuck at the initial stage of large-scale but low quality.
Data becomes a major obstacle to AI development. Taking note of this, we dig
deeper and find that there has been some but unstructured work on data
optimization. They focus on various problems in datasets and attempt to improve
dataset quality by optimizing its structure to facilitate AI development. In
this paper, we present the first review of recent advances in this area. First,
we summarize and analyze various problems that exist in large-scale computer
vision datasets. We then define data optimization and classify data
optimization algorithms into three directions according to the optimization
form: data sampling, data subset selection, and active learning. Next, we
organize these data optimization works according to data problems addressed,
and provide a systematic and comparative description. Finally, we summarize the
existing literature and propose some potential future research topics.
- Abstract(参考訳): 近年、洗練されたディープネットワーク構造、強力なコンピューティングデバイス、大規模ラベル付きデータセットのおかげで、人工知能(AI)の顕著な進歩が見られた。
しかし、研究者はモデルと計算装置の最適化に主に投資しており、良いモデルと強力な計算装置が現在容易に利用可能であるのに対し、データセットはいまだに大規模で低品質の初期段階に留まっている。
データはAI開発にとって大きな障害となる。
この点に注目して,データ最適化に関する構造化されていない作業がいくつかあることを確認した。
彼らはデータセットのさまざまな問題に注目し、AI開発を促進するためにその構造を最適化することでデータセットの品質を改善する。
本稿では,この領域における最近の進歩を概観する。
まず,大規模コンピュータビジョンデータセットに存在する様々な問題を要約し,解析する。
次に、データの最適化を定義し、データサンプリング、データサブセット選択、アクティブラーニングという最適化形式に従って、データ最適化アルゴリズムを3つの方向に分類する。
次に、これらのデータ最適化作業は、対処されたデータ問題に従って整理し、体系的かつ比較的な記述を提供する。
最後に,既存の文献を要約し,今後の研究課題を提案する。
関連論文リスト
- A Guide to Misinformation Detection Datasets [5.673951146506489]
このガイドは、高品質なデータを取得し、より効果的な評価を行うためのロードマップを提供することを目的としている。
すべてのデータセットやその他のアーティファクトはhttps://misinfo-datasets.complexdatalab.com/.comで入手できる。
論文 参考訳(メタデータ) (2024-11-07T18:47:39Z) - A CLIP-Powered Framework for Robust and Generalizable Data Selection [51.46695086779598]
実世界のデータセットは、しばしば冗長でノイズの多いデータを含み、トレーニング効率とモデルパフォーマンスに悪影響を及ぼす。
データ選択は、データセット全体から最も代表的なサンプルを特定することを約束している。
より堅牢で一般化可能なサンプル選択にマルチモーダル情報を活用するCLIPを利用した新しいデータ選択フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-15T03:00:58Z) - Data Advisor: Dynamic Data Curation for Safety Alignment of Large Language Models [79.65071553905021]
所望のデータセットの特徴を考慮したデータ生成手法であるデータアドバイザを提案する。
Data Advisorは生成されたデータの状態を監視し、現在のデータセットの弱点を特定し、データ生成の次のイテレーションをアドバイスする。
論文 参考訳(メタデータ) (2024-10-07T17:59:58Z) - A Survey on Data Selection for Language Models [148.300726396877]
データ選択方法は、トレーニングデータセットに含まれるデータポイントを決定することを目的としている。
ディープラーニングは、主に実証的な証拠によって駆動され、大規模なデータに対する実験は高価である。
広範なデータ選択研究のリソースを持つ組織はほとんどない。
論文 参考訳(メタデータ) (2024-02-26T18:54:35Z) - Exploring Dataset-Scale Indicators of Data Quality [23.017200605976807]
現代のコンピュータビジョン基礎モデルは膨大な量のデータに基づいて訓練されており、経済と環境のコストが増大している。
近年の研究では、データ品質の向上はデータ量の必要性を大幅に減らすことが示唆されている。
与えられたデータセットの品質は、異なるサンプルレベルとデータセットレベルに分解できると仮定する。
論文 参考訳(メタデータ) (2023-11-07T14:14:32Z) - Assessing Dataset Quality Through Decision Tree Characteristics in
Autoencoder-Processed Spaces [0.30458514384586394]
データセットの品質がモデルトレーニングとパフォーマンスに深く影響していることを示します。
以上の結果から,適切な特徴選択,適切なデータボリューム,データ品質の重要性が浮き彫りになった。
この研究は、データアセスメントのプラクティスに関する貴重な洞察を提供し、より正確で堅牢な機械学習モデルの開発に寄与する。
論文 参考訳(メタデータ) (2023-06-27T11:33:31Z) - Exploring the Potential of AI-Generated Synthetic Datasets: A Case Study
on Telematics Data with ChatGPT [0.0]
この研究は、OpenAIの強力な言語モデルであるChatGPTを活用して、特にテレマティクス分野における合成データセットの構築と利用に力を入れている。
このデータ作成プロセスを説明するために、合成テレマティクスデータセットの生成に焦点を当てたハンズオンケーススタディが実施されている。
論文 参考訳(メタデータ) (2023-06-23T15:15:13Z) - A Comprehensive Survey of Dataset Distillation [73.15482472726555]
限られた計算能力で無制限に成長するデータを扱うことは困難になっている。
ディープラーニング技術はこの10年で前例のない発展を遂げた。
本稿では,多面的なデータセット蒸留の総合的な理解を提供する。
論文 参考訳(メタデータ) (2023-01-13T15:11:38Z) - Advanced Data Augmentation Approaches: A Comprehensive Survey and Future
directions [57.30984060215482]
データ拡張の背景、レビューされたデータ拡張技術の新しい包括的分類法、および各技術の強さと弱点(可能ならば)を提供する。
また、画像分類、オブジェクト検出、セマンティックセグメンテーションなどの3つの一般的なコンピュータビジョンタスクに対して、データ拡張効果の総合的な結果を提供する。
論文 参考訳(メタデータ) (2023-01-07T11:37:32Z) - Online Coreset Selection for Rehearsal-based Continual Learning [65.85595842458882]
継続的な学習では、後に再生されるトレーニング例(コアセット)のサブセットを格納し、破滅的な忘れを軽減します。
提案するオンラインコアセット選択(OCS, Online Coreset Selection)は, 各イテレーションにおいて最も代表的で情報性の高いコアセットを選択するシンプルで効果的な方法である。
提案手法は,過去のタスクに対して高親和性サンプルを選択しながら,目標データセットへのモデル適応を最大化し,破滅的忘れを直接的に抑制する。
論文 参考訳(メタデータ) (2021-06-02T11:39:25Z) - Bringing the People Back In: Contesting Benchmark Machine Learning
Datasets [11.00769651520502]
機械学習データの系譜である研究プログラムを概説し、これらのデータセットの作成方法と理由について検討する。
機械学習におけるベンチマークデータセットを基盤として運用する方法を解説し、これらのデータセットについて4つの研究課題を提起する。
論文 参考訳(メタデータ) (2020-07-14T23:22:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。