Fugu-MT 論文翻訳(概要): A Survey of Data Optimization for Problems in Computer Vision Datasets

論文の概要: A Survey of Data Optimization for Problems in Computer Vision Datasets

arxiv url: http://arxiv.org/abs/2210.11717v1
Date: Fri, 21 Oct 2022 03:58:43 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-24 15:11:12.228359
Title: A Survey of Data Optimization for Problems in Computer Vision Datasets
Title（参考訳）: コンピュータビジョンデータセットにおける問題に対するデータ最適化に関する調査
Authors: Zhijing Wan, Zhixiang Wang, CheukTing Chung and Zheng Wang
Abstract要約: 人工知能におけるデータ最適化の最近の進歩について概観する。まず,大規模コンピュータビジョンデータセットに存在する様々な問題を要約し,解析する。第2に,データサンプリング,データサブセット選択,アクティブラーニングという,データ最適化アルゴリズムを最適化形式に従って3つの方向に分類する。
参考スコア（独自算出の注目度）: 13.578497252766423
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recent years have witnessed remarkable progress in artificial intelligence (AI) thanks to refined deep network structures, powerful computing devices, and large-scale labeled datasets. However, researchers have mainly invested in the optimization of models and computational devices, leading to the fact that good models and powerful computing devices are currently readily available, while datasets are still stuck at the initial stage of large-scale but low quality. Data becomes a major obstacle to AI development. Taking note of this, we dig deeper and find that there has been some but unstructured work on data optimization. They focus on various problems in datasets and attempt to improve dataset quality by optimizing its structure to facilitate AI development. In this paper, we present the first review of recent advances in this area. First, we summarize and analyze various problems that exist in large-scale computer vision datasets. We then define data optimization and classify data optimization algorithms into three directions according to the optimization form: data sampling, data subset selection, and active learning. Next, we organize these data optimization works according to data problems addressed, and provide a systematic and comparative description. Finally, we summarize the existing literature and propose some potential future research topics.
Abstract（参考訳）: 近年、洗練されたディープネットワーク構造、強力なコンピューティングデバイス、大規模ラベル付きデータセットのおかげで、人工知能(AI)の顕著な進歩が見られた。しかし、研究者はモデルと計算装置の最適化に主に投資しており、良いモデルと強力な計算装置が現在容易に利用可能であるのに対し、データセットはいまだに大規模で低品質の初期段階に留まっている。データはAI開発にとって大きな障害となる。この点に注目して,データ最適化に関する構造化されていない作業がいくつかあることを確認した。彼らはデータセットのさまざまな問題に注目し、AI開発を促進するためにその構造を最適化することでデータセットの品質を改善する。本稿では,この領域における最近の進歩を概観する。まず,大規模コンピュータビジョンデータセットに存在する様々な問題を要約し,解析する。次に、データの最適化を定義し、データサンプリング、データサブセット選択、アクティブラーニングという最適化形式に従って、データ最適化アルゴリズムを3つの方向に分類する。次に、これらのデータ最適化作業は、対処されたデータ問題に従って整理し、体系的かつ比較的な記述を提供する。最後に,既存の文献を要約し,今後の研究課題を提案する。

関連論文リスト

LAND: A Longitudinal Analysis of Neuromorphic Datasets [47.84658158364453]
このレビューでは、既存のニューロモルフィックデータセットをキャプチャし、423以上のデータセットをカバーしている。これらのデータセットの分析は、そのサイズ、標準化の欠如、実際のデータにアクセスする上での困難さを示している。より重要な懸念は、シミュレーションまたはビデオ・ツー・イベントの手法によって生成される合成データセットの台頭である。
論文参考訳（メタデータ） (2026-02-17T19:46:33Z)
From Bugs to Benchmarks: A Comprehensive Survey of Software Defect Datasets [19.140541190998842]
ソフトウェア欠陥データセットは、ソフトウェアバグとその関連情報の集合である。長年にわたり、多くのソフトウェア欠陥データセットが開発され、コミュニティに豊富なリソースを提供してきた。この記事では、132のソフトウェア欠陥データセットを包括的に調査する。
論文参考訳（メタデータ） (2025-04-24T23:07:04Z)
Unreflected Use of Tabular Data Repositories Can Undermine Research Quality [41.71226316878786]
データレポジトリからのデータセットの未修正使用は、研究品質と科学的厳密さを低下させた可能性がある、と我々は主張する。本図は,(1)最適なモデル選択戦略,(2)強いベースラインを見渡すこと,(3)不適切な前処理を行うことによる,データリポジトリのユーザによる落とし穴の回避を支援する。
論文参考訳（メタデータ） (2025-03-12T08:41:49Z)
A Guide to Misinformation Detection Datasets [5.673951146506489]
このガイドは、高品質なデータを取得し、より効果的な評価を行うためのロードマップを提供することを目的としている。すべてのデータセットやその他のアーティファクトはhttps://misinfo-datasets.complexdatalab.com/.comで入手できる。
論文参考訳（メタデータ） (2024-11-07T18:47:39Z)
A CLIP-Powered Framework for Robust and Generalizable Data Selection [51.46695086779598]
実世界のデータセットは、しばしば冗長でノイズの多いデータを含み、トレーニング効率とモデルパフォーマンスに悪影響を及ぼす。データ選択は、データセット全体から最も代表的なサンプルを特定することを約束している。より堅牢で一般化可能なサンプル選択にマルチモーダル情報を活用するCLIPを利用した新しいデータ選択フレームワークを提案する。
論文参考訳（メタデータ） (2024-10-15T03:00:58Z)
Data Advisor: Dynamic Data Curation for Safety Alignment of Large Language Models [79.65071553905021]
所望のデータセットの特徴を考慮したデータ生成手法であるデータアドバイザを提案する。 Data Advisorは生成されたデータの状態を監視し、現在のデータセットの弱点を特定し、データ生成の次のイテレーションをアドバイスする。
論文参考訳（メタデータ） (2024-10-07T17:59:58Z)
Take the essence and discard the dross: A Rethinking on Data Selection for Fine-Tuning Large Language Models [36.22392593103493]
微調整された大規模言語モデル(LLM)のデータ選択は、既存のデータセットから高品質なサブセットを選択することを目的としている。既存の調査では、微調整フェーズの詳細な調査を見落としている。特徴抽出, 基準設計, セレクタ評価を含む新しい3段階の手法を導入し, これらの手法を体系的に分類し, 評価する。
論文参考訳（メタデータ） (2024-06-20T08:58:58Z)
A Survey on Data Selection for Language Models [148.300726396877]
データ選択方法は、トレーニングデータセットに含まれるデータポイントを決定することを目的としている。ディープラーニングは、主に実証的な証拠によって駆動され、大規模なデータに対する実験は高価である。広範なデータ選択研究のリソースを持つ組織はほとんどない。
論文参考訳（メタデータ） (2024-02-26T18:54:35Z)
Exploring Dataset-Scale Indicators of Data Quality [23.017200605976807]
現代のコンピュータビジョン基礎モデルは膨大な量のデータに基づいて訓練されており、経済と環境のコストが増大している。近年の研究では、データ品質の向上はデータ量の必要性を大幅に減らすことが示唆されている。与えられたデータセットの品質は、異なるサンプルレベルとデータセットレベルに分解できると仮定する。
論文参考訳（メタデータ） (2023-11-07T14:14:32Z)
Assessing Dataset Quality Through Decision Tree Characteristics in Autoencoder-Processed Spaces [0.30458514384586394]
データセットの品質がモデルトレーニングとパフォーマンスに深く影響していることを示します。以上の結果から,適切な特徴選択,適切なデータボリューム,データ品質の重要性が浮き彫りになった。この研究は、データアセスメントのプラクティスに関する貴重な洞察を提供し、より正確で堅牢な機械学習モデルの開発に寄与する。
論文参考訳（メタデータ） (2023-06-27T11:33:31Z)
Exploring the Potential of AI-Generated Synthetic Datasets: A Case Study on Telematics Data with ChatGPT [0.0]
この研究は、OpenAIの強力な言語モデルであるChatGPTを活用して、特にテレマティクス分野における合成データセットの構築と利用に力を入れている。このデータ作成プロセスを説明するために、合成テレマティクスデータセットの生成に焦点を当てたハンズオンケーススタディが実施されている。
論文参考訳（メタデータ） (2023-06-23T15:15:13Z)
A Comprehensive Survey of Dataset Distillation [73.15482472726555]
限られた計算能力で無制限に成長するデータを扱うことは困難になっている。ディープラーニング技術はこの10年で前例のない発展を遂げた。本稿では,多面的なデータセット蒸留の総合的な理解を提供する。
論文参考訳（メタデータ） (2023-01-13T15:11:38Z)
Advanced Data Augmentation Approaches: A Comprehensive Survey and Future directions [57.30984060215482]
データ拡張の背景、レビューされたデータ拡張技術の新しい包括的分類法、および各技術の強さと弱点(可能ならば)を提供する。また、画像分類、オブジェクト検出、セマンティックセグメンテーションなどの3つの一般的なコンピュータビジョンタスクに対して、データ拡張効果の総合的な結果を提供する。
論文参考訳（メタデータ） (2023-01-07T11:37:32Z)
Online Coreset Selection for Rehearsal-based Continual Learning [65.85595842458882]
継続的な学習では、後に再生されるトレーニング例(コアセット)のサブセットを格納し、破滅的な忘れを軽減します。提案するオンラインコアセット選択(OCS, Online Coreset Selection)は, 各イテレーションにおいて最も代表的で情報性の高いコアセットを選択するシンプルで効果的な方法である。提案手法は,過去のタスクに対して高親和性サンプルを選択しながら,目標データセットへのモデル適応を最大化し,破滅的忘れを直接的に抑制する。
論文参考訳（メタデータ） (2021-06-02T11:39:25Z)
Bringing the People Back In: Contesting Benchmark Machine Learning Datasets [11.00769651520502]
機械学習データの系譜である研究プログラムを概説し、これらのデータセットの作成方法と理由について検討する。機械学習におけるベンチマークデータセットを基盤として運用する方法を解説し、これらのデータセットについて4つの研究課題を提起する。
論文参考訳（メタデータ） (2020-07-14T23:22:13Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。