Fugu-MT 論文翻訳(概要): A Survey of Dataset Refinement for Problems in Computer Vision Datasets

論文の概要: A Survey of Dataset Refinement for Problems in Computer Vision Datasets

arxiv url: http://arxiv.org/abs/2210.11717v2
Date: Fri, 6 Oct 2023 15:17:59 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-13 15:57:55.534226
Title: A Survey of Dataset Refinement for Problems in Computer Vision Datasets
Title（参考訳）: コンピュータビジョンデータセットにおける問題に対するデータセットのリファインメントに関する調査
Authors: Zhijing Wan, Zhixiang Wang, CheukTing Chung and Zheng Wang
Abstract要約: 大規模データセットはコンピュータビジョンの進歩に重要な役割を果たしてきた。クラス不均衡、ノイズの多いラベル、データセットバイアス、高いリソースコストといった問題に悩まされることが多い。データセット問題を解決するために、様々なデータ中心のソリューションが提案されている。データセットを再構成することで、データセットの品質が向上します。
参考スコア（独自算出の注目度）: 11.45536223418548
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large-scale datasets have played a crucial role in the advancement of computer vision. However, they often suffer from problems such as class imbalance, noisy labels, dataset bias, or high resource costs, which can inhibit model performance and reduce trustworthiness. With the advocacy of data-centric research, various data-centric solutions have been proposed to solve the dataset problems mentioned above. They improve the quality of datasets by re-organizing them, which we call dataset refinement. In this survey, we provide a comprehensive and structured overview of recent advances in dataset refinement for problematic computer vision datasets. Firstly, we summarize and analyze the various problems encountered in large-scale computer vision datasets. Then, we classify the dataset refinement algorithms into three categories based on the refinement process: data sampling, data subset selection, and active learning. In addition, we organize these dataset refinement methods according to the addressed data problems and provide a systematic comparative description. We point out that these three types of dataset refinement have distinct advantages and disadvantages for dataset problems, which informs the choice of the data-centric method appropriate to a particular research objective. Finally, we summarize the current literature and propose potential future research topics.
Abstract（参考訳）: 大規模データセットはコンピュータビジョンの進歩において重要な役割を果たす。しかし、クラス不均衡、ノイズラベル、データセットバイアス、高リソースコストといった問題に悩まされ、モデルの性能を阻害し、信頼性を低下させる。データ中心の研究の提唱により、上述のデータセット問題を解決するために、様々なデータ中心のソリューションが提案されている。データセットを再構成することで、データセットの品質が向上します。本稿では,問題のあるコンピュータビジョンデータセットに対するデータセット改良の最近の進歩について,包括的かつ構造化された概観を提供する。まず,大規模コンピュータビジョンデータセットで発生する様々な問題を要約し,解析する。次に,データサンプリング,データサブセット選択,アクティブラーニングの3つのカテゴリに分類した。さらに,これらのデータセットの改良手法を,対応データ問題に応じて整理し,体系的な比較記述を提供する。これらの3種類のデータセット改善は、特定の研究目的に適したデータ中心手法の選択を通知するデータセット問題に対して、明確な利点と欠点があることを指摘する。最後に,現在の文献を要約し,今後の研究課題を提案する。

関連論文リスト

From Bugs to Benchmarks: A Comprehensive Survey of Software Defect Datasets [19.140541190998842]
ソフトウェア欠陥データセットは、ソフトウェアバグとその関連情報の集合である。長年にわたり、多くのソフトウェア欠陥データセットが開発され、コミュニティに豊富なリソースを提供してきた。この記事では、132のソフトウェア欠陥データセットを包括的に調査する。
論文参考訳（メタデータ） (2025-04-24T23:07:04Z)
Unreflected Use of Tabular Data Repositories Can Undermine Research Quality [41.71226316878786]
データレポジトリからのデータセットの未修正使用は、研究品質と科学的厳密さを低下させた可能性がある、と我々は主張する。本図は,(1)最適なモデル選択戦略,(2)強いベースラインを見渡すこと,(3)不適切な前処理を行うことによる,データリポジトリのユーザによる落とし穴の回避を支援する。
論文参考訳（メタデータ） (2025-03-12T08:41:49Z)
A Guide to Misinformation Detection Datasets [5.673951146506489]
このガイドは、高品質なデータを取得し、より効果的な評価を行うためのロードマップを提供することを目的としている。すべてのデータセットやその他のアーティファクトはhttps://misinfo-datasets.complexdatalab.com/.comで入手できる。
論文参考訳（メタデータ） (2024-11-07T18:47:39Z)
A CLIP-Powered Framework for Robust and Generalizable Data Selection [51.46695086779598]
実世界のデータセットは、しばしば冗長でノイズの多いデータを含み、トレーニング効率とモデルパフォーマンスに悪影響を及ぼす。データ選択は、データセット全体から最も代表的なサンプルを特定することを約束している。より堅牢で一般化可能なサンプル選択にマルチモーダル情報を活用するCLIPを利用した新しいデータ選択フレームワークを提案する。
論文参考訳（メタデータ） (2024-10-15T03:00:58Z)
Data Advisor: Dynamic Data Curation for Safety Alignment of Large Language Models [79.65071553905021]
所望のデータセットの特徴を考慮したデータ生成手法であるデータアドバイザを提案する。 Data Advisorは生成されたデータの状態を監視し、現在のデータセットの弱点を特定し、データ生成の次のイテレーションをアドバイスする。
論文参考訳（メタデータ） (2024-10-07T17:59:58Z)
Take the essence and discard the dross: A Rethinking on Data Selection for Fine-Tuning Large Language Models [36.22392593103493]
微調整された大規模言語モデル(LLM)のデータ選択は、既存のデータセットから高品質なサブセットを選択することを目的としている。既存の調査では、微調整フェーズの詳細な調査を見落としている。特徴抽出, 基準設計, セレクタ評価を含む新しい3段階の手法を導入し, これらの手法を体系的に分類し, 評価する。
論文参考訳（メタデータ） (2024-06-20T08:58:58Z)
A Survey on Data Selection for Language Models [148.300726396877]
データ選択方法は、トレーニングデータセットに含まれるデータポイントを決定することを目的としている。ディープラーニングは、主に実証的な証拠によって駆動され、大規模なデータに対する実験は高価である。広範なデータ選択研究のリソースを持つ組織はほとんどない。
論文参考訳（メタデータ） (2024-02-26T18:54:35Z)
Exploring Dataset-Scale Indicators of Data Quality [23.017200605976807]
現代のコンピュータビジョン基礎モデルは膨大な量のデータに基づいて訓練されており、経済と環境のコストが増大している。近年の研究では、データ品質の向上はデータ量の必要性を大幅に減らすことが示唆されている。与えられたデータセットの品質は、異なるサンプルレベルとデータセットレベルに分解できると仮定する。
論文参考訳（メタデータ） (2023-11-07T14:14:32Z)
Assessing Dataset Quality Through Decision Tree Characteristics in Autoencoder-Processed Spaces [0.30458514384586394]
データセットの品質がモデルトレーニングとパフォーマンスに深く影響していることを示します。以上の結果から,適切な特徴選択,適切なデータボリューム,データ品質の重要性が浮き彫りになった。この研究は、データアセスメントのプラクティスに関する貴重な洞察を提供し、より正確で堅牢な機械学習モデルの開発に寄与する。
論文参考訳（メタデータ） (2023-06-27T11:33:31Z)
Exploring the Potential of AI-Generated Synthetic Datasets: A Case Study on Telematics Data with ChatGPT [0.0]
この研究は、OpenAIの強力な言語モデルであるChatGPTを活用して、特にテレマティクス分野における合成データセットの構築と利用に力を入れている。このデータ作成プロセスを説明するために、合成テレマティクスデータセットの生成に焦点を当てたハンズオンケーススタディが実施されている。
論文参考訳（メタデータ） (2023-06-23T15:15:13Z)
A Comprehensive Survey of Dataset Distillation [73.15482472726555]
限られた計算能力で無制限に成長するデータを扱うことは困難になっている。ディープラーニング技術はこの10年で前例のない発展を遂げた。本稿では,多面的なデータセット蒸留の総合的な理解を提供する。
論文参考訳（メタデータ） (2023-01-13T15:11:38Z)
Advanced Data Augmentation Approaches: A Comprehensive Survey and Future directions [57.30984060215482]
データ拡張の背景、レビューされたデータ拡張技術の新しい包括的分類法、および各技術の強さと弱点(可能ならば)を提供する。また、画像分類、オブジェクト検出、セマンティックセグメンテーションなどの3つの一般的なコンピュータビジョンタスクに対して、データ拡張効果の総合的な結果を提供する。
論文参考訳（メタデータ） (2023-01-07T11:37:32Z)
Online Coreset Selection for Rehearsal-based Continual Learning [65.85595842458882]
継続的な学習では、後に再生されるトレーニング例(コアセット)のサブセットを格納し、破滅的な忘れを軽減します。提案するオンラインコアセット選択(OCS, Online Coreset Selection)は, 各イテレーションにおいて最も代表的で情報性の高いコアセットを選択するシンプルで効果的な方法である。提案手法は,過去のタスクに対して高親和性サンプルを選択しながら,目標データセットへのモデル適応を最大化し,破滅的忘れを直接的に抑制する。
論文参考訳（メタデータ） (2021-06-02T11:39:25Z)
Bringing the People Back In: Contesting Benchmark Machine Learning Datasets [11.00769651520502]
機械学習データの系譜である研究プログラムを概説し、これらのデータセットの作成方法と理由について検討する。機械学習におけるベンチマークデータセットを基盤として運用する方法を解説し、これらのデータセットについて4つの研究課題を提起する。
論文参考訳（メタデータ） (2020-07-14T23:22:13Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。