論文の概要: Active Data Acquisition in Autonomous Driving Simulation
- arxiv url: http://arxiv.org/abs/2306.13923v1
- Date: Sat, 24 Jun 2023 10:07:35 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-27 18:21:32.208436
- Title: Active Data Acquisition in Autonomous Driving Simulation
- Title(参考訳): 自律運転シミュレーションにおけるアクティブデータ取得
- Authors: Jianyu Lai, Zexuan Jia, Boao Li
- Abstract要約: 本稿では,アクティブデータ収集戦略の概念を提案する。
高品質なデータでは、コレクション密度の増加はデータセットの全体的な品質を改善することができる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Autonomous driving algorithms rely heavily on learning-based models, which
require large datasets for training. However, there is often a large amount of
redundant information in these datasets, while collecting and processing these
datasets can be time-consuming and expensive. To address this issue, this paper
proposes the concept of an active data-collecting strategy. For high-quality
data, increasing the collection density can improve the overall quality of the
dataset, ultimately achieving similar or even better results than the original
dataset with lower labeling costs and smaller dataset sizes. In this paper, we
design experiments to verify the quality of the collected dataset and to
demonstrate this strategy can significantly reduce labeling costs and dataset
size while improving the overall quality of the dataset, leading to better
performance of autonomous driving systems. The source code implementing the
proposed approach is publicly available on
https://github.com/Th1nkMore/carla_dataset_tools.
- Abstract(参考訳): 自律運転アルゴリズムは、トレーニングに大規模なデータセットを必要とする学習ベースのモデルに大きく依存する。
しかし、これらのデータセットには大量の冗長な情報があることが多い一方で、これらのデータセットの収集と処理には時間と費用がかかる。
そこで本研究では,アクティブデータ収集戦略の概念を提案する。
高品質なデータでは、コレクション密度を上げることでデータセット全体の品質が向上し、ラベリングコストが低くデータセットサイズが小さく、元のデータセットと同じような、あるいはさらに優れた結果が得られる。
本稿では、収集したデータセットの品質を検証する実験をデザインし、この戦略がデータセット全体の品質を改善しつつ、ラベリングコストとデータセットサイズを大幅に削減し、自動運転システムの性能を向上させることを実証する。
提案手法を実装するソースコードはhttps://github.com/th1nkmore/carla_dataset_toolsで公開されている。
関連論文リスト
- Improved Distribution Matching for Dataset Condensation [91.55972945798531]
本稿では,分布マッチングに基づく新しいデータセット凝縮法を提案する。
提案手法は,計算資源の少ない従来の最適化指向手法よりも優れている。
論文 参考訳(メタデータ) (2023-07-19T04:07:33Z) - Exploring Data Redundancy in Real-world Image Classification through
Data Selection [20.389636181891515]
ディープラーニングモデルはトレーニングに大量のデータを必要とすることが多く、結果としてコストが増大する。
実世界の画像データの冗長性を調べるために,シナプスインテリジェンスと勾配ノルムに基づく2つのデータ評価指標を提案する。
オンラインおよびオフラインのデータ選択アルゴリズムは、検査されたデータ値に基づいてクラスタリングとグループ化によって提案される。
論文 参考訳(メタデータ) (2023-06-25T03:31:05Z) - LargeST: A Benchmark Dataset for Large-Scale Traffic Forecasting [65.71129509623587]
道路交通予測はスマートシティのイニシアチブにおいて重要な役割を担い、ディープラーニングの力によって大きな進歩を遂げている。
しかし、現在の公開データセットで達成される有望な結果は、現実的なシナリオには適用できないかもしれない。
カリフォルニアで合計8,600のセンサーと5年間の時間カバレッジを含む、LargeSTベンチマークデータセットを紹介します。
論文 参考訳(メタデータ) (2023-06-14T05:48:36Z) - infoVerse: A Universal Framework for Dataset Characterization with
Multidimensional Meta-information [68.76707843019886]
infoVerseは、データセットの特徴付けのための普遍的なフレームワークである。
infoVerseは、様々なモデル駆動メタ情報を統合することで、データセットの多次元特性をキャプチャする。
実世界の3つのアプリケーション(データプルーニング、アクティブラーニング、データアノテーション)において、infoVerse空間で選択されたサンプルは、強いベースラインを一貫して上回る。
論文 参考訳(メタデータ) (2023-05-30T18:12:48Z) - RLBoost: Boosting Supervised Models using Deep Reinforcement Learning [0.0]
RLBoostは、深層強化学習戦略を用いて、特定のデータセットを評価し、新しいデータの品質を推定できるモデルを得るアルゴリズムである。
論文の結果から, このモデルでは, LOO, DataShapley, DVRLなどの最先端アルゴリズムよりも, より優れた, より安定した結果が得られることが示された。
論文 参考訳(メタデータ) (2023-05-23T14:38:33Z) - A Data-centric Framework for Improving Domain-specific Machine Reading
Comprehension Datasets [5.673449249014538]
低品質のデータは、高スループットアプリケーションで下流の問題を引き起こす可能性がある。
データ中心のアプローチでは、データセットの品質向上とモデルパフォーマンスの向上が重視される。
論文 参考訳(メタデータ) (2023-04-02T08:26:38Z) - A Survey of Dataset Refinement for Problems in Computer Vision Datasets [11.45536223418548]
大規模データセットはコンピュータビジョンの進歩に重要な役割を果たしてきた。
クラス不均衡、ノイズの多いラベル、データセットバイアス、高いリソースコストといった問題に悩まされることが多い。
データセット問題を解決するために、様々なデータ中心のソリューションが提案されている。
データセットを再構成することで、データセットの品質が向上します。
論文 参考訳(メタデータ) (2022-10-21T03:58:43Z) - DC-BENCH: Dataset Condensation Benchmark [79.18718490863908]
この研究は、データセットの凝縮に関する最初の大規模標準ベンチマークを提供する。
それは、凝縮法の生成可能性と有効性を包括的に反映する一連の評価から成り立っている。
ベンチマークライブラリは、将来の研究とアプリケーションを容易にするためにオープンソース化されている。
論文 参考訳(メタデータ) (2022-07-20T03:54:05Z) - A Proposal to Study "Is High Quality Data All We Need?" [8.122270502556374]
本稿では,高品質なベンチマークデータのサブセットの選択方法,および/または生成方法を検討するための実証的研究を提案する。
私たちは、タスクを学ぶために大きなデータセットが本当に必要かどうか、そして、高品質なデータの小さなサブセットが大きなデータセットを置き換えることができるかどうかに答えようとしています。
論文 参考訳(メタデータ) (2022-03-12T10:50:13Z) - LiDAR dataset distillation within bayesian active learning framework:
Understanding the effect of data augmentation [63.20765930558542]
アクティブラーニング(AL)は、アノテーションコストとデータセットサイズの削減に対処するため、最近再び注目されている。
本稿では,大規模なセマンティックKITTIデータセットの1/4分の1でALベースのデータセット蒸留を原理的に評価する。
我々は、選択したデータセット構成からのサンプルの60%のみを使用して、データ拡張が完全なデータセット精度を達成することを観察した。
論文 参考訳(メタデータ) (2022-02-06T00:04:21Z) - Efficient Conditional Pre-training for Transfer Learning [71.01129334495553]
本稿では,事前学習データセットから関連するサブセットを選択するための効率的なフィルタリング手法を提案する。
我々は、教師なし設定と教師なし設定の両方において、ImageNetで事前トレーニングを行うことで、我々の技術を検証する。
我々は、サブセットで利用可能なモデルをチューニングし、大規模なデータセットからフィルタリングされたデータセットで事前トレーニングすることで、標準のImageNet事前トレーニングを1~3%改善する。
論文 参考訳(メタデータ) (2020-11-20T06:16:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。