論文の概要: Active Data Acquisition in Autonomous Driving Simulation
- arxiv url: http://arxiv.org/abs/2306.13923v1
- Date: Sat, 24 Jun 2023 10:07:35 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-27 18:21:32.208436
- Title: Active Data Acquisition in Autonomous Driving Simulation
- Title(参考訳): 自律運転シミュレーションにおけるアクティブデータ取得
- Authors: Jianyu Lai, Zexuan Jia, Boao Li
- Abstract要約: 本稿では,アクティブデータ収集戦略の概念を提案する。
高品質なデータでは、コレクション密度の増加はデータセットの全体的な品質を改善することができる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Autonomous driving algorithms rely heavily on learning-based models, which
require large datasets for training. However, there is often a large amount of
redundant information in these datasets, while collecting and processing these
datasets can be time-consuming and expensive. To address this issue, this paper
proposes the concept of an active data-collecting strategy. For high-quality
data, increasing the collection density can improve the overall quality of the
dataset, ultimately achieving similar or even better results than the original
dataset with lower labeling costs and smaller dataset sizes. In this paper, we
design experiments to verify the quality of the collected dataset and to
demonstrate this strategy can significantly reduce labeling costs and dataset
size while improving the overall quality of the dataset, leading to better
performance of autonomous driving systems. The source code implementing the
proposed approach is publicly available on
https://github.com/Th1nkMore/carla_dataset_tools.
- Abstract(参考訳): 自律運転アルゴリズムは、トレーニングに大規模なデータセットを必要とする学習ベースのモデルに大きく依存する。
しかし、これらのデータセットには大量の冗長な情報があることが多い一方で、これらのデータセットの収集と処理には時間と費用がかかる。
そこで本研究では,アクティブデータ収集戦略の概念を提案する。
高品質なデータでは、コレクション密度を上げることでデータセット全体の品質が向上し、ラベリングコストが低くデータセットサイズが小さく、元のデータセットと同じような、あるいはさらに優れた結果が得られる。
本稿では、収集したデータセットの品質を検証する実験をデザインし、この戦略がデータセット全体の品質を改善しつつ、ラベリングコストとデータセットサイズを大幅に削減し、自動運転システムの性能を向上させることを実証する。
提案手法を実装するソースコードはhttps://github.com/th1nkmore/carla_dataset_toolsで公開されている。
関連論文リスト
- A CLIP-Powered Framework for Robust and Generalizable Data Selection [51.46695086779598]
実世界のデータセットは、しばしば冗長でノイズの多いデータを含み、トレーニング効率とモデルパフォーマンスに悪影響を及ぼす。
データ選択は、データセット全体から最も代表的なサンプルを特定することを約束している。
より堅牢で一般化可能なサンプル選択にマルチモーダル情報を活用するCLIPを利用した新しいデータ選択フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-15T03:00:58Z) - TAGCOS: Task-agnostic Gradient Clustered Coreset Selection for Instruction Tuning Data [29.45013725650798]
完全なデータセットに匹敵するパフォーマンスを達成する命令データセットのサブセットを抽出することが不可欠である。
タスク非依存のグラディエントクラスタ化コレセット選択(TAGCOS)を提案する。
具体的には、サンプル勾配をデータ表現として利用し、類似したデータをグループ化するためにクラスタリングを行い、コアセット選択に効率的なグリーディアルゴリズムを適用する。
論文 参考訳(メタデータ) (2024-07-21T17:59:20Z) - Automatic Data Curation for Self-Supervised Learning: A Clustering-Based Approach [36.47860223750303]
自己教師付き事前学習のための高品質データセットの自動キュレーションの問題点を考察する。
これらの基準をすべて満たしたクラスタリングに基づく手法を提案する。
我々の方法は、大規模で多様なデータリポジトリ上で、$k$-meansの連続的かつ階層的なアプリケーションを含む。
論文 参考訳(メタデータ) (2024-05-24T14:58:51Z) - Improved Distribution Matching for Dataset Condensation [91.55972945798531]
本稿では,分布マッチングに基づく新しいデータセット凝縮法を提案する。
提案手法は,計算資源の少ない従来の最適化指向手法よりも優れている。
論文 参考訳(メタデータ) (2023-07-19T04:07:33Z) - LargeST: A Benchmark Dataset for Large-Scale Traffic Forecasting [65.71129509623587]
道路交通予測はスマートシティのイニシアチブにおいて重要な役割を担い、ディープラーニングの力によって大きな進歩を遂げている。
しかし、現在の公開データセットで達成される有望な結果は、現実的なシナリオには適用できないかもしれない。
カリフォルニアで合計8,600のセンサーと5年間の時間カバレッジを含む、LargeSTベンチマークデータセットを紹介します。
論文 参考訳(メタデータ) (2023-06-14T05:48:36Z) - RLBoost: Boosting Supervised Models using Deep Reinforcement Learning [0.0]
RLBoostは、深層強化学習戦略を用いて、特定のデータセットを評価し、新しいデータの品質を推定できるモデルを得るアルゴリズムである。
論文の結果から, このモデルでは, LOO, DataShapley, DVRLなどの最先端アルゴリズムよりも, より優れた, より安定した結果が得られることが示された。
論文 参考訳(メタデータ) (2023-05-23T14:38:33Z) - DC-BENCH: Dataset Condensation Benchmark [79.18718490863908]
この研究は、データセットの凝縮に関する最初の大規模標準ベンチマークを提供する。
それは、凝縮法の生成可能性と有効性を包括的に反映する一連の評価から成り立っている。
ベンチマークライブラリは、将来の研究とアプリケーションを容易にするためにオープンソース化されている。
論文 参考訳(メタデータ) (2022-07-20T03:54:05Z) - A Proposal to Study "Is High Quality Data All We Need?" [8.122270502556374]
本稿では,高品質なベンチマークデータのサブセットの選択方法,および/または生成方法を検討するための実証的研究を提案する。
私たちは、タスクを学ぶために大きなデータセットが本当に必要かどうか、そして、高品質なデータの小さなサブセットが大きなデータセットを置き換えることができるかどうかに答えようとしています。
論文 参考訳(メタデータ) (2022-03-12T10:50:13Z) - LiDAR dataset distillation within bayesian active learning framework:
Understanding the effect of data augmentation [63.20765930558542]
アクティブラーニング(AL)は、アノテーションコストとデータセットサイズの削減に対処するため、最近再び注目されている。
本稿では,大規模なセマンティックKITTIデータセットの1/4分の1でALベースのデータセット蒸留を原理的に評価する。
我々は、選択したデータセット構成からのサンプルの60%のみを使用して、データ拡張が完全なデータセット精度を達成することを観察した。
論文 参考訳(メタデータ) (2022-02-06T00:04:21Z) - Efficient Conditional Pre-training for Transfer Learning [71.01129334495553]
本稿では,事前学習データセットから関連するサブセットを選択するための効率的なフィルタリング手法を提案する。
我々は、教師なし設定と教師なし設定の両方において、ImageNetで事前トレーニングを行うことで、我々の技術を検証する。
我々は、サブセットで利用可能なモデルをチューニングし、大規模なデータセットからフィルタリングされたデータセットで事前トレーニングすることで、標準のImageNet事前トレーニングを1~3%改善する。
論文 参考訳(メタデータ) (2020-11-20T06:16:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。