論文の概要: Are All Data Necessary? Efficient Data Pruning for Large-scale Autonomous Driving Dataset via Trajectory Entropy Maximization
- arxiv url: http://arxiv.org/abs/2512.19270v1
- Date: Mon, 22 Dec 2025 11:07:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:40.465877
- Title: Are All Data Necessary? Efficient Data Pruning for Large-scale Autonomous Driving Dataset via Trajectory Entropy Maximization
- Title(参考訳): 全データ必要か? 軌道エントロピー最大化による大規模自律運転データセットの効率的なデータプルーニング
- Authors: Zhaoyang Liu, Weitao Zhou, Junze Wen, Cheng Jing, Qian Cheng, Kun Jiang, Diange Yang,
- Abstract要約: 本稿では,モデルの性能を損なうことなく,トレーニングデータ量を削減できる情報理論データ解析手法を提案する。
提案手法は,運転データの軌跡分布情報エントロピーを評価し,モデルに依存しない方法で,元のデータセットの統計特性を保存する高値サンプルを反復的に選択する。
- 参考スコア(独自算出の注目度): 14.334231059033442
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Collecting large-scale naturalistic driving data is essential for training robust autonomous driving planners. However, real-world datasets often contain a substantial amount of repetitive and low-value samples, which lead to excessive storage costs and bring limited benefits to policy learning. To address this issue, we propose an information-theoretic data pruning method that effectively reduces the training data volume without compromising model performance. Our approach evaluates the trajectory distribution information entropy of driving data and iteratively selects high-value samples that preserve the statistical characteristics of the original dataset in a model-agnostic manner. From a theoretical perspective, we show that maximizing trajectory entropy effectively constrains the Kullback-Leibler divergence between the pruned subset and the original data distribution, thereby maintaining generalization ability. Comprehensive experiments on the NuPlan benchmark with a large-scale imitation learning framework demonstrate that the proposed method can reduce the dataset size by up to 40% while maintaining closed-loop performance. This work provides a lightweight and theoretically grounded approach for scalable data management and efficient policy learning in autonomous driving systems.
- Abstract(参考訳): 大規模自然主義運転データ収集は、堅牢な自律運転プランナーの訓練に不可欠である。
しかし、実世界のデータセットは、しばしばかなりの量の繰り返しと低い値のサンプルを含んでおり、過剰なストレージコストをもたらし、ポリシー学習に限られた利益をもたらす。
そこで本研究では,モデルの性能を損なうことなく,効果的にトレーニングデータ量を削減できる情報理論データ解析手法を提案する。
提案手法は,運転データの軌跡分布情報エントロピーを評価し,モデルに依存しない方法で,元のデータセットの統計特性を保存する高値サンプルを反復的に選択する。
理論的観点からは、軌道エントロピーの最大化は、プルーンド部分集合と元のデータ分布の間のクルバック・リーブラーの発散を効果的に抑制し、一般化能力を維持できることを示す。
大規模な模倣学習フレームワークを用いたNuPlanベンチマークの総合的な実験により,提案手法はクローズドループ性能を維持しながら,データセットサイズを最大40%削減できることを示した。
この研究は、自律運転システムにおけるスケーラブルなデータ管理と効率的なポリシー学習のための軽量で理論的に基礎付けられたアプローチを提供する。
関連論文リスト
- Data-Efficient RLVR via Off-Policy Influence Guidance [84.60336960383867]
本研究は,学習目標に対する各データポイントの寄与を推定するために,影響関数を用いた理論的基礎的アプローチを提案する。
textbfCurriculum textbfRL with textbfOff-textbfPolicy textInfluence Guide (textbfCROPI) は多段階のRLフレームワークで、現在のポリシーにおいて最も影響力のあるデータを反復的に選択する。
論文 参考訳(メタデータ) (2025-10-30T13:40:52Z) - SPaRFT: Self-Paced Reinforcement Fine-Tuning for Large Language Models [51.74498855100541]
大規模言語モデル(LLM)は、強化学習(RL)による微調整時に強い推論能力を示す。
トレーニング対象のモデルの性能に基づいて,効率的な学習を可能にする自己評価学習フレームワークである textbfSPaRFT を提案する。
論文 参考訳(メタデータ) (2025-08-07T03:50:48Z) - Capturing the Temporal Dependence of Training Data Influence [100.91355498124527]
我々は、訓練中にデータポイントを除去する影響を定量化する、軌跡特異的な離脱の影響の概念を定式化する。
軌道固有LOOの効率的な近似を可能にする新しい手法であるデータ値埋め込みを提案する。
データバリューの埋め込みは、トレーニングデータの順序付けをキャプチャするので、モデルトレーニングのダイナミクスに関する貴重な洞察を提供する。
論文 参考訳(メタデータ) (2024-12-12T18:28:55Z) - A Scalable Approach to Covariate and Concept Drift Management via Adaptive Data Segmentation [0.562479170374811]
多くの現実世界のアプリケーションでは、継続的機械学習(ML)システムは不可欠だが、データドリフトが困難である。
伝統的なドリフト適応法は典型的にはアンサンブル技術を用いてモデルを更新し、しばしばドリフトされた歴史データを破棄する。
ドリフトしたデータをモデルトレーニングプロセスに明示的に組み込むことは、モデルの精度と堅牢性を大幅に向上させる、と我々は主張する。
論文 参考訳(メタデータ) (2024-11-23T17:35:23Z) - Perception Without Vision for Trajectory Prediction: Ego Vehicle Dynamics as Scene Representation for Efficient Active Learning in Autonomous Driving [0.0]
本研究では,アクティブラーニングフレームワークにおける軌道状態とサンプリング戦略のクラスタリング手法を提案する。
トラジェクティブ・ステートインフォームド・アクティブ・ラーニングを統合することで、より効率的で堅牢な自動運転システムが実現可能であることを示す。
論文 参考訳(メタデータ) (2024-05-15T02:54:11Z) - Pre-training on Synthetic Driving Data for Trajectory Prediction [61.520225216107306]
軌道予測におけるデータ不足の問題を緩和するパイプラインレベルのソリューションを提案する。
我々は、駆動データを生成するためにHDマップ拡張とトラジェクトリ合成を採用し、それらを事前学習することで表現を学習する。
我々は、データ拡張と事前学習戦略の有効性を実証するための広範な実験を行う。
論文 参考訳(メタデータ) (2023-09-18T19:49:22Z) - Improved Distribution Matching for Dataset Condensation [91.55972945798531]
本稿では,分布マッチングに基づく新しいデータセット凝縮法を提案する。
提案手法は,計算資源の少ない従来の最適化指向手法よりも優れている。
論文 参考訳(メタデータ) (2023-07-19T04:07:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。