論文の概要: A Data-Driven Novelty Score for Diverse In-Vehicle Data Recording
- arxiv url: http://arxiv.org/abs/2507.04529v1
- Date: Sun, 06 Jul 2025 20:46:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-08 15:46:35.226301
- Title: A Data-Driven Novelty Score for Diverse In-Vehicle Data Recording
- Title(参考訳): 異種車内データ記録のためのデータ駆動ノベルティスコア
- Authors: Philipp Reis, Joshua Ransiek, David Petri, Jacob Langner, Eric Sax,
- Abstract要約: 現実世界のデータ収集は、しばしば一般的なシーンやオブジェクトに偏りがあり、新しいケースは表現されていない。
本研究では,オブジェクトレベルの新規性検出に着目したリアルタイムデータ選択手法を提案する。
提案手法は,32フレーム/秒のリアルタイム展開をサポートし,時間とともに一定となる。
- 参考スコア(独自算出の注目度): 0.1398098625978622
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: High-quality datasets are essential for training robust perception systems in autonomous driving. However, real-world data collection is often biased toward common scenes and objects, leaving novel cases underrepresented. This imbalance hinders model generalization and compromises safety. The core issue is the curse of rarity. Over time, novel events occur infrequently, and standard logging methods fail to capture them effectively. As a result, large volumes of redundant data are stored, while critical novel cases are diluted, leading to biased datasets. This work presents a real-time data selection method focused on object-level novelty detection to build more balanced and diverse datasets. The method assigns a data-driven novelty score to image frames using a novel dynamic Mean Shift algorithm. It models normal content based on mean and covariance statistics to identify frames with novel objects, discarding those with redundant elements. The main findings show that reducing the training dataset size with this method can improve model performance, whereas higher redundancy tends to degrade it. Moreover, as data redundancy increases, more aggressive filtering becomes both possible and beneficial. While random sampling can offer some gains, it often leads to overfitting and unpredictability in outcomes. The proposed method supports real-time deployment with 32 frames per second and is constant over time. By continuously updating the definition of normal content, it enables efficient detection of novelties in a continuous data stream.
- Abstract(参考訳): 高品質なデータセットは、自律運転における堅牢な認識システムのトレーニングに不可欠である。
しかし、現実世界のデータ収集は、しばしば一般的なシーンやオブジェクトに偏りがあり、新しいケースは表現されていない。
この不均衡はモデルの一般化を妨げ、安全性を損なう。
問題は希薄さの呪いである。
時間とともに、新しいイベントは頻繁に発生し、標準的なロギングメソッドはそれらを効果的にキャプチャできない。
その結果、大量の冗長データが格納され、重要な新規ケースが希釈され、バイアスのあるデータセットが生成される。
この研究は、よりバランスよく多様なデータセットを構築するために、オブジェクトレベルのノベルティ検出に焦点を当てたリアルタイムデータ選択方法を提案する。
この手法は,新しいダイナミック平均シフトアルゴリズムを用いて,画像フレームにデータ駆動ノベルティスコアを割り当てる。
平均と共分散統計に基づいて通常のコンテンツをモデル化し、新しいオブジェクトでフレームを識別し、冗長な要素でそれらを捨てる。
本手法によりトレーニングデータセットのサイズを小さくするとモデル性能が向上するが,高い冗長性では劣化する傾向にある。
さらに、データ冗長性が増大するにつれて、より積極的なフィルタリングが可能かつ有益になる。
ランダムサンプリングはいくつかの利益をもたらすが、多くの場合、過度に適合し、結果の予測不可能につながる。
提案手法は,32フレーム/秒のリアルタイム展開をサポートし,時間とともに一定となる。
通常のコンテンツの定義を継続的に更新することにより、連続データストリームにおける新規性の検出を効率的に行うことができる。
関連論文リスト
- Self-attention-based Diffusion Model for Time-series Imputation in Partial Blackout Scenarios [23.160007389272575]
時系列データの欠落値は、機械学習のパフォーマンスを損なう可能性がある。
これまでの研究は、ランダムで完全なブラックアウトと予測シナリオにおいて、欠落したデータの計算に取り組んできた。
本稿では,自己意図と拡散過程を用いた2段階計算プロセスを導入し,特徴量と時間的相関をモデル化する。
論文 参考訳(メタデータ) (2025-03-03T16:58:15Z) - Enhancing Consistency and Mitigating Bias: A Data Replay Approach for Incremental Learning [93.90047628101155]
ディープラーニングシステムは、一連のタスクから学ぶとき、破滅的な忘れがちだ。
これを解決するために、新しいタスク学習中に過去のタスクからのデータを再生する手法を提案する。
しかし、メモリの制約やデータプライバシーの問題により、実際には期待できない。
論文 参考訳(メタデータ) (2024-01-12T12:51:12Z) - LARA: A Light and Anti-overfitting Retraining Approach for Unsupervised
Time Series Anomaly Detection [49.52429991848581]
深部変分自動エンコーダに基づく時系列異常検出手法(VAE)のための光・反オーバーフィット学習手法(LARA)を提案する。
本研究の目的は,1) 再学習過程を凸問題として定式化し, 過度に収束できること,2) 履歴データを保存せずに活用するルミネートブロックを設計すること,3) 潜在ベクトルと再構成データの微調整を行うと, 線形形成が基底真実と微調整されたブロックとの誤りを最小に調整できることを数学的に証明することである。
論文 参考訳(メタデータ) (2023-10-09T12:36:16Z) - STING: Self-attention based Time-series Imputation Networks using GAN [4.052758394413726]
GANを用いたSING(Self-attention based Time-Series Imputation Networks)を提案する。
我々は、時系列の潜在表現を学習するために、生成的対向ネットワークと双方向リカレントニューラルネットワークを利用する。
3つの実世界のデータセットによる実験結果から、STINGは既存の最先端手法よりも計算精度が優れていることが示された。
論文 参考訳(メタデータ) (2022-09-22T06:06:56Z) - Discrete Key-Value Bottleneck [95.61236311369821]
ディープニューラルネットワークは、データストリームがi.d.d.であり、ラベル付きデータが豊富である分類タスクでうまく機能する。
この課題に対処した強力なアプローチの1つは、手軽に利用可能なデータ量に対する大規模なエンコーダの事前トレーニングと、タスク固有のチューニングである。
しかし、新しいタスクを考えると、多くの重みを微調整する必要があるため、エンコーダの重みを更新することは困難であり、その結果、以前のタスクに関する情報を忘れてしまう。
この問題に対処するモデルアーキテクチャを提案し,個別かつ学習可能なキー値符号のペアを含む離散的ボトルネックの上に構築する。
論文 参考訳(メタデータ) (2022-07-22T17:52:30Z) - Training Deep Normalizing Flow Models in Highly Incomplete Data
Scenarios with Prior Regularization [13.985534521589257]
ハイパウシティシナリオにおけるデータ分布の学習を容易にする新しいフレームワークを提案する。
提案手法は,不完全データから学習過程を協調最適化タスクとして行うことに由来する。
論文 参考訳(メタデータ) (2021-04-03T20:57:57Z) - Anomaly Detection at Scale: The Case for Deep Distributional Time Series
Models [14.621700495712647]
我々のアプローチの主な特徴は、実値または実値のベクトルからなる時系列をモデル化するのではなく、実値(またはベクトル)上の確率分布の時系列をモデル化することである。
本手法は,数百万の時系列上の異常検出とスケールのストリーミングに有効である。
我々は,オープンソースの異常検出ツールを,実世界のデータセットに対する平均17%の改善率で上回っていることを示す。
論文 参考訳(メタデータ) (2020-07-30T15:48:55Z) - Evaluating Prediction-Time Batch Normalization for Robustness under
Covariate Shift [81.74795324629712]
我々は予測時間バッチ正規化と呼び、共変量シフト時のモデル精度とキャリブレーションを大幅に改善する。
予測時間バッチ正規化は、既存の最先端アプローチに相補的な利点をもたらし、ロバスト性を向上させることを示します。
この手法は、事前トレーニングと併用して使用すると、さまざまな結果が得られるが、より自然なタイプのデータセットシフトでは、パフォーマンスが良くないようだ。
論文 参考訳(メタデータ) (2020-06-19T05:08:43Z) - Deep Context-Aware Novelty Detection [6.599344783327053]
ノベルティ検出の一般的な仮定は、「正規」データと「ノーベル」データの双方の分布が静的であるということである。
例えば、データが時間とともに進化するシナリオや、通常と新規の定義がコンテキスト情報に依存するシナリオなどです。
これは、あるシナリオにおける正規データの分布が別のシナリオにおける新規データの分布と似ているデータセット上でモデルをトレーニングしようとする場合、重大な困難を引き起こす可能性がある。
論文 参考訳(メタデータ) (2020-06-01T18:02:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。