論文の概要: A Feedback-Control Framework for Efficient Dataset Collection from In-Vehicle Data Streams
- arxiv url: http://arxiv.org/abs/2511.03239v1
- Date: Wed, 05 Nov 2025 07:03:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-06 18:19:32.364842
- Title: A Feedback-Control Framework for Efficient Dataset Collection from In-Vehicle Data Streams
- Title(参考訳): 車載データストリームからの効率的なデータセット収集のためのフィードバック制御フレームワーク
- Authors: Philipp Reis, Philipp Rigoll, Christian Steinhauser, Jacob Langner, Eric Sax,
- Abstract要約: 本稿では,閉ループ制御問題としてデータ収集を定式化するパラダイムであるacFCDCを紹介する。
acFCDCは、オンライン確率モデルを用いて収集されたデータ分布の状態を連続的に近似する。
実データストリームの実験では、acFCDCはよりバランスのとれたデータセットをSI25.9%$で生成し、データストレージをSI39.8パーセント$で削減している。
- 参考スコア(独自算出の注目度): 0.8971132850029493
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Modern AI systems are increasingly constrained not by model capacity but by the quality and diversity of their data. Despite growing emphasis on data-centric AI, most datasets are still gathered in an open-loop manner which accumulates redundant samples without feedback from the current coverage. This results in inefficient storage, costly labeling, and limited generalization. To address this, this paper introduces \ac{FCDC}, a paradigm that formulates data collection as a closed-loop control problem. \ac{FCDC} continuously approximates the state of the collected data distribution using an online probabilistic model and adaptively regulates sample retention using based on feedback signals such as likelihood and Mahalanobis distance. Through this feedback mechanism, the system dynamically balances exploration and exploitation, maintains dataset diversity, and prevents redundancy from accumulating over time. Besides showcasing the controllability of \ac{FCDC} on a synthetic dataset, experiments on a real data stream show that \ac{FCDC} produces more balanced datasets by $\SI{25.9}{\percent}$ while reducing data storage by $\SI{39.8}{\percent}$. These results demonstrate that data collection itself can be actively controlled, transforming collection from a passive pipeline stage into a self-regulating, feedback-driven process at the core of data-centric AI.
- Abstract(参考訳): 現代のAIシステムは、モデルキャパシティではなく、データの品質と多様性によってますます制約されている。
データ中心のAIに重点を置いているにもかかわらず、ほとんどのデータセットは、現在のカバレッジからのフィードバックなしに冗長なサンプルを蓄積するオープンループ方式で収集されている。
これにより、非効率なストレージ、コストのかかるラベリング、限定的な一般化が実現される。
そこで本稿では,データ収集を閉ループ制御問題として定式化するパラダイムである \ac{FCDC} を紹介する。
\ac{FCDC} は、オンライン確率モデルを用いて収集したデータ分布の状態を連続的に近似し、確率やマハラノビス距離などのフィードバック信号に基づいてサンプル保持を適応的に制御する。
このフィードバックメカニズムを通じて、システムは探索とエクスプロイトの動的バランスを保ち、データセットの多様性を維持し、時間の経過とともに冗長性が蓄積されるのを防ぐ。
合成データセット上での \ac{FCDC} の制御性を示すだけでなく、実際のデータストリームの実験では、 \ac{FCDC} はよりバランスのとれたデータセットを$\SI{25.9}{\percent}$で生成し、データストレージを$\SI{39.8}{\percent}$で削減している。
これらの結果は、データ収集自体をアクティブに制御できることを示し、受動的パイプラインステージからデータ中心AIの中核における自己制御型フィードバック駆動プロセスにコレクションを変換する。
関連論文リスト
- An adaptive data sampling strategy for stabilizing dynamical systems via controller inference [0.5261718469769449]
本稿では,データ収集時の不安定性を回避するため,システムの安定化を同時に図りながらデータを生成する適応型サンプリング手法を提案する。
軽微な仮定の下では、この手法は、安定化に有益で最小のサイズのデータセットを確実に生成する。
提案手法は、エッジケースにおける安定化システムへの扉を開き、不安定な状態やデータ収集が本質的に困難である場合に制限することを示す。
論文 参考訳(メタデータ) (2025-06-02T15:56:17Z) - Squeeze Out Tokens from Sample for Finer-Grained Data Governance [13.976060747887471]
私たちは、データガバナンスを、"願望"アプローチから"願望"アプローチにアップグレードします。
当社のデュアルブランチDataJuicerは、よりきめ細かいサンプル内ガバナンスを適用しています。
情報トークンを絞り出し、画像テキストアライメントを強化します。
論文 参考訳(メタデータ) (2025-03-18T04:06:50Z) - Adding Conditional Control to Diffusion Models with Reinforcement Learning [68.06591097066811]
拡散モデルは、生成されたサンプルの特性を正確に制御できる強力な生成モデルである。
大規模なデータセットでトレーニングされたこれらの拡散モデルは成功したが、下流の微調整プロセスに新たな制御を導入する必要があることが多い。
本研究では、オフラインデータセットを用いた強化学習(RL)に基づく新しい制御手法を提案する。
論文 参考訳(メタデータ) (2024-06-17T22:00:26Z) - CUDC: A Curiosity-Driven Unsupervised Data Collection Method with
Adaptive Temporal Distances for Offline Reinforcement Learning [62.58375643251612]
本稿では,Curiosity-driven Unsupervised Data Collection (CUDC)法を提案する。
この適応的な到達性機構により、特徴表現は多様化することができ、エージェントは、好奇心で高品質なデータを集めるために自分自身をナビゲートすることができる。
実験的に、CUDCはDeepMindコントロールスイートの様々なダウンストリームオフラインRLタスクにおいて、既存の教師なし手法よりも効率と学習性能が優れている。
論文 参考訳(メタデータ) (2023-12-19T14:26:23Z) - Active Data Acquisition in Autonomous Driving Simulation [0.0]
本稿では,アクティブデータ収集戦略の概念を提案する。
高品質なデータでは、コレクション密度の増加はデータセットの全体的な品質を改善することができる。
論文 参考訳(メタデータ) (2023-06-24T10:07:35Z) - Targeted Analysis of High-Risk States Using an Oriented Variational
Autoencoder [3.494548275937873]
可変オートエンコーダ(VAE)ニューラルネットワークは、電力系統状態を生成するために訓練することができる。
VAEの潜在空間符号の座標は、データの概念的特徴と相関することが示されている。
本稿では、遅延空間コードと生成されたデータとのリンクを制限するために、指向性変動オートエンコーダ(OVAE)を提案する。
論文 参考訳(メタデータ) (2023-03-20T19:34:21Z) - DC-BENCH: Dataset Condensation Benchmark [79.18718490863908]
この研究は、データセットの凝縮に関する最初の大規模標準ベンチマークを提供する。
それは、凝縮法の生成可能性と有効性を包括的に反映する一連の評価から成り立っている。
ベンチマークライブラリは、将来の研究とアプリケーションを容易にするためにオープンソース化されている。
論文 参考訳(メタデータ) (2022-07-20T03:54:05Z) - Learning to Count in the Crowd from Limited Labeled Data [109.2954525909007]
我々は,限られた数のラベル付きサンプルから参加者を数えることを学ぶことで,アノテーションの努力を減らすことに重点を置いている。
具体的には,未ラベルデータに対する擬似地下真理推定を含むガウス過程に基づく反復学習機構を提案する。
論文 参考訳(メタデータ) (2020-07-07T04:17:01Z) - Provably Efficient Causal Reinforcement Learning with Confounded
Observational Data [135.64775986546505]
オフラインで収集されたデータセット(観測データ)を組み込んで、オンライン環境でのサンプル効率を改善する方法について検討する。
提案手法は,観測データを効率よく組み込んだ,分解された楽観的値反復 (DOVI) アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-22T14:49:33Z) - How Training Data Impacts Performance in Learning-based Control [67.7875109298865]
本稿では,トレーニングデータの密度と制御性能の関係を考察する。
データセットの品質尺度を定式化し、$rho$-gap と呼ぶ。
フィードバック線形化制御法に$rho$-gapを適用する方法を示す。
論文 参考訳(メタデータ) (2020-05-25T12:13:49Z) - Robust Self-Supervised Convolutional Neural Network for Subspace
Clustering and Classification [0.10152838128195464]
本稿では,自己管理型畳み込みサブスペースクラスタリングネットワーク(S2$ConvSCN)のロバストな定式化を提案する。
真の教師なしのトレーニング環境では、Robust $S2$ConvSCNは、4つのよく知られたデータセットで見られるデータと見えないデータの両方に対して、ベースラインバージョンをかなり上回っている。
論文 参考訳(メタデータ) (2020-04-03T16:07:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。