論文の概要: A Feedback-Control Framework for Efficient Dataset Collection from In-Vehicle Data Streams
- arxiv url: http://arxiv.org/abs/2511.03239v2
- Date: Sun, 09 Nov 2025 18:27:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-11 14:56:00.471476
- Title: A Feedback-Control Framework for Efficient Dataset Collection from In-Vehicle Data Streams
- Title(参考訳): 車載データストリームからの効率的なデータセット収集のためのフィードバック制御フレームワーク
- Authors: Philipp Reis, Philipp Rigoll, Christian Steinhauser, Jacob Langner, Eric Sax,
- Abstract要約: 本稿では、閉ループ制御問題としてデータ収集を定式化するパラダイムであるフィードバック制御データ収集(FCDC)を紹介する。
FCDCはオンライン確率モデルを用いて収集したデータ分布の状態を連続的に近似する。
実データストリームの実験では、FCDCはデータストレージを39.8%削減しながら、バランスのとれたデータセットを25.9%削減している。
- 参考スコア(独自算出の注目度): 0.8971132850029493
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Modern AI systems are increasingly constrained not by model capacity but by the quality and diversity of their data. Despite growing emphasis on data-centric AI, most datasets are still gathered in an open-loop manner which accumulates redundant samples without feedback from the current coverage. This results in inefficient storage, costly labeling, and limited generalization. To address this, this paper introduces Feedback Control Data Collection (FCDC), a paradigm that formulates data collection as a closed-loop control problem. FCDC continuously approximates the state of the collected data distribution using an online probabilistic model and adaptively regulates sample retention using based on feedback signals such as likelihood and Mahalanobis distance. Through this feedback mechanism, the system dynamically balances exploration and exploitation, maintains dataset diversity, and prevents redundancy from accumulating over time. In addition to demonstrating the controllability of FCDC on a synthetic dataset that converges toward a uniform distribution under Gaussian input assumption, experiments on real data streams show that FCDC produces more balanced datasets by 25.9% while reducing data storage by 39.8%. These results demonstrate that data collection itself can be actively controlled, transforming collection from a passive pipeline stage into a self-regulating, feedback-driven process at the core of data-centric AI.
- Abstract(参考訳): 現代のAIシステムは、モデルキャパシティではなく、データの品質と多様性によってますます制約されている。
データ中心のAIに重点を置いているにもかかわらず、ほとんどのデータセットは、現在のカバレッジからのフィードバックなしに冗長なサンプルを蓄積するオープンループ方式で収集されている。
これにより、非効率なストレージ、コストのかかるラベリング、限定的な一般化が実現される。
そこで本研究では,データ収集を閉ループ制御問題として定式化するパラダイムとして,フィードバック制御データ収集(FCDC)を提案する。
FCDCは、オンライン確率モデルを用いて収集したデータ分布の状態を連続的に近似し、確率やマハラノビス距離といったフィードバック信号に基づいてサンプル保持を適応的に制御する。
このフィードバックメカニズムを通じて、システムは探索とエクスプロイトの動的バランスを保ち、データセットの多様性を維持し、時間の経過とともに冗長性が蓄積されるのを防ぐ。
ガウスの入力仮定の下で一様分布に収束する合成データセット上でFCDCの制御性を示すことに加えて、実データストリームの実験では、FCDCはデータストレージを39.8%削減しつつ、25.9%のバランスのとれたデータセットを生成する。
これらの結果は、データ収集自体をアクティブに制御できることを示し、受動的パイプラインステージからデータ中心AIの中核における自己制御型フィードバック駆動プロセスにコレクションを変換する。
関連論文リスト
- OpenDataArena: A Fair and Open Arena for Benchmarking Post-Training Dataset Value [74.80873109856563]
OpenDataArena(ODA)は、トレーニング後のデータの本質的な価値をベンチマークするために設計された、総合的でオープンなプラットフォームである。
ODAは4つの主要な柱からなる包括的なエコシステムを確立している。 (i) 多様なモデル間で公平でオープンな比較を保証する統一的なトレーニング評価パイプライン、 (ii) 異なる軸数に沿ってデータ品質をプロファイリングする多次元スコアリングフレームワーク、 (iii) データセットの系図を視覚化してコンポーネントソースを識別するインタラクティブなデータ系統探索である。
論文 参考訳(メタデータ) (2025-12-16T03:33:24Z) - Revisiting Multivariate Time Series Forecasting with Missing Values [65.30332997607141]
現実の時系列では欠落値が一般的である。
現在のアプローチでは、計算モジュールを使用して、不足した値を補う、計算済みの予測フレームワークが開発されている。
このフレームワークは、致命的な問題を見落としている: 欠落した値に対して基礎的な真理は存在せず、予測精度を劣化させる可能性のあるエラーの影響を受けやすいようにしている。
本稿では,Information Bottleneck原則に基づく新しいフレームワークであるConsistency-Regularized Information Bottleneck(CRIB)を紹介する。
論文 参考訳(メタデータ) (2025-09-27T20:57:48Z) - An adaptive data sampling strategy for stabilizing dynamical systems via controller inference [0.5261718469769449]
本稿では,データ収集時の不安定性を回避するため,システムの安定化を同時に図りながらデータを生成する適応型サンプリング手法を提案する。
軽微な仮定の下では、この手法は、安定化に有益で最小のサイズのデータセットを確実に生成する。
提案手法は、エッジケースにおける安定化システムへの扉を開き、不安定な状態やデータ収集が本質的に困難である場合に制限することを示す。
論文 参考訳(メタデータ) (2025-06-02T15:56:17Z) - Squeeze Out Tokens from Sample for Finer-Grained Data Governance [13.976060747887471]
私たちは、データガバナンスを、"願望"アプローチから"願望"アプローチにアップグレードします。
当社のデュアルブランチDataJuicerは、よりきめ細かいサンプル内ガバナンスを適用しています。
情報トークンを絞り出し、画像テキストアライメントを強化します。
論文 参考訳(メタデータ) (2025-03-18T04:06:50Z) - RPS: A Generic Reservoir Patterns Sampler [1.09784964592609]
本稿では,ストリーミングバッチデータからの直接パターンサンプリングを容易にするために,重み付き貯水池を利用する手法を提案する。
本稿では、時間的バイアスに対処し、逐次的、重み付け、および非重み付けを含む様々なパターンタイプを処理できる汎用アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-31T16:25:21Z) - Adding Conditional Control to Diffusion Models with Reinforcement Learning [68.06591097066811]
拡散モデルは、生成されたサンプルの特性を正確に制御できる強力な生成モデルである。
大規模なデータセットでトレーニングされたこれらの拡散モデルは成功したが、下流の微調整プロセスに新たな制御を導入する必要があることが多い。
本研究では、オフラインデータセットを用いた強化学習(RL)に基づく新しい制御手法を提案する。
論文 参考訳(メタデータ) (2024-06-17T22:00:26Z) - CUDC: A Curiosity-Driven Unsupervised Data Collection Method with
Adaptive Temporal Distances for Offline Reinforcement Learning [62.58375643251612]
本稿では,Curiosity-driven Unsupervised Data Collection (CUDC)法を提案する。
この適応的な到達性機構により、特徴表現は多様化することができ、エージェントは、好奇心で高品質なデータを集めるために自分自身をナビゲートすることができる。
実験的に、CUDCはDeepMindコントロールスイートの様々なダウンストリームオフラインRLタスクにおいて、既存の教師なし手法よりも効率と学習性能が優れている。
論文 参考訳(メタデータ) (2023-12-19T14:26:23Z) - Active Data Acquisition in Autonomous Driving Simulation [0.0]
本稿では,アクティブデータ収集戦略の概念を提案する。
高品質なデータでは、コレクション密度の増加はデータセットの全体的な品質を改善することができる。
論文 参考訳(メタデータ) (2023-06-24T10:07:35Z) - Targeted Analysis of High-Risk States Using an Oriented Variational
Autoencoder [3.494548275937873]
可変オートエンコーダ(VAE)ニューラルネットワークは、電力系統状態を生成するために訓練することができる。
VAEの潜在空間符号の座標は、データの概念的特徴と相関することが示されている。
本稿では、遅延空間コードと生成されたデータとのリンクを制限するために、指向性変動オートエンコーダ(OVAE)を提案する。
論文 参考訳(メタデータ) (2023-03-20T19:34:21Z) - DC-BENCH: Dataset Condensation Benchmark [79.18718490863908]
この研究は、データセットの凝縮に関する最初の大規模標準ベンチマークを提供する。
それは、凝縮法の生成可能性と有効性を包括的に反映する一連の評価から成り立っている。
ベンチマークライブラリは、将来の研究とアプリケーションを容易にするためにオープンソース化されている。
論文 参考訳(メタデータ) (2022-07-20T03:54:05Z) - Data Sampling Affects the Complexity of Online SGD over Dependent Data [54.92366535993012]
本研究では,データサンプリング方式の違いが,高依存データに対するオンライン勾配勾配勾配の複雑さにどのように影響するかを示す。
データサンプルのサブサンプリングさえも、高度に依存したデータに対するオンラインSGDの収束を加速することができる。
論文 参考訳(メタデータ) (2022-03-31T07:48:30Z) - Federated Estimation of Causal Effects from Observational Data [19.657789891394504]
フェデレートされたデータソースを用いた因果推論のための新しいフレームワークを提案する。
我々は、異なるプライベートデータソースからの局所因果効果を中央集権化せずに評価し、統合する。
論文 参考訳(メタデータ) (2021-05-31T08:06:00Z) - Learning to Count in the Crowd from Limited Labeled Data [109.2954525909007]
我々は,限られた数のラベル付きサンプルから参加者を数えることを学ぶことで,アノテーションの努力を減らすことに重点を置いている。
具体的には,未ラベルデータに対する擬似地下真理推定を含むガウス過程に基づく反復学習機構を提案する。
論文 参考訳(メタデータ) (2020-07-07T04:17:01Z) - Provably Efficient Causal Reinforcement Learning with Confounded
Observational Data [135.64775986546505]
オフラインで収集されたデータセット(観測データ)を組み込んで、オンライン環境でのサンプル効率を改善する方法について検討する。
提案手法は,観測データを効率よく組み込んだ,分解された楽観的値反復 (DOVI) アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-22T14:49:33Z) - How Training Data Impacts Performance in Learning-based Control [67.7875109298865]
本稿では,トレーニングデータの密度と制御性能の関係を考察する。
データセットの品質尺度を定式化し、$rho$-gap と呼ぶ。
フィードバック線形化制御法に$rho$-gapを適用する方法を示す。
論文 参考訳(メタデータ) (2020-05-25T12:13:49Z) - The optimal transport paradigm enables data compression in data-driven
robust control [4.162663632560141]
我々は、このような大きなデータセットを、代表行動のより小さな合成データセットに圧縮する最適な輸送ベース手法を採用する。
圧縮データを用いて計算した分散ロバストな制御法は、元のデータセットと同じ種類の性能保証を享受できることを示す。
数値シミュレーションにより, 合成データによる制御性能は, 元のデータと同等であるが, 計算量が少なくなることを確認した。
論文 参考訳(メタデータ) (2020-05-19T12:38:20Z) - Robust Self-Supervised Convolutional Neural Network for Subspace
Clustering and Classification [0.10152838128195464]
本稿では,自己管理型畳み込みサブスペースクラスタリングネットワーク(S2$ConvSCN)のロバストな定式化を提案する。
真の教師なしのトレーニング環境では、Robust $S2$ConvSCNは、4つのよく知られたデータセットで見られるデータと見えないデータの両方に対して、ベースラインバージョンをかなり上回っている。
論文 参考訳(メタデータ) (2020-04-03T16:07:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。