論文の概要: From Big Data to Fast Data: Towards High-Quality Datasets for Machine Learning Applications from Closed-Loop Data Collection
- arxiv url: http://arxiv.org/abs/2603.29474v1
- Date: Tue, 31 Mar 2026 09:20:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-01 15:25:03.445484
- Title: From Big Data to Fast Data: Towards High-Quality Datasets for Machine Learning Applications from Closed-Loop Data Collection
- Title(参考訳): ビッグデータから高速データ:クローズドループデータコレクションから機械学習アプリケーションのための高品質データセットへ
- Authors: Philipp Reis, Jacqueline Henle, Stefan Otten, Eric Sax,
- Abstract要約: 本稿では,自動車システム工学におけるFast Dataの概念を紹介する。
このアプローチは、データ選択と記録を、データソースとして車両にシフトする。
データを記録すべきかどうかをリアルタイムにコンテキスト対応で判断することで、データ収集はデータ品質の目標と整合することができる。
- 参考スコア(独自算出の注目度): 0.9624643581968987
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The increasing capabilities of machine learning models, such as vision-language and multimodal language models, are placing growing demands on data in automotive systems engineering, making the quality and relevance of collected data enablers for the development and validation of such systems. Traditional Big Data approaches focus on large-scale data collection and offline processing, while Smart Data approaches improve data selection strategies but still rely on centralized and offline post-processing. This paper introduces the concept of Fast Data for automotive systems engineering. The approach shifts data selection and recording onto the vehicle as the data source. By enabling real-time, context-aware decisions on whether and which data should be recorded, data collection can be directly aligned with data quality objectives and collection strategies within a closed-loop. This results in datasets with higher relevance, improved coverage of critical scenarios, and increased information density, while at the same time reducing irrelevant data and associated costs. The proposed approach provides a structured foundation for designing data collection strategies that are aligned with the needs of modern machine learning algorithms. It supports efficient data acquisition and contributes to scalable and cost-effective ML development processes in automotive systems engineering.
- Abstract(参考訳): 視覚言語やマルチモーダル言語モデルといった機械学習モデルの能力の増大は、自動車システム工学にデータに対する需要が増大し、そのようなシステムの開発と検証のための収集データイネーラの品質と妥当性が向上している。
従来のビッグデータアプローチは大規模なデータ収集とオフライン処理に重点を置いている。
本稿では,自動車システム工学におけるFast Dataの概念を紹介する。
このアプローチは、データ選択と記録を、データソースとして車両にシフトする。
データを記録すべきかどうかをリアルタイムにコンテキスト対応で判断することで、クローズドループ内のデータ品質目標とコレクション戦略と直接一致させることができる。
これにより、関連性が高く、重要なシナリオのカバレッジが改善され、情報密度が向上すると同時に、無関係なデータと関連するコストが削減される。
提案したアプローチは、現代的な機械学習アルゴリズムのニーズに合わせてデータ収集戦略を設計するための構造化された基盤を提供する。
効率的なデータ取得をサポートし、自動車システムエンジニアリングにおけるスケーラブルで費用効率のよいML開発プロセスに貢献している。
関連論文リスト
- Towards Next-Generation LLM Training: From the Data-Centric Perspective [29.115711465172122]
大規模言語モデル(LLM)は、様々なタスクやドメインで顕著なパフォーマンスを示しており、データはこれらの進歩を可能にする上で中心的な役割を果たす。
この成功にもかかわらず、LLMトレーニングに必要な大量のデータセットの準備と有効利用は大きなボトルネックのままである。
本稿では、ワークフローの自動構築とスケーラブルなデータ管理をサポートする、堅牢でエージェントベースの自動データ準備システムの構築を提案する。
我々は、トレーニングプロセスを通してデータを動的に選択し、混合し、再重み付けし、より効率的で適応的で、パフォーマンスに配慮したデータ利用を可能にする統一されたデータモデルインタラクショントレーニングシステムについて論じる。
論文 参考訳(メタデータ) (2026-03-16T01:40:09Z) - Data Science and Technology Towards AGI Part I: Tiered Data Management [53.64581824953229]
我々は、人工知能の開発がデータモデル共進化の新しい段階に入ったと論じる。
我々は、未処理のリソースから組織的で検証可能な知識まで、L0-L4階層のデータ管理フレームワークを紹介します。
提案手法の有効性を実証研究により検証する。
論文 参考訳(メタデータ) (2026-02-09T18:47:51Z) - Autonomous Data Agents: A New Opportunity for Smart Data [50.02229219403014]
DataAgentsは、自律的なデータから知識システムへのパラダイムシフトを表している、とReportは主張する。
DataAgentsは、複雑で非構造化されたデータをコヒーレントで行動可能な知識に変換する。
エージェントAIとデータ・トゥ・ナレッジシステムの収束が重要なトレンドとなっている理由を最初に検討する。
論文 参考訳(メタデータ) (2025-09-23T06:46:41Z) - Data-Juicer 2.0: Cloud-Scale Adaptive Data Processing for and with Foundation Models [83.65386456026441]
Data-Juicer 2.0は、テキスト、画像、ビデオ、オーディオのモダリティにまたがる100以上のデータ処理オペレータがバックアップするデータ処理システムである。
データ分析、合成、アノテーション、基礎モデルのポストトレーニングなど、より重要なタスクをサポートする。
このシステムは公開されており、さまざまな研究分野やAlibaba Cloud PAIのような現実世界の製品で広く採用されている。
論文 参考訳(メタデータ) (2024-12-23T08:29:57Z) - A Survey on Data Synthesis and Augmentation for Large Language Models [35.59526251210408]
本稿では,大規模言語モデルのライフサイクルを通じてデータ生成手法をレビューし,要約する。
これらの手法が直面する現在の制約について考察し,今後の開発・研究の道筋について考察する。
論文 参考訳(メタデータ) (2024-10-16T16:12:39Z) - Data Pipeline Training: Integrating AutoML to Optimize the Data Flow of
Machine Learning Models [17.091169031023714]
Data Pipelineは、マシンラーニングのモデリングやデータ製品の開発といったタスクにおいて、必須の役割を果たす。
本稿では,機械学習の自動化によるデータフローの最適化について検討する。
私たちは、AutoML技術を活用してData Pipelineのインテリジェンスを強化する方法について論じる。
論文 参考訳(メタデータ) (2024-02-20T11:06:42Z) - Data Acquisition: A New Frontier in Data-centric AI [65.90972015426274]
まず、現在のデータマーケットプレースを調査し、データセットに関する詳細な情報を提供するプラットフォームが不足していることを明らかにする。
次に、データプロバイダと取得者間のインタラクションをモデル化するベンチマークであるDAMチャレンジを紹介します。
提案手法の評価は,機械学習における効果的なデータ取得戦略の必要性を浮き彫りにしている。
論文 参考訳(メタデータ) (2023-11-22T22:15:17Z) - Active Data Acquisition in Autonomous Driving Simulation [0.0]
本稿では,アクティブデータ収集戦略の概念を提案する。
高品質なデータでは、コレクション密度の増加はデータセットの全体的な品質を改善することができる。
論文 参考訳(メタデータ) (2023-06-24T10:07:35Z) - A Survey of Dataset Refinement for Problems in Computer Vision Datasets [11.45536223418548]
大規模データセットはコンピュータビジョンの進歩に重要な役割を果たしてきた。
クラス不均衡、ノイズの多いラベル、データセットバイアス、高いリソースコストといった問題に悩まされることが多い。
データセット問題を解決するために、様々なデータ中心のソリューションが提案されている。
データセットを再構成することで、データセットの品質が向上します。
論文 参考訳(メタデータ) (2022-10-21T03:58:43Z) - TRoVE: Transforming Road Scene Datasets into Photorealistic Virtual
Environments [84.6017003787244]
本研究では、シミュレーションデータセットに存在する困難とドメインギャップに対処する合成データ生成パイプラインを提案する。
既存のデータセットからアノテーションや視覚的手がかりを利用すれば、自動マルチモーダルデータ生成が容易になることを示す。
論文 参考訳(メタデータ) (2022-08-16T20:46:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。