論文の概要: Mcity Data Engine: Iterative Model Improvement Through Open-Vocabulary Data Selection
- arxiv url: http://arxiv.org/abs/2504.21614v1
- Date: Wed, 30 Apr 2025 13:10:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-09 18:43:20.180021
- Title: Mcity Data Engine: Iterative Model Improvement Through Open-Vocabulary Data Selection
- Title(参考訳): Mcity Data Engine: オープン語彙データ選択による反復モデルの改善
- Authors: Daniel Bogdoll, Rajanikant Patnaik Ananta, Abeyankar Giridharan, Isabel Moore, Gregory Stevens, Henry X. Liu,
- Abstract要約: 我々は、完全なデータベースの開発サイクルのためのモジュールを提供するMcity Data Engineを紹介します。
Mcity Data Engineは、オープン語彙データ選択プロセスを通じて、レアクラスと新しいクラスに焦点を当てている。
- 参考スコア(独自算出の注目度): 9.883149193286304
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With an ever-increasing availability of data, it has become more and more challenging to select and label appropriate samples for the training of machine learning models. It is especially difficult to detect long-tail classes of interest in large amounts of unlabeled data. This holds especially true for Intelligent Transportation Systems (ITS), where vehicle fleets and roadside perception systems generate an abundance of raw data. While industrial, proprietary data engines for such iterative data selection and model training processes exist, researchers and the open-source community suffer from a lack of an openly available system. We present the Mcity Data Engine, which provides modules for the complete data-based development cycle, beginning at the data acquisition phase and ending at the model deployment stage. The Mcity Data Engine focuses on rare and novel classes through an open-vocabulary data selection process. All code is publicly available on GitHub under an MIT license: https://github.com/mcity/mcity_data_engine
- Abstract(参考訳): データの可用性が継続的に向上するにつれ、マシンラーニングモデルのトレーニング用に適切なサンプルを選択してラベル付けすることがますます困難になっている。
特に、大量のラベルのないデータに対するロングテールの関心のクラスを検出することは困難である。
インテリジェント・トランスポーテーション・システム(ITS)では、車両の車両や道路側の認識システムが大量の生データを生成している。
このような反復的なデータ選択とモデルトレーニングプロセスのための、産業的でプロプライエタリなデータエンジンは存在するが、研究者とオープンソースコミュニティは、公開可能なシステムが欠如している。
我々は、Mcity Data Engineを紹介します。これは、データ取得フェーズからモデルデプロイメント段階まで、完全なデータベースの開発サイクルのためのモジュールを提供します。
Mcity Data Engineは、オープン語彙データ選択プロセスを通じて、レアクラスと新しいクラスに焦点を当てている。
すべてのコードはMITライセンスでGitHubで公開されている。
関連論文リスト
- PerceptionLM: Open-Access Data and Models for Detailed Visual Understanding [126.15907330726067]
我々は、画像とビデオの理解において透過的な研究を行うために、完全にオープンで再現可能なフレームワークでパーセプションモデル言語(PLM)を構築した。
モデルからの蒸留なしで標準的な訓練パイプラインを分析し、大規模合成データを調べ、重要なデータギャップを識別する。
論文 参考訳(メタデータ) (2025-04-17T17:59:56Z) - Active Learning from Scene Embeddings for End-to-End Autonomous Driving [30.667451458189902]
エンドツーエンドのディープラーニングモデルのトレーニングには、大量のラベル付きデータが必要です。
本稿では,SEADと呼ばれるベクトル化シーンレベルの特徴に依存する能動的学習フレームワークを提案する。
実験によると、完全なデータセットで達成できることに近いパフォーマンスを達成するには、nuScenesトレーニングデータの30%しか必要ありません。
論文 参考訳(メタデータ) (2025-03-14T03:56:22Z) - Cuvis.Ai: An Open-Source, Low-Code Software Ecosystem for Hyperspectral Processing and Classification [0.4038539043067986]
cuvis.aiは、データ取得、前処理、モデルトレーニングのためのオープンソースでローコードなソフトウェアエコシステムである。
パッケージはPythonで書かれており、一般的な機械学習ライブラリのラッパーを提供する。
論文 参考訳(メタデータ) (2024-11-18T06:33:40Z) - Molmo and PixMo: Open Weights and Open Data for State-of-the-Art Vision-Language Models [146.85788712792177]
Molmoは視覚言語モデル(VLM)の新たなファミリーであり、オープンネスのクラスにおける最先端技術である。
我々の最高のクラス72Bモデルは、オープンウェイトとデータモデルのクラスで他よりも優れています。
論文 参考訳(メタデータ) (2024-09-25T17:59:51Z) - GenQA: Generating Millions of Instructions from a Handful of Prompts [67.54980063851605]
ほとんどの公開命令微調整データセットは、業界モデルをトレーニングするために使用されるクローズドソースデータセットと比較して比較的小さい。
本研究では,1つのプロンプトから大規模命令データセットを生成する手法について検討する。
我々のデータセットは、知識集約型リーダーボードタスクと会話評価の両方で、WizardLMとUltrachatの両方に遭遇または超過します。
論文 参考訳(メタデータ) (2024-06-14T17:44:08Z) - Modyn: Data-Centric Machine Learning Pipeline Orchestration [1.4448995242976572]
Modynは、データ中心のエンドツーエンド機械学習プラットフォームである。
データ中心のエンドツーエンド機械学習プラットフォームであるModynを紹介します。
論文 参考訳(メタデータ) (2023-12-11T09:50:52Z) - TSGM: A Flexible Framework for Generative Modeling of Synthetic Time Series [61.436361263605114]
時系列データは、研究者と産業組織間のデータの共有を妨げるため、しばしば不足または非常に敏感である。
本稿では,合成時系列の生成モデリングのためのオープンソースフレームワークである時系列生成モデリング(TSGM)を紹介する。
論文 参考訳(メタデータ) (2023-05-19T10:11:21Z) - Deep Transfer Learning for Multi-source Entity Linkage via Domain
Adaptation [63.24594955429465]
マルチソースエンティティリンクは、データのクリーニングやユーザ縫合といった、高インパクトなアプリケーションにおいて重要である。
AdaMELは、多ソースエンティティリンクを実行するための一般的なハイレベルな知識を学ぶディープトランスファー学習フレームワークである。
本フレームワークは,教師付き学習に基づく平均的手法よりも8.21%向上した最先端の学習結果を実現する。
論文 参考訳(メタデータ) (2021-10-27T15:20:41Z) - Diverse Complexity Measures for Dataset Curation in Self-driving [80.55417232642124]
トラフィックシーンの面白さを定量化する多様な基準を活用した新たなデータ選択手法を提案する。
実験の結果,提案するキュレーションパイプラインは,より汎用的で高いパフォーマンスをもたらすデータセットを選択できることが判明した。
論文 参考訳(メタデータ) (2021-01-16T23:45:02Z) - Have you forgotten? A method to assess if machine learning models have
forgotten data [20.9131206112401]
ディープラーニングの時代において、複数のソースからのデータの集約は、データの多様性を保証するための一般的なアプローチである。
本稿では、モデルによってデータが忘れられたかどうかという課題に対処する。
我々は、ターゲットの出力と異なるデータセットで訓練されたモデルの出力を比較する統計的手法を確立する。
論文 参考訳(メタデータ) (2020-04-21T16:13:45Z) - From Data to Actions in Intelligent Transportation Systems: a
Prescription of Functional Requirements for Model Actionability [10.27718355111707]
この研究は、多種多様なソースから得られたデータが、その資産やシステム、プロセスの効率的な運用のために、データ駆動モデルを学び、適応するためにどのように使用できるかを説明することを目的としている。
ITSのデータモデリングパイプラインでは、データ融合、適応学習、モデル評価という3つの複合ステージに対して、特性、エンジニアリング要件、本質的な課題を定義します。
論文 参考訳(メタデータ) (2020-02-06T12:02:30Z) - Neural Data Server: A Large-Scale Search Engine for Transfer Learning
Data [78.74367441804183]
我々は,ターゲットドメインに最も有用な転送学習データを見つけるための大規模検索エンジンであるNeural Data Server (NDS)を紹介した。
NDSは、いくつかの人気のある画像データセットをインデックスするデータサーバで構成され、クライアントにデータを推奨することを目的としている。
我々は,NDSが様々な伝達学習シナリオにおいて有効であることを示し,複数のターゲットデータセットに対して最先端の性能を示す。
論文 参考訳(メタデータ) (2020-01-09T01:21:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。