論文の概要: Data-Centric Visual Development for Self-Driving Labs
- arxiv url: http://arxiv.org/abs/2512.02018v1
- Date: Mon, 01 Dec 2025 18:59:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-02 19:46:35.046072
- Title: Data-Centric Visual Development for Self-Driving Labs
- Title(参考訳): 自動運転ラボのためのデータ中心ビジュアル開発
- Authors: Anbang Liu, Guanzhong Hu, Jiayi Wang, Ping Guo, Han Liu,
- Abstract要約: われわれはSDLにおいて最も重要かつ精度の高い行動であるピッティングに焦点をあてる。
私たちは、実際のデータ生成と仮想データ生成を融合するハイブリッドパイプラインを構築しています。
保持された実際のテストセットでは、自動取得された実画像に基づいて完全に訓練されたモデルが99.6%の精度に達する。
- 参考スコア(独自算出の注目度): 11.559239027724884
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Self-driving laboratories offer a promising path toward reducing the labor-intensive, time-consuming, and often irreproducible workflows in the biological sciences. Yet their stringent precision requirements demand highly robust models whose training relies on large amounts of annotated data. However, this kind of data is difficult to obtain in routine practice, especially negative samples. In this work, we focus on pipetting, the most critical and precision sensitive action in SDLs. To overcome the scarcity of training data, we build a hybrid pipeline that fuses real and virtual data generation. The real track adopts a human-in-the-loop scheme that couples automated acquisition with selective human verification to maximize accuracy with minimal effort. The virtual track augments the real data using reference-conditioned, prompt-guided image generation, which is further screened and validated for reliability. Together, these two tracks yield a class-balanced dataset that enables robust bubble detection training. On a held-out real test set, a model trained entirely on automatically acquired real images reaches 99.6% accuracy, and mixing real and generated data during training sustains 99.4% accuracy while reducing collection and review load. Our approach offers a scalable and cost-effective strategy for supplying visual feedback data to SDL workflows and provides a practical solution to data scarcity in rare event detection and broader vision tasks.
- Abstract(参考訳): 自動運転研究所は、生物学的科学における労働集約的、時間を要する、しばしば再現不可能なワークフローを減らすための、有望な道を提供する。
しかし、彼らの厳密な精度要件は、大量の注釈付きデータに依存する訓練を必要とする非常に堅牢なモデルを必要とする。
しかし、このようなデータは日常的な実践、特に陰性サンプルでは入手が困難である。
本研究は,SDLにおける最重要かつ高精度な作業である配管に焦点をあてる。
トレーニングデータの不足を克服するために、実際のデータ生成と仮想データ生成を融合するハイブリッドパイプラインを構築します。
実際のトラックでは、自動取得と選択された人間の検証を組み合わせ、最小限の努力で精度を最大化する。
仮想トラックは、参照条件付き、プロンプト誘導された画像生成を使用して実際のデータを拡張し、さらにスクリーニングされ、信頼性が検証される。
これら2つのトラックは、堅牢なバブル検出トレーニングを可能にするクラスバランスデータセットを生成する。
保持された実際のテストセットでは、自動取得された実画像に完全に訓練されたモデルが99.6%の精度に達し、トレーニング中の実データと生成されたデータを混合することで、収集とレビューの負荷を低減しながら99.4%の精度を維持できる。
我々のアプローチは、SDLワークフローに視覚フィードバックデータを供給するためのスケーラブルで費用対効果の高い戦略を提供し、希少なイベント検出やより広範なビジョンタスクにおいて、データの不足に対する実用的な解決策を提供する。
関連論文リスト
- Diffusion-Based Generation and Imputation of Driving Scenarios from Limited Vehicle CAN Data [13.575299934411978]
拡散モデルは、現実的で合成的なデータを生成するのに効果的であることが示されている。
自己回帰的手法と非自己回帰的手法を組み合わせたハイブリッドな生成手法を提案する。
我々の最良のモデルでは、トレーニングデータでさえも、身体的正確性の観点から上回ることができ、かつ、もっともらしい運転行動を示すことができる。
論文 参考訳(メタデータ) (2025-09-15T19:07:28Z) - Towards High Data Efficiency in Reinforcement Learning with Verifiable Reward [54.708851958671794]
オフラインとオンラインの両方のデータ選択のための最適化戦略を組み合わせた,データ効率のよいポリシ最適化パイプラインを提案する。
オフラインフェーズでは、多様性、影響、適切な難易度に基づいて、トレーニングサンプルの高品質なサブセットをキュレートする。
オンラインRLVRトレーニングにおいて、探索可能性の低いサンプルを動的にフィルタリングするサンプルレベルの探索性指標を導入する。
論文 参考訳(メタデータ) (2025-09-01T10:04:20Z) - Analysis of Classifier Training on Synthetic Data for Cross-Domain Datasets [4.696575161583618]
本研究は、高度な運転支援システムと自律運転のためのカメラベースの交通標識認識アプリケーションに焦点を当てた。
合成データセットの増補パイプラインは、構造化影やガウスの特異なハイライトのような新しい増補プロセスを含む。
実験の結果、クロスドメインテストデータセットに適用した場合、ほとんどの場合、合成画像ベースアプローチは実際の画像ベーストレーニングよりも優れていた。
論文 参考訳(メタデータ) (2024-10-30T07:11:41Z) - Learning from Imperfect Demonstrations with Self-Supervision for Robotic Manipulation [30.791222277450053]
現在の模倣学習(IL)は通常不完全なデータを破棄し、成功した専門家データにのみ焦点をあてる。
本稿では、専門家と不完全なデータを組み合わせた自己監督データフィルタリングフレームワーク(SSDF)を導入し、故障したトラジェクトリセグメントの品質スコアを計算する。
SSDFは、高品質な不完全なデータでトレーニングデータセットを正確に拡張し、すべてのロボット操作タスクの成功率を改善する。
論文 参考訳(メタデータ) (2024-01-17T04:15:56Z) - A New Benchmark: On the Utility of Synthetic Data with Blender for Bare
Supervised Learning and Downstream Domain Adaptation [42.2398858786125]
コンピュータビジョンにおけるディープラーニングは、大規模ラベル付きトレーニングデータの価格で大きな成功を収めた。
制御不能なデータ収集プロセスは、望ましくない重複が存在する可能性のある非IIDトレーニングおよびテストデータを生成する。
これを回避するために、ドメインランダム化による3Dレンダリングによる合成データを生成する方法がある。
論文 参考訳(メタデータ) (2023-03-16T09:03:52Z) - Dataset Distillation by Matching Training Trajectories [75.9031209877651]
そこで本研究では,実データと同じような状態にネットワークを誘導するために,蒸留データを最適化する新しい定式化を提案する。
ネットワークが与えられたら、蒸留データを何回か繰り返して訓練し、合成訓練されたパラメータと実データで訓練されたパラメータとの距離に関して蒸留データを最適化する。
本手法は既存の手法よりも優れており,高解像度の視覚データを蒸留することができる。
論文 参考訳(メタデータ) (2022-03-22T17:58:59Z) - AutoSimulate: (Quickly) Learning Synthetic Data Generation [70.82315853981838]
目的の新たな微分可能近似に基づく最適な合成データ生成法を提案する。
提案手法は,学習データ生成の高速化(最大50Times$)と,実世界のテストデータセットの精度向上(+8.7%$)を実現している。
論文 参考訳(メタデータ) (2020-08-16T11:36:11Z) - Deep Traffic Sign Detection and Recognition Without Target Domain Real
Images [52.079665469286496]
本稿では,ターゲットドメインからの実際の画像を必要としない新しいデータベース生成手法と,(ii)交通標識のテンプレートを提案する。
この方法は、実際のデータでトレーニングを克服することではなく、実際のデータが利用できない場合に互換性のある代替手段になることを目的としている。
大規模なデータセットでは、完全に合成されたデータセットによるトレーニングは、実際のデータセットとトレーニングのパフォーマンスにほぼ一致する。
論文 参考訳(メタデータ) (2020-07-30T21:06:47Z) - Provably Efficient Causal Reinforcement Learning with Confounded
Observational Data [135.64775986546505]
オフラインで収集されたデータセット(観測データ)を組み込んで、オンライン環境でのサンプル効率を改善する方法について検討する。
提案手法は,観測データを効率よく組み込んだ,分解された楽観的値反復 (DOVI) アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-22T14:49:33Z) - Omni-supervised Facial Expression Recognition via Distilled Data [120.11782405714234]
ネットワークトレーニングにおいて,信頼度の高いサンプルを多量のラベルのないデータで活用するためのオムニ教師付き学習を提案する。
我々は,新しいデータセットが学習したFERモデルの能力を大幅に向上させることができることを実験的に検証した。
そこで本研究では,生成したデータセットを複数のクラスワイド画像に圧縮するために,データセット蒸留戦略を適用することを提案する。
論文 参考訳(メタデータ) (2020-05-18T09:36:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。