論文の概要: A Scalable Pipeline Combining Procedural 3D Graphics and Guided Diffusion for Photorealistic Synthetic Training Data Generation in White Button Mushroom Segmentation
- arxiv url: http://arxiv.org/abs/2512.08747v1
- Date: Tue, 09 Dec 2025 15:57:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-10 22:28:08.035898
- Title: A Scalable Pipeline Combining Procedural 3D Graphics and Guided Diffusion for Photorealistic Synthetic Training Data Generation in White Button Mushroom Segmentation
- Title(参考訳): 手続き型3次元グラフィクスと誘導拡散を組み合わせたホワイトボタンマッシュルームセグメンテーションにおける光リアルな合成学習データ生成のためのスケーラブルパイプライン
- Authors: Artúr I. Károly, Péter Galambos,
- Abstract要約: 工業用キノコ栽培は、コンピュータービジョンによる監視と自動収穫にますます依存している。
合成データはスケーラブルな代替手段を提供するが、現実のシナリオに一般化するのに十分なリアリズムを欠いていることが多い。
本稿では,Blenderの3Dレンダリングと制約付き拡散モデルを統合し,高品質なアノテート合成画像を生成する新しいワークフローを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Industrial mushroom cultivation increasingly relies on computer vision for monitoring and automated harvesting. However, developing accurate detection and segmentation models requires large, precisely annotated datasets that are costly to produce. Synthetic data provides a scalable alternative, yet often lacks sufficient realism to generalize to real-world scenarios. This paper presents a novel workflow that integrates 3D rendering in Blender with a constrained diffusion model to automatically generate high-quality annotated, photorealistic synthetic images of Agaricus Bisporus mushrooms. This approach preserves full control over 3D scene configuration and annotations while achieving photorealism without the need for specialized computer graphics expertise. We release two synthetic datasets (each containing 6,000 images depicting over 250k mushroom instances) and evaluate Mask R-CNN models trained on them in a zero-shot setting. When tested on two independent real-world datasets (including a newly collected benchmark), our method achieves state-of-the-art segmentation performance (F1 = 0.859 on M18K), despite using only synthetic training data. Although the approach is demonstrated on Agaricus Bisporus mushrooms, the proposed pipeline can be readily adapted to other mushroom species or to other agricultural domains, such as fruit and leaf detection.
- Abstract(参考訳): 工業用キノコ栽培は、コンピュータービジョンによる監視と自動収穫にますます依存している。
しかし、正確な検出とセグメンテーションモデルを開発するには、作成にコストがかかる大規模な、正確に注釈付けされたデータセットが必要である。
合成データはスケーラブルな代替手段を提供するが、現実のシナリオに一般化するのに十分なリアリズムを欠いていることが多い。
本稿では,Blenderの3Dレンダリングと制約付き拡散モデルを統合し,高品質なアノテート・ビスポラスキノコ合成画像の自動生成を行う新しいワークフローを提案する。
このアプローチは、特別なコンピュータグラフィックスの専門知識を必要とせず、フォトリアリズムを実現しつつ、3Dシーンの設定とアノテーションを完全に制御する。
2つの合成データセット(それぞれ250k以上のキノコインスタンスを描写した6000の画像を含む)を公開し、ゼロショット環境でトレーニングしたMask R-CNNモデルを評価する。
2つの独立した実世界のデータセット(新たに収集されたベンチマークを含む)でテストすると、合成トレーニングデータのみを使用しながら、最先端のセグメンテーション性能(M18KではF1 = 0.859)を達成する。
このアプローチはAgaricus Bisporus mushroomsで実証されているが、提案されたパイプラインは、他のキノコ種や、果物や葉の検出などの他の農業領域に容易に適応できる。
関連論文リスト
- Synthetic Crop-Weed Image Generation and its Impact on Model Generalization [0.8849672280563691]
Blender を用いた人工雑草画像の手続き的生成のためのパイプラインを提案する。
我々は、合成および実データに基づいて、最先端のセグメンテーションモデルをいくつかベンチマークする。
以上の結果から, 合成画像のトレーニングにより, 従来の最先端手法よりも10%の差が生じることがわかった。
論文 参考訳(メタデータ) (2025-11-04T09:47:09Z) - Sparse 3D Perception for Rose Harvesting Robots: A Two-Stage Approach Bridging Simulation and Real-World Applications [0.5407319151576264]
ダマスク・ローズのような薬用植物は人口増加とともに急増しているが、労働集約的な収穫はスケーラビリティのボトルネックとなっている。
そこで本研究では,バラセンタのスパース3D局所化に着目し,花を刈り取るロボットに適した新しい3D知覚パイプラインを提案する。
我々の2段階のアルゴリズムはまずステレオ画像上で2次元点検出を行い、続いて軽量のディープニューラルネットワークを用いて深度推定を行う。
論文 参考訳(メタデータ) (2025-07-28T16:09:34Z) - Drive-1-to-3: Enriching Diffusion Priors for Novel View Synthesis of Real Vehicles [81.29018359825872]
本稿では,実世界の課題に対して,大規模な事前学習モデルを微調整するための一連の優れたプラクティスを統合する。
具体的には,合成データと実運転データとの相違を考慮に入れたいくつかの戦略を開発する。
我々の洞察は、先行芸術よりも新しいビュー合成のためのFIDを68.8%値下げする効果のある微調整につながる。
論文 参考訳(メタデータ) (2024-12-19T03:39:13Z) - Improving Object Detection by Modifying Synthetic Data with Explainable AI [3.0519884745675485]
本稿では,合成画像の設計効率を向上させるための新しい概念的アプローチを提案する。
XAI技術は、これらの画像を生成するために使用される3Dメッシュモデルを修正する、ループ中の人間プロセスを導く。
合成データは、トレーニング中に見えない方向の車両の検出を4.6%改善できることを示す。
論文 参考訳(メタデータ) (2024-12-02T13:24:43Z) - DistillNeRF: Perceiving 3D Scenes from Single-Glance Images by Distilling Neural Fields and Foundation Model Features [65.8738034806085]
DistillNeRFは、自動運転シーンにおける3D環境を理解するための自己教師型学習フレームワークである。
本手法は,スパースで単一フレームのマルチビューカメラ入力からリッチなニューラルシーン表現を予測する一般化可能なフィードフォワードモデルである。
論文 参考訳(メタデータ) (2024-06-17T21:15:13Z) - Diffusion Models are Efficient Data Generators for Human Mesh Recovery [55.37787289869703]
生成モデルにより生成された合成データはCGレンダリングデータと相補的であることを示す。
我々はHumanWildと呼ばれる最近の拡散モデルに基づく効率的なデータ生成パイプラインを提案する。
われわれの研究は、人間の3Dリカバリを現場に拡大するための道を開くかもしれない。
論文 参考訳(メタデータ) (2024-03-17T06:31:16Z) - Robust Category-Level 3D Pose Estimation from Synthetic Data [17.247607850702558]
CADモデルから生成されたオブジェクトポーズ推定のための新しい合成データセットであるSyntheticP3Dを紹介する。
逆レンダリングによるポーズ推定を行うニューラルネットワークモデルをトレーニングするための新しいアプローチ(CC3D)を提案する。
論文 参考訳(メタデータ) (2023-05-25T14:56:03Z) - Towards 3D Scene Understanding by Referring Synthetic Models [65.74211112607315]
メソッドは通常、実際のシーンスキャンにおける過剰なアノテーションを緩和する。
合成モデルは、合成特徴の実際のシーンカテゴリを、統一された特徴空間にどのように依存するかを考察する。
実験の結果,ScanNet S3DISデータセットの平均mAPは46.08%,学習データセットは55.49%であった。
論文 参考訳(メタデータ) (2022-03-20T13:06:15Z) - A Deep Learning Generative Model Approach for Image Synthesis of Plant
Leaves [62.997667081978825]
我々は,高度深層学習(DL)技術を用いて,人工葉画像の自動生成を行う。
我々は、現代の作物管理のためのAIアプリケーションのためのトレーニングサンプルのソースを処分することを目指している。
論文 参考訳(メタデータ) (2021-11-05T10:53:35Z) - Intrinsic Autoencoders for Joint Neural Rendering and Intrinsic Image
Decomposition [67.9464567157846]
合成3Dモデルからリアルな画像を生成するためのオートエンコーダを提案し,同時に実像を本質的な形状と外観特性に分解する。
実験により, レンダリングと分解の併用処理が有益であることが確認され, 画像から画像への翻訳の質的, 定量的なベースラインよりも優れた結果が得られた。
論文 参考訳(メタデータ) (2020-06-29T12:53:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。