論文の概要: Sparse 3D Perception for Rose Harvesting Robots: A Two-Stage Approach Bridging Simulation and Real-World Applications
- arxiv url: http://arxiv.org/abs/2508.00900v1
- Date: Mon, 28 Jul 2025 16:09:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-05 20:32:48.673339
- Title: Sparse 3D Perception for Rose Harvesting Robots: A Two-Stage Approach Bridging Simulation and Real-World Applications
- Title(参考訳): ローズハーベスティングロボットのスパース3次元知覚:2段階のブリッジングシミュレーションと実世界の応用
- Authors: Taha Samavati, Mohsen Soryani, Sina Mansouri,
- Abstract要約: ダマスク・ローズのような薬用植物は人口増加とともに急増しているが、労働集約的な収穫はスケーラビリティのボトルネックとなっている。
そこで本研究では,バラセンタのスパース3D局所化に着目し,花を刈り取るロボットに適した新しい3D知覚パイプラインを提案する。
我々の2段階のアルゴリズムはまずステレオ画像上で2次元点検出を行い、続いて軽量のディープニューラルネットワークを用いて深度推定を行う。
- 参考スコア(独自算出の注目度): 0.5407319151576264
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The global demand for medicinal plants, such as Damask roses, has surged with population growth, yet labor-intensive harvesting remains a bottleneck for scalability. To address this, we propose a novel 3D perception pipeline tailored for flower-harvesting robots, focusing on sparse 3D localization of rose centers. Our two-stage algorithm first performs 2D point-based detection on stereo images, followed by depth estimation using a lightweight deep neural network. To overcome the challenge of scarce real-world labeled data, we introduce a photorealistic synthetic dataset generated via Blender, simulating a dynamic rose farm environment with precise 3D annotations. This approach minimizes manual labeling costs while enabling robust model training. We evaluate two depth estimation paradigms: a traditional triangulation-based method and our proposed deep learning framework. Results demonstrate the superiority of our method, achieving an F1 score of 95.6% (synthetic) and 74.4% (real) in 2D detection, with a depth estimation error of 3% at a 2-meter range on synthetic data. The pipeline is optimized for computational efficiency, ensuring compatibility with resource-constrained robotic systems. By bridging the domain gap between synthetic and real-world data, this work advances agricultural automation for specialty crops, offering a scalable solution for precision harvesting.
- Abstract(参考訳): ダマスクのバラのような医薬品の世界的な需要は人口増加と共に急増しているが、労働集約的な収穫はスケーラビリティのボトルネックとなっている。
そこで本研究では,バラセンタのスパース3Dローカライゼーションに着目し,花を刈り取るロボットに適した新しい3D知覚パイプラインを提案する。
我々の2段階のアルゴリズムはまずステレオ画像上で2次元点検出を行い、続いて軽量のディープニューラルネットワークを用いて深度推定を行う。
実世界のラベル付きデータの不足を克服するため,Blenderを用いて生成したフォトリアリスティックな合成データセットを導入し,動的ローズファーム環境を正確に3Dアノテーションでシミュレートした。
このアプローチは、堅牢なモデルトレーニングを可能にしながら、手動ラベリングコストを最小限にする。
従来の三角法と,提案したディープラーニングフレームワークの2つのパラダイムを評価する。
その結果,F1スコア95.6%(合成)と74.4%(実)を2次元検出で達成し,深度推定誤差を2mの範囲で3%とした。
パイプラインは計算効率に最適化され、資源に制約のあるロボットシステムとの互換性を確保する。
この研究は、合成データと実世界のデータのドメインギャップを埋めることで、専門作物の農業自動化を促進し、精密収穫のためのスケーラブルなソリューションを提供する。
関連論文リスト
- Towards Scalable Spatial Intelligence via 2D-to-3D Data Lifting [64.64738535860351]
単一ビュー画像を包括的・スケール的・外観リアルな3D表現に変換するスケーラブルなパイプラインを提案する。
本手法は,画像の膨大な保存と空間的シーン理解への需要の増大とのギャップを埋めるものである。
画像から精度の高い3Dデータを自動的に生成することにより,データ収集コストを大幅に削減し,空間知性を向上するための新たな道を開く。
論文 参考訳(メタデータ) (2025-07-24T14:53:26Z) - OV-MAP : Open-Vocabulary Zero-Shot 3D Instance Segmentation Map for Robots [18.200635521222267]
OV-MAPは、オブジェクト認識機能を高めるために、オープンな特徴を3Dマップに統合することで、移動ロボットのためのオープンワールド3Dマッピングの新しいアプローチである。
我々は2次元マスクを3次元空間に投影するクラス非依存セグメンテーションモデルと、点雲から生の深度と合成の深度をマージして作成した補足深度画像を組み合わせた。
このアプローチは、3Dマスク投票機構とともに、3D教師付きセグメンテーションモデルに頼ることなく、正確なゼロショット3Dインスタンスセグメンテーションを可能にする。
論文 参考訳(メタデータ) (2025-06-13T08:49:23Z) - R3D2: Realistic 3D Asset Insertion via Diffusion for Autonomous Driving Simulation [78.26308457952636]
本稿では,自律運転シミュレーションの限界を克服する軽量な1ステップ拡散モデルであるR3D2を紹介する。
シャドウや一貫した照明など、妥当なレンダリング効果を生み出すことで、既存のシーンに完全な3Dアセットを現実的に挿入することができる。
R3D2は挿入されたアセットの現実性を大幅に向上させ,テキストから3Dへのアセット挿入やクロスシーン/データセットオブジェクト転送といったユースケースを可能にした。
論文 参考訳(メタデータ) (2025-06-09T14:50:19Z) - ALOcc: Adaptive Lifting-based 3D Semantic Occupancy and Cost Volume-based Flow Prediction [89.89610257714006]
既存の手法は、これらのタスクの要求に応えるために高い精度を優先する。
本稿では,3次元セマンティック占有率予測とフロー推定のための一連の改善点を紹介する。
私たちの純粋な時間的アーキテクチャフレームワークであるALOccは、速度と精度の最適なトレードオフを実現しています。
論文 参考訳(メタデータ) (2024-11-12T11:32:56Z) - Semi-supervised 3D Semantic Scene Completion with 2D Vision Foundation Model Guidance [8.07701188057789]
我々は、高密度な注釈付きデータへの依存を軽減するために、新しい半教師付きフレームワークを導入する。
提案手法は2次元基礎モデルを用いて3次元シーンの幾何学的・意味的手がかりを生成する。
本手法は,10%のラベル付きデータを用いて全教師付き性能の最大85%を達成する。
論文 参考訳(メタデータ) (2024-08-21T12:13:18Z) - Semi-Perspective Decoupled Heatmaps for 3D Robot Pose Estimation from
Depth Maps [66.24554680709417]
協調環境における労働者とロボットの正確な3D位置を知ることは、いくつかの実際のアプリケーションを可能にする。
本研究では、深度デバイスと深度ニューラルネットワークに基づく非侵襲的なフレームワークを提案し、外部カメラからロボットの3次元ポーズを推定する。
論文 参考訳(メタデータ) (2022-07-06T08:52:12Z) - Domain Adaptive 3D Pose Augmentation for In-the-wild Human Mesh Recovery [32.73513554145019]
Domain Adaptive 3D Pose Augmentation (DAPA)は、Wildのシナリオにおけるモデルの一般化能力を向上するデータ拡張手法である。
DAPAによる微調整が3DPWとAGORAのベンチマークの結果を効果的に改善できることを定量的に示す。
論文 参考訳(メタデータ) (2022-06-21T15:02:31Z) - Kimera-Multi: Robust, Distributed, Dense Metric-Semantic SLAM for
Multi-Robot Systems [92.26462290867963]
Kimera-Multiは、最初のマルチロボットシステムであり、不正なインターループとイントラロボットループの閉鎖を識別し拒否することができる。
我々は、フォトリアリスティックシミュレーション、SLAMベンチマークデータセット、地上ロボットを用いて収集された屋外データセットの挑戦において、Kimera-Multiを実証した。
論文 参考訳(メタデータ) (2021-06-28T03:56:40Z) - Secrets of 3D Implicit Object Shape Reconstruction in the Wild [92.5554695397653]
コンピュータビジョン、ロボティクス、グラフィックスの様々な用途において、高精細な3Dオブジェクトをスパースから再構築することは重要です。
最近の神経暗黙的モデリング法は、合成データセットまたは高密度データセットで有望な結果を示す。
しかし、粗末でノイズの多い実世界のデータではパフォーマンスが悪い。
本論文では, 一般的な神経暗黙モデルの性能低下の根本原因を解析する。
論文 参考訳(メタデータ) (2021-01-18T03:24:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。