論文の概要: Occlusion Handling by Pushing for Enhanced Fruit Detection
- arxiv url: http://arxiv.org/abs/2604.06341v1
- Date: Tue, 07 Apr 2026 18:21:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-09 17:30:51.177133
- Title: Occlusion Handling by Pushing for Enhanced Fruit Detection
- Title(参考訳): 加圧による咬合ハンドリングによる果実検出の強化
- Authors: Ege Gursoy, Dana Kulić, Andrea Cherubini,
- Abstract要約: この研究は、果実の視界を阻害する枝を駆除し、その視界を高めることを目的としている。
我々は,RGB画像中の隠蔽果実を検出し,その隠蔽部位を深度空間のディープラーニング生成モデルを用いて推定する。
本手法では,果実の外観推定にはディープラーニング,プッシュ方向決定には古典的画像処理,分岐検出には3次元ハフ変換を用いる。
- 参考スコア(独自算出の注目度): 1.2489632787815885
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In agricultural robotics, effective observation and localization of fruits present challenges due to occlusions caused by other parts of the tree, such as branches and leaves. These occlusions can result in false fruit localization or impede the robot from picking the fruit. The objective of this work is to push away branches that block the fruit's view to increase their visibility. Our setup consists of an RGB-D camera and a robot arm. First, we detect the occluded fruit in the RGB image and estimate its occluded part via a deep learning generative model in the depth space. The direction to push to clear the occlusions is determined using classic image processing techniques. We then introduce a 3D extension of the 2D Hough transform to detect straight line segments in the point cloud. This extension helps detect tree branches and identify the one mainly responsible for the occlusion. Finally, we clear the occlusion by pushing the branch with the robot arm. Our method uses a combination of deep learning for fruit appearance estimation, classic image processing for push direction determination, and 3D Hough transform for branch detection. We validate our perception methods through real data under different lighting conditions and various types of fruits (i.e. apple, lemon, orange), achieving improved visibility and successful occlusion clearance. We demonstrate the practical application of our approach through a real robot branch pushing demonstration.
- Abstract(参考訳): 農業ロボット工学において、果実の効果的な観察と局所化は、枝や葉など、木の他の部分によって引き起こされる閉塞に起因する課題である。
これらの閉塞は、偽の果実の局在を引き起こしたり、ロボットが果実を摘むのを妨げたりする。
この研究の目的は、果実の視界を阻害する枝を駆除し、その視界を高めることである。
セットアップはRGB-Dカメラとロボットアームで構成されています。
まず,RGB画像中の隠蔽果実を検出し,その隠蔽部分を深度空間のディープラーニング生成モデルを用いて推定する。
古典的な画像処理技術を用いて、オクルージョンをクリアするために押す方向を決定する。
次に、2次元ハフ変換の3次元拡張を導入し、点雲内の直線セグメントを検出する。
この拡張は、木の枝を検出し、主に閉塞の原因となる枝を特定するのに役立つ。
最後に,ロボットアームで枝を押して咬合を除去する。
本手法では,果実の外観推定にはディープラーニング,プッシュ方向決定には古典的画像処理,分岐検出には3次元ハフ変換を用いる。
異なる照明条件および様々な種類の果実(リンゴ,レモン,オレンジ)で実データを用いて認識方法を検証することにより,視認性の向上と咬合クリアランスの達成を実現した。
本稿では,実際のロボットのプッシュデモを通じて,我々のアプローチの実践的応用を実証する。
関連論文リスト
- RoboTAG: End-to-end Robot Configuration Estimation via Topological Alignment Graph [62.270763554624615]
単眼のRGB画像からロボットのポーズを推定することは、ロボット工学とコンピュータビジョンにおける課題である。
既存の手法は通常、2Dビジュアルバックボーン上にネットワークを構築し、トレーニングのためにラベル付きデータに大きく依存する。
ロボットトポロジカルアライメントグラフ(RoboTAG)を提案する。このグラフは3次元分岐を組み込んで3次元前処理を注入し、2次元および3次元表現の共進化を可能にする。
論文 参考訳(メタデータ) (2025-11-11T00:49:15Z) - Manipulation as in Simulation: Enabling Accurate Geometry Perception in Robots [55.43376513158555]
カメラ深度モデル (CDMs) は日用深度カメラの単純なプラグインである。
我々は,ディープカメラのノイズパターンをモデル化することにより,シミュレーションから高品質なペアデータを生成するニューラルデータエンジンを開発した。
私たちの実験では、ノイズや現実世界の微調整を必要とせず、生のシミュレートされた深さで訓練されたポリシーが、現実のロボットにシームレスに一般化されることを初めて実証しました。
論文 参考訳(メタデータ) (2025-09-02T17:29:38Z) - Horticultural Temporal Fruit Monitoring via 3D Instance Segmentation and Re-Identification using Colored Point Clouds [29.23207854514898]
本研究では, 時間とともに収集された3次元地上点雲における実例分割と再同定のための新しい手法を提案する。
提案手法は, 濃密な色の点雲を直接操作し, きめ細かい3次元空間的詳細を捉える。
イチゴとリンゴの実際のデータセットに対する我々のアプローチを評価し、インスタンスのセグメンテーションと時間的再同定の両方において既存の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-11-12T13:53:22Z) - FruitNeRF: A Unified Neural Radiance Field based Fruit Counting Framework [5.363729942767801]
FruitNeRFは,新鮮果実のカウンティングフレームワークである。
我々は3Dで直接果物の種類を数えるために最先端のビュー合成法を用いる。
実世界のデータセットと合成データセットの両方を用いて,本手法の評価を行った。
論文 参考訳(メタデータ) (2024-08-12T14:40:38Z) - SUGAR: Pre-training 3D Visual Representations for Robotics [85.55534363501131]
ロボット工学のための新しい3D事前学習フレームワークSUGARを紹介した。
SUGARは3次元の点雲を通してオブジェクトの意味的、幾何学的、および余分な特性をキャプチャする。
SuGARの3D表現は最先端の2Dおよび3D表現よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-04-01T21:23:03Z) - A pipeline for multiple orange detection and tracking with 3-D fruit
relocalization and neural-net based yield regression in commercial citrus
orchards [0.0]
本稿では,パイプラインとして実装されたビデオの果実数を利用した非侵襲的な代替手段を提案する。
そこで本研究では, 果実位置の3次元推定を利用した再局在化成分を導入する。
果実の少なくとも30%を正確に検出・追跡・数えることにより, 収率回帰器の精度は0.85である。
論文 参考訳(メタデータ) (2023-12-27T21:22:43Z) - Neural feels with neural fields: Visuo-tactile perception for in-hand
manipulation [57.60490773016364]
マルチフィンガーハンドの視覚と触覚を組み合わせることで,手動操作時の物体の姿勢と形状を推定する。
提案手法であるNeuralFeelsは,ニューラルネットワークをオンラインで学習することでオブジェクトの形状を符号化し,ポーズグラフ問題を最適化して共同で追跡する。
私たちの結果は、タッチが少なくとも、洗練され、そして最も最良のものは、手動操作中に視覚的推定を曖昧にすることを示しています。
論文 参考訳(メタデータ) (2023-12-20T22:36:37Z) - Leveraging Single-View Images for Unsupervised 3D Point Cloud Completion [53.93172686610741]
Cross-PCCは3次元完全点雲を必要としない教師なしの点雲補完法である。
2次元画像の相補的な情報を活用するために,単視点RGB画像を用いて2次元特徴を抽出する。
我々の手法は、いくつかの教師付き手法に匹敵する性能を達成できる。
論文 参考訳(メタデータ) (2022-12-01T15:11:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。