論文の概要: Category-Level 6D Object Pose Estimation in Agricultural Settings Using a Lattice-Deformation Framework and Diffusion-Augmented Synthetic Data
- arxiv url: http://arxiv.org/abs/2505.24636v1
- Date: Fri, 30 May 2025 14:25:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-02 19:47:52.998781
- Title: Category-Level 6D Object Pose Estimation in Agricultural Settings Using a Lattice-Deformation Framework and Diffusion-Augmented Synthetic Data
- Title(参考訳): 格子変形フレームワークと拡散増強合成データを用いた農業環境におけるカテゴリーレベル6次元オブジェクトポス推定
- Authors: Marios Glytsos, Panagiotis P. Filntisis, George Retsinas, Petros Maragos,
- Abstract要約: 我々は、RGB入力にのみ依存するカテゴリ6D推定のための新しいフレームワークを開発する。
各種形状,大きさ,熟度の評価に挑戦するベンチマーク評価において,本フレームワークの有効性を実証する。
- 参考スコア(独自算出の注目度): 22.68237431620023
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Accurate 6D object pose estimation is essential for robotic grasping and manipulation, particularly in agriculture, where fruits and vegetables exhibit high intra-class variability in shape, size, and texture. The vast majority of existing methods rely on instance-specific CAD models or require depth sensors to resolve geometric ambiguities, making them impractical for real-world agricultural applications. In this work, we introduce PLANTPose, a novel framework for category-level 6D pose estimation that operates purely on RGB input. PLANTPose predicts both the 6D pose and deformation parameters relative to a base mesh, allowing a single category-level CAD model to adapt to unseen instances. This enables accurate pose estimation across varying shapes without relying on instance-specific data. To enhance realism and improve generalization, we also leverage Stable Diffusion to refine synthetic training images with realistic texturing, mimicking variations due to ripeness and environmental factors and bridging the domain gap between synthetic data and the real world. Our evaluations on a challenging benchmark that includes bananas of various shapes, sizes, and ripeness status demonstrate the effectiveness of our framework in handling large intraclass variations while maintaining accurate 6D pose predictions, significantly outperforming the state-of-the-art RGB-based approach MegaPose.
- Abstract(参考訳): 正確な6Dオブジェクトのポーズ推定は、特に果物や野菜が形、大きさ、テクスチャにおいて高いクラス内変動を示す農業において、ロボットの把握と操作に不可欠である。
既存の手法のほとんどは、インスタンス固有のCADモデルに依存したり、幾何学的曖昧さを解決するために深度センサーを必要とするため、現実の農業用途では実用的ではない。
本稿では,RGB入力で純粋に動作するカテゴリレベルの6Dポーズ推定のための新しいフレームワークであるPLANTPoseを紹介する。
PLANTPoseは、ベースメッシュに対する6Dポーズと変形パラメータの両方を予測し、単一のカテゴリレベルのCADモデルが目に見えないインスタンスに適応できるようにする。
これにより、インスタンス固有のデータに頼ることなく、さまざまな形状の正確なポーズ推定が可能になる。
現実性を高め, 一般化を向上させるために, 安定拡散を利用して, リアルなテクスチャで合成訓練画像を洗練し, 熟度や環境要因による変化を模倣し, 合成データと実世界のドメインギャップを埋める。
様々な形状,大きさ,熟度を示すバナナを含む挑戦的ベンチマークによる評価は,高精度な6次元ポーズ予測を維持しつつ,大規模なクラス内変動を扱う上で,我々のフレームワークの有効性を示し,最先端のRGBベースのアプローチであるMegaPoseを著しく上回る結果となった。
関連論文リスト
- Any6D: Model-free 6D Pose Estimation of Novel Objects [76.30057578269668]
我々は,6次元オブジェクトのポーズ推定のためのモデルフリーフレームワークであるAny6Dを紹介する。
新たなシーンでは、未知の物体の6Dポーズと大きさを推定するために、1枚のRGB-Dアンカー画像しか必要としない。
提案手法を5つの挑戦的データセットで評価する。
論文 参考訳(メタデータ) (2025-03-24T13:46:21Z) - Zero123-6D: Zero-shot Novel View Synthesis for RGB Category-level 6D Pose Estimation [66.3814684757376]
本研究は,RGB 6Dのカテゴリレベルでのポーズ推定を向上するための拡散モデルに基づく新規ビュー合成器の実用性を示す最初の研究であるZero123-6Dを示す。
本手法は,データ要求の低減,ゼロショットカテゴリレベルの6Dポーズ推定タスクにおける深度情報の必要性の除去,およびCO3Dデータセットの実験により定量的に示された性能の向上を示す。
論文 参考訳(メタデータ) (2024-03-21T10:38:18Z) - Advancing 6D Pose Estimation in Augmented Reality -- Overcoming Projection Ambiguity with Uncontrolled Imagery [0.0]
本研究では,拡張現実(AR)における正確な6次元ポーズ推定の課題に対処する。
本稿では,z軸変換と焦点長の推定を戦略的に分解する手法を提案する。
この手法は6次元ポーズ推定プロセスの合理化だけでなく、AR設定における3次元オブジェクトのオーバーレイの精度を大幅に向上させる。
論文 参考訳(メタデータ) (2024-03-20T09:22:22Z) - RGB-based Category-level Object Pose Estimation via Decoupled Metric
Scale Recovery [72.13154206106259]
本研究では、6次元のポーズとサイズ推定を分離し、不完全なスケールが剛性変換に与える影響を緩和するパイプラインを提案する。
具体的には,事前学習した単分子推定器を用いて局所的な幾何学的情報を抽出する。
別個のブランチは、カテゴリレベルの統計に基づいてオブジェクトのメートル法スケールを直接復元するように設計されている。
論文 参考訳(メタデータ) (2023-09-19T02:20:26Z) - PhoCaL: A Multi-Modal Dataset for Category-Level Object Pose Estimation
with Photometrically Challenging Objects [45.31344700263873]
我々は、PhoCaLと呼ばれる光度に挑戦するオブジェクトを用いたカテゴリレベルのオブジェクトポーズ推定のためのマルチモーダルデータセットを提案する。
PhoCaLは、高い反射率、透明度、対称度を含む8種類以上の家庭用品の60種類の高品質な3Dモデルで構成されている。
これにより、不透明で光沢のある透明な物体のポーズのサブミリ秒精度が保証され、動きのぼやけも無く、カメラの同期も完璧になる。
論文 参考訳(メタデータ) (2022-05-18T09:21:09Z) - FS6D: Few-Shot 6D Pose Estimation of Novel Objects [116.34922994123973]
6Dオブジェクトポーズ推定ネットワークは、多数のオブジェクトインスタンスにスケールする能力に制限がある。
本研究では,未知の物体の6次元ポーズを,余分な訓練を伴わずにいくつかの支援ビューで推定する。
論文 参考訳(メタデータ) (2022-03-28T10:31:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。