Fugu-MT 論文翻訳(概要): Object Pose Estimation via the Aggregation of Diffusion Features

論文の概要: Object Pose Estimation via the Aggregation of Diffusion Features

arxiv url: http://arxiv.org/abs/2403.18791v3
Date: Fri, 18 Oct 2024 07:21:56 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:31.590199
Title: Object Pose Estimation via the Aggregation of Diffusion Features
Title（参考訳）: 拡散特徴の集約によるオブジェクトポス推定
Authors: Tianfu Wang, Guosheng Hu, Hongguang Wang,
Abstract要約: 画像から物体のポーズを推定することは、3Dシーン理解において重要な課題である。最近のアプローチは、目に見えないオブジェクトを扱う場合、大幅なパフォーマンス低下を経験します。粒度の異なる拡散特性を効果的に捕捉・集約できる3つの異なるアーキテクチャを提案する。提案手法は,3つのベンチマークデータセットに対して,最先端の手法よりもかなりの差がある。
参考スコア（独自算出の注目度）: 25.119446464630037
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Estimating the pose of objects from images is a crucial task of 3D scene understanding, and recent approaches have shown promising results on very large benchmarks. However, these methods experience a significant performance drop when dealing with unseen objects. We believe that it results from the limited generalizability of image features. To address this problem, we have an in-depth analysis on the features of diffusion models, e.g. Stable Diffusion, which hold substantial potential for modeling unseen objects. Based on this analysis, we then innovatively introduce these diffusion features for object pose estimation. To achieve this, we propose three distinct architectures that can effectively capture and aggregate diffusion features of different granularity, greatly improving the generalizability of object pose estimation. Our approach outperforms the state-of-the-art methods by a considerable margin on three popular benchmark datasets, LM, O-LM, and T-LESS. In particular, our method achieves higher accuracy than the previous best arts on unseen objects: 97.9% vs. 93.5% on Unseen LM, 85.9% vs. 76.3% on Unseen O-LM, showing the strong generalizability of our method. Our code is released at https://github.com/Tianfu18/diff-feats-pose.
Abstract（参考訳）: 画像からオブジェクトのポーズを推定することは3Dシーン理解の重要な課題であり、最近のアプローチでは、非常に大きなベンチマークで有望な結果を示している。しかしながら、これらのメソッドは、目に見えないオブジェクトを扱う際に、大幅なパフォーマンス低下を経験します。画像特徴の限定的な一般化性から生じると我々は信じている。この問題に対処するために、我々は拡散モデル、例えば安定拡散(Stable Diffusion)の特徴を詳細に分析する。この分析に基づいて、オブジェクトのポーズ推定にこれらの拡散機能を革新的に導入する。そこで本研究では,異なる粒度の拡散特性を効果的に捕捉・集約し,オブジェクトのポーズ推定の一般化性を大幅に向上する3つのアーキテクチャを提案する。提案手法は,3つのベンチマークデータセット,LM,O-LM,T-LESSに対して,最先端の手法よりもかなり優れている。特に,本手法は, 従来の未確認オブジェクトに対して, 97.9%対93.5%, Unseen O-LMでは85.9%対76.3%の精度を達成し, 本手法の強い一般化性を示した。私たちのコードはhttps://github.com/Tianfu18/diff-feats-poseでリリースされています。

関連論文リスト

Diff9D: Diffusion-Based Domain-Generalized Category-Level 9-DoF Object Pose Estimation [68.81887041766373]
ドメイン一般化9-DoFオブジェクトポーズ推定のための拡散に基づくパラダイムを提案する。本研究では,9-DoFオブジェクトのポーズ推定を生成的観点から再定義する効果的な拡散モデルを提案する。提案手法は,最先端の領域一般化性能を実現する。
論文参考訳（メタデータ） (2025-02-04T17:46:34Z)
Category Level 6D Object Pose Estimation from a Single RGB Image using Diffusion [9.025235713063509]
一つのRGB画像からカテゴリレベルのオブジェクトのポーズ推定を行う難しい問題に対処する。本稿では,特定のオブジェクトモデルや深度情報を必要としない新しいソリューションを提案する。我々のアプローチは、REAL275データセットの現在の最先端をかなりのマージンで上回る。
論文参考訳（メタデータ） (2024-12-16T03:39:33Z)
Diffusion Features for Zero-Shot 6DoF Object Pose Estimation [7.949705607963995]
本研究は,ゼロショットポーズ推定における潜在拡散モデル (LDM) のバックボーンの影響を評価する。 LDMを用いたゼロショット方式でポーズを推定するテンプレートベースのマルチステージ手法を提案する。
論文参考訳（メタデータ） (2024-11-25T18:53:56Z)
SEMPose: A Single End-to-end Network for Multi-object Pose Estimation [13.131534219937533]
SEMPoseは、エンドツーエンドの多目的ポーズ推定ネットワークである。 RGB画像以外の入力を必要とせずに32FPSで推論を行うことができる。複数のオブジェクトのポーズをリアルタイムで正確に推定でき、対象オブジェクトの数の影響を受けない推論時間に影響を及ぼす。
論文参考訳（メタデータ） (2024-11-21T10:37:54Z)
PickScan: Object discovery and reconstruction from handheld interactions [99.99566882133179]
シーンの3次元表現を再構成する対話誘導型クラス依存型手法を開発した。我々の主な貢献は、操作対象のインタラクションを検出し、操作対象のマスクを抽出する新しいアプローチである。相互作用ベースとクラス非依存のベースラインであるCo-Fusionと比較すると、これはシャムファー距離の73%の減少に相当する。
論文参考訳（メタデータ） (2024-11-17T23:09:08Z)
DVMNet: Computing Relative Pose for Unseen Objects Beyond Hypotheses [59.51874686414509]
現在のアプローチは、多数の離散的なポーズ仮説を持つ連続的なポーズ表現を近似している。本稿では,DVMNet(Deep Voxel Matching Network)を提案する。提案手法は,最先端の手法に比べて計算コストの低い新しいオブジェクトに対して,より正確なポーズ推定を行う。
論文参考訳（メタデータ） (2024-03-20T15:41:32Z)
FocalPose++: Focal Length and Object Pose Estimation via Render and Compare [35.388094104164175]
本稿では,カメラオブジェクトの6Dポーズとカメラ焦点長を同時推定するニューラルレンダリング・アンド・コンペア手法であるFocalPose++を紹介する。制御不能な環境で、既知の3Dモデルを記述する3つの挑戦的なベンチマークデータセットの結果を示す。
論文参考訳（メタデータ） (2023-11-15T13:28:02Z)
Diff-DOPE: Differentiable Deep Object Pose Estimation [29.703385848843414]
Diff-DOPE, 画像入力を行う6-DoFポーズ精細機, オブジェクトの3次元テクスチャモデル, オブジェクトの初期ポーズを紹介する。この方法は、画像とモデルの投影の間の視覚的エラーを最小限に抑えるために、オブジェクトのポーズを更新するために微分可能なレンダリングを使用する。このシンプルで効果的なアイデアは、ポーズ推定データセットで最先端の結果を得ることができることを示す。
論文参考訳（メタデータ） (2023-09-30T18:52:57Z)
ZebraPose: Coarse to Fine Surface Encoding for 6DoF Object Pose Estimation [76.31125154523056]
物体表面を高密度に表現できる離散ディスクリプタを提案する。また,微粒化対応予測が可能な微粒化学習戦略を提案する。
論文参考訳（メタデータ） (2022-03-17T16:16:24Z)
Modeling Object Dissimilarity for Deep Saliency Prediction [86.14710352178967]
本稿では,複数の物体間の差分をモデル化する検出誘導サリエンシー予測ネットワークについて紹介する。私たちのアプローチは一般的であり、深いサリエンシー予測ネットワークから抽出された特徴とオブジェクトの不類似性を融合させることができます。
論文参考訳（メタデータ） (2021-04-08T16:10:37Z)
Objects are Different: Flexible Monocular 3D Object Detection [87.82253067302561]
そこで本研究では,乱れたオブジェクトを明示的に分離し,オブジェクト深度推定のための複数のアプローチを適応的に組み合わせたモノクル3次元オブジェクト検出のためのフレキシブルなフレームワークを提案する。実験の結果,本手法はkittiベンチマークテストセットにおいて,中等度レベルが27%,硬度が30%と,最先端法を27%上回った。
論文参考訳（メタデータ） (2021-04-06T07:01:28Z)
Contemplating real-world object classification [53.10151901863263]
Barbuらが最近提案したObjectNetデータセットを再分析した。日常の状況に物を含むこと。分離されたオブジェクトにディープモデルを適用すると、元の論文のようにシーン全体ではなく、約20～30%の性能改善が得られます。
論文参考訳（メタデータ） (2021-03-08T23:29:59Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。