論文の概要: RayPose: Ray Bundling Diffusion for Template Views in Unseen 6D Object Pose Estimation
- arxiv url: http://arxiv.org/abs/2510.18521v1
- Date: Tue, 21 Oct 2025 11:01:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:13.441726
- Title: RayPose: Ray Bundling Diffusion for Template Views in Unseen 6D Object Pose Estimation
- Title(参考訳): RayPose: 見えない6次元オブジェクトポス推定におけるテンプレートビューのための光束拡散
- Authors: Junwen Huang, Shishir Reddy Vutukur, Peter KT Yu, Nassir Navab, Slobodan Ilic, Benjamin Busam,
- Abstract要約: テンプレートベースのオブジェクトポーズ推定をレイアライメント問題として再構成する。
拡散型カメラポーズ推定の最近の進歩に触発されて,この定式化を拡散変圧器アーキテクチャに組み込む。
狭められたテンプレートサンプリングに基づく粗大なトレーニング戦略は、ネットワークアーキテクチャを変更することなく性能を向上させる。
- 参考スコア(独自算出の注目度): 57.182509595660946
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Typical template-based object pose pipelines estimate the pose by retrieving the closest matching template and aligning it with the observed image. However, failure to retrieve the correct template often leads to inaccurate pose predictions. To address this, we reformulate template-based object pose estimation as a ray alignment problem, where the viewing directions from multiple posed template images are learned to align with a non-posed query image. Inspired by recent progress in diffusion-based camera pose estimation, we embed this formulation into a diffusion transformer architecture that aligns a query image with a set of posed templates. We reparameterize object rotation using object-centered camera rays and model object translation by extending scale-invariant translation estimation to dense translation offsets. Our model leverages geometric priors from the templates to guide accurate query pose inference. A coarse-to-fine training strategy based on narrowed template sampling improves performance without modifying the network architecture. Extensive experiments across multiple benchmark datasets show competitive results of our method compared to state-of-the-art approaches in unseen object pose estimation.
- Abstract(参考訳): 典型的なテンプレートベースのオブジェクトポーズパイプラインは、最も近いマッチングテンプレートを取得して、観察されたイメージと整列することで、ポーズを推定する。
しかし、正しいテンプレートを取得するのに失敗すると、しばしば不正確なポーズ予測が発生する。
これを解決するために、テンプレートベースのオブジェクトポーズ推定をレイアライメント問題として再構成し、複数のテンプレート画像からの表示方向を非ポーズのクエリ画像と整合させる。
拡散型カメラのポーズ推定の最近の進歩に触発されて、この定式化を拡散トランスフォーマーアーキテクチャに組み込み、クエリ画像を一連のテンプレートに整列させる。
オブジェクト中心のカメラ線とモデルオブジェクト変換を用いてオブジェクトの回転をパラメータ化し、スケール不変の変換推定を高密度の翻訳オフセットに拡張する。
我々のモデルは、テンプレートからの幾何学的事前情報を利用して、正確なクエリポーズ推論を導出する。
狭められたテンプレートサンプリングに基づく粗大なトレーニング戦略は、ネットワークアーキテクチャを変更することなく性能を向上させる。
複数のベンチマークデータセットにまたがる大規模な実験は、未確認オブジェクトのポーズ推定における最先端のアプローチと比較して、我々の手法の競合結果を示している。
関連論文リスト
- Co-op: Correspondence-based Novel Object Pose Estimation [14.598853174946656]
Co-opは、単一のRGB画像からトレーニング中に見えない物体の6DoFポーズを正確かつ堅牢に推定する新しい方法である。
本手法では,対象オブジェクトのCADモデルのみを必要としており,追加の微調整を伴わずにそのポーズを正確に推定することができる。
論文 参考訳(メタデータ) (2025-03-22T11:24:19Z) - Diffeomorphic Template Registration for Atmospheric Turbulence Mitigation [50.16004183320537]
大気の乱流により劣化した画像の集合体に基づく放射能の回復法について述べる。
画像の1つを参照として選択し、その画像から他の画像への光フローの集約により、この画像の変形をモデル化する。
単純さに拘わらず、最先端のパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2024-05-06T17:39:53Z) - FoundationPose: Unified 6D Pose Estimation and Tracking of Novel Objects [55.77542145604758]
FoundationPoseは、6Dオブジェクトのポーズ推定と追跡のための統合基盤モデルである。
我々のアプローチは、微調整なしで、テスト時に新しいオブジェクトに即座に適用できる。
論文 参考訳(メタデータ) (2023-12-13T18:28:09Z) - FoundPose: Unseen Object Pose Estimation with Foundation Features [11.32559845631345]
FoundPoseは、単一のRGB画像から見えないオブジェクトを6Dポーズで推定するモデルベースの手法である。
この方法は、オブジェクトやタスク固有のトレーニングを必要とせずに、3Dモデルを使って、新しいオブジェクトを素早くオンボードできる。
論文 参考訳(メタデータ) (2023-11-30T18:52:29Z) - DTF-Net: Category-Level Pose Estimation and Shape Reconstruction via
Deformable Template Field [29.42222066097076]
RGB-Depth画像ペアから、オープンワールドシーンの6Dポーズの推定と3D形状の再構築は困難である。
本稿では,オブジェクトカテゴリの暗黙的ニューラルネットワークに基づくポーズ推定と形状再構成のための新しいフレームワークであるDTF-Netを提案する。
論文 参考訳(メタデータ) (2023-08-04T10:35:40Z) - LocPoseNet: Robust Location Prior for Unseen Object Pose Estimation [69.70498875887611]
LocPoseNetは、見えないオブジェクトに先立って、ロバストにロケーションを学習することができる。
提案手法は,LINEMOD と GenMOP において,既存の作業よりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-11-29T15:21:34Z) - Category Level Object Pose Estimation via Neural Analysis-by-Synthesis [64.14028598360741]
本稿では、勾配に基づくフィッティング法とパラメトリックニューラルネットワーク合成モジュールを組み合わせる。
画像合成ネットワークは、ポーズ設定空間を効率的に分散するように設計されている。
本研究では,2次元画像のみから高精度に物体の向きを復元できることを実験的に示す。
論文 参考訳(メタデータ) (2020-08-18T20:30:47Z) - Novel Object Viewpoint Estimation through Reconstruction Alignment [45.16865218423492]
我々は、新しい対象の視点を推定するために再構成と整合性アプローチを学ぶ。
具体的には、2つのネットワークを学習することを提案する。最初の1つは3次元幾何学的特徴ボトルネックに画像をマッピングし、画像から画像への変換損失を学習する。
テスト時に、我々のモデルは、テスト画像のボトルネック特徴と参照画像とを最もよく一致させる相対変換を見つけます。
論文 参考訳(メタデータ) (2020-06-05T17:58:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。