Fugu-MT 論文翻訳(概要): Generalizable Single-view Object Pose Estimation by Two-side Generating and Matching

論文の概要: Generalizable Single-view Object Pose Estimation by Two-side Generating and Matching

arxiv url: http://arxiv.org/abs/2411.15860v1
Date: Sun, 24 Nov 2024 14:31:50 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:50.608445
Title: Generalizable Single-view Object Pose Estimation by Two-side Generating and Matching
Title（参考訳）: 双方向生成とマッチングによる一般化可能な単一視点オブジェクトのポース推定
Authors: Yujing Sun, Caiyi Sun, Yuan Liu, Yuexin Ma, Siu Ming Yiu,
Abstract要約: 本稿では,RGB画像のみを用いてオブジェクトのポーズを決定するために,新しい一般化可能なオブジェクトポーズ推定手法を提案する。本手法は,オブジェクトの参照画像1枚で操作し,3次元オブジェクトモデルやオブジェクトの複数ビューの必要性を解消する。
参考スコア（独自算出の注目度）: 19.730504197461144
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In this paper, we present a novel generalizable object pose estimation method to determine the object pose using only one RGB image. Unlike traditional approaches that rely on instance-level object pose estimation and necessitate extensive training data, our method offers generalization to unseen objects without extensive training, operates with a single reference image of the object, and eliminates the need for 3D object models or multiple views of the object. These characteristics are achieved by utilizing a diffusion model to generate novel-view images and conducting a two-sided matching on these generated images. Quantitative experiments demonstrate the superiority of our method over existing pose estimation techniques across both synthetic and real-world datasets. Remarkably, our approach maintains strong performance even in scenarios with significant viewpoint changes, highlighting its robustness and versatility in challenging conditions. The code will be re leased at https://github.com/scy639/Gen2SM.
Abstract（参考訳）: 本稿では,RGB画像のみを用いてオブジェクトのポーズを決定するために,新しい一般化可能なオブジェクトポーズ推定手法を提案する。インスタンスレベルのオブジェクトのポーズ推定や広範囲なトレーニングデータを必要とする従来のアプローチとは異なり,本手法では,広範囲なトレーニングを伴わないオブジェクトの一般化や,オブジェクトの参照イメージの単一化,3次元オブジェクトモデルやオブジェクトの複数ビューの不要化などが実現されている。これらの特徴は、拡散モデルを用いて、新規なビュー画像を生成し、これらの生成された画像に対して両側のマッチングを実行することによって達成される。定量的実験により,既存のポーズ推定手法よりも,合成および実世界の両方のデータセットの方が優れていることが示された。注目すべきは、当社のアプローチは、大きな視点の変化のあるシナリオにおいても強力なパフォーマンスを維持しており、課題のある状況において、その堅牢性と汎用性を強調しています。コードはhttps://github.com/scy639/Gen2SMで再リースされる。

関連論文リスト

PoseGAM: Robust Unseen Object Pose Estimation via Geometry-Aware Multi-View Reasoning [49.66437612420291]
PoseGAMは、クエリ画像と複数のテンプレート画像からオブジェクトのポーズを直接予測する幾何学的なマルチビューフレームワークである。多様な環境条件下で190k以上のオブジェクトを含む大規模合成データセットを構築した。
論文参考訳（メタデータ） (2025-12-11T17:29:25Z)
One2Any: One-Reference 6D Pose Estimation for Any Object [98.50085481362808]
6Dオブジェクトのポーズ推定は、完全な3Dモデルへの依存、マルチビューイメージ、特定のオブジェクトカテゴリに限定したトレーニングのため、多くのアプリケーションにとって依然として困難である。本稿では,単一の参照単一クエリRGB-D画像のみを用いて,相対6自由度(DOF)オブジェクトのポーズを推定する新しい手法One2Anyを提案する。複数のベンチマークデータセットの実験により、我々のモデルは新しいオブジェクトによく一般化し、最先端の精度を実現し、また、コンピュータのごく一部でマルチビューやCAD入力を必要とする競合する手法さえも実現している。
論文参考訳（メタデータ） (2025-05-07T03:54:59Z)
Extreme Two-View Geometry From Object Poses with Diffusion Models [21.16779160086591]
オブジェクト先行のパワーを利用して、極端な視点変化に直面した2次元幾何学を正確に決定する。実験では, 大局的な視点変化に対して, 突如として頑健さと弾力性を示した。
論文参考訳（メタデータ） (2024-02-05T08:18:47Z)
FoundationPose: Unified 6D Pose Estimation and Tracking of Novel Objects [55.77542145604758]
FoundationPoseは、6Dオブジェクトのポーズ推定と追跡のための統合基盤モデルである。我々のアプローチは、微調整なしで、テスト時に新しいオブジェクトに即座に適用できる。
論文参考訳（メタデータ） (2023-12-13T18:28:09Z)
GS-Pose: Category-Level Object Pose Estimation via Geometric and Semantic Correspondence [5.500735640045456]
カテゴリーレベルのポーズ推定は、コンピュータビジョンやロボット工学における多くの潜在的な応用において難しい課題である。本稿では,事前学習した基礎モデルから得られる幾何学的特徴と意味的特徴の両方を活用することを提案する。これは、セマンティックな特徴がオブジェクトのテクスチャや外観に対して堅牢であるため、以前のメソッドよりもトレーニングするデータを大幅に少なくする。
論文参考訳（メタデータ） (2023-11-23T02:35:38Z)
3D-Aware Hypothesis & Verification for Generalizable Relative Object Pose Estimation [69.73691477825079]
一般化可能なオブジェクトポーズ推定の問題に対処する新しい仮説検証フレームワークを提案する。信頼性を計測するために,2つの入力画像から学習した3次元オブジェクト表現に3次元変換を明示的に適用する3D認識検証を導入する。
論文参考訳（メタデータ） (2023-10-05T13:34:07Z)
MegaPose: 6D Pose Estimation of Novel Objects via Render & Compare [84.80956484848505]
MegaPoseは、トレーニング中に見えない新しいオブジェクトの6Dポーズを推定する方法である。本稿では,新しいオブジェクトに適用可能なR&Compare戦略に基づく6次元ポーズリファインダを提案する。第2に,合成レンダリングと同一物体の観察画像間のポーズ誤差をリファインダで補正できるか否かを分類するために訓練されたネットワークを利用する,粗いポーズ推定のための新しいアプローチを提案する。
論文参考訳（メタデータ） (2022-12-13T19:30:03Z)
Generative Category-Level Shape and Pose Estimation with Semantic Primitives [27.692997522812615]
本稿では,1枚のRGB-D画像からカテゴリレベルのオブジェクト形状とポーズ推定を行う新しいフレームワークを提案する。カテゴリ内変動に対処するために、様々な形状を統一された潜在空間にエンコードするセマンティックプリミティブ表現を採用する。提案手法は,実世界のデータセットにおいて,SOTAのポーズ推定性能とより優れた一般化を実現する。
論文参考訳（メタデータ） (2022-10-03T17:51:54Z)
Fusing Local Similarities for Retrieval-based 3D Orientation Estimation of Unseen Objects [70.49392581592089]
我々は,モノクロ画像から未確認物体の3次元配向を推定する作業に取り組む。我々は検索ベースの戦略に従い、ネットワークがオブジェクト固有の特徴を学習するのを防ぐ。また,LineMOD,LineMOD-Occluded,T-LESSのデータセットを用いた実験により,本手法が従来の手法よりもはるかに優れた一般化をもたらすことが示された。
論文参考訳（メタデータ） (2022-03-16T08:53:00Z)
Disentangled Implicit Shape and Pose Learning for Scalable 6D Pose Estimation [44.8872454995923]
単一オートエンコーダを用いた複数オブジェクトの合成データに対する自己教師付き学習により,スケーラブルな6次元ポーズ推定のための新しい手法を提案する。提案手法は,T-LESS と NOCS REAL275 という実データを持つ2つのマルチオブジェクトベンチマークで検証し,ポーズ推定精度と一般化の点で既存の RGB 法より優れていることを示す。
論文参考訳（メタデータ） (2021-07-27T01:55:30Z)
Single View Metrology in the Wild [94.7005246862618]
本研究では,物体の3次元の高さや地上のカメラの高さで表現されるシーンの絶対的なスケールを再現する,単一ビューメロジに対する新しいアプローチを提案する。本手法は,被写体の高さなどの3Dエンティティによる未知のカメラとの相互作用から,弱い教師付き制約を抑えるために設計されたディープネットワークによって学習されたデータ駆動の先行情報に依存する。いくつかのデータセットと仮想オブジェクト挿入を含むアプリケーションに対して、最先端の定性的かつ定量的な結果を示す。
論文参考訳（メタデータ） (2020-07-18T22:31:33Z)
Object-Centric Image Generation from Layouts [93.10217725729468]
複数のオブジェクトを持つ複雑なシーンを生成するレイアウト・ツー・イメージ生成法を開発した。本手法は,シーン内のオブジェクト間の空間的関係の表現を学習し,レイアウトの忠実度の向上につながる。本稿では,Fr'echet Inception Distanceのオブジェクト中心適応であるSceneFIDを紹介する。
論文参考訳（メタデータ） (2020-03-16T21:40:09Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。