Fugu-MT 論文翻訳(概要): Novel Object Viewpoint Estimation through Reconstruction Alignment

論文の概要: Novel Object Viewpoint Estimation through Reconstruction Alignment

arxiv url: http://arxiv.org/abs/2006.03586v1
Date: Fri, 5 Jun 2020 17:58:14 GMT
ステータス: 翻訳完了
システム内更新日: 2022-11-25 04:01:45.623854
Title: Novel Object Viewpoint Estimation through Reconstruction Alignment
Title（参考訳）: リコンストラクションアライメントによる新しい物体視点推定
Authors: Mohamed El Banani, Jason J. Corso, David F. Fouhey
Abstract要約: 我々は、新しい対象の視点を推定するために再構成と整合性アプローチを学ぶ。具体的には、2つのネットワークを学習することを提案する。最初の1つは3次元幾何学的特徴ボトルネックに画像をマッピングし、画像から画像への変換損失を学習する。テスト時に、我々のモデルは、テスト画像のボトルネック特徴と参照画像とを最もよく一致させる相対変換を見つけます。
参考スコア（独自算出の注目度）: 45.16865218423492
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The goal of this paper is to estimate the viewpoint for a novel object. Standard viewpoint estimation approaches generally fail on this task due to their reliance on a 3D model for alignment or large amounts of class-specific training data and their corresponding canonical pose. We overcome those limitations by learning a reconstruct and align approach. Our key insight is that although we do not have an explicit 3D model or a predefined canonical pose, we can still learn to estimate the object's shape in the viewer's frame and then use an image to provide our reference model or canonical pose. In particular, we propose learning two networks: the first maps images to a 3D geometry-aware feature bottleneck and is trained via an image-to-image translation loss; the second learns whether two instances of features are aligned. At test time, our model finds the relative transformation that best aligns the bottleneck features of our test image to a reference image. We evaluate our method on novel object viewpoint estimation by generalizing across different datasets, analyzing the impact of our different modules, and providing a qualitative analysis of the learned features to identify what representations are being learnt for alignment.
Abstract（参考訳）: 本稿の目的は,新しい対象の視点を推定することである。標準視点推定手法は, 多数のクラス固有のトレーニングデータとそれに対応する標準ポーズをアライメントする3Dモデルに依存しているため, 一般的には, この課題において失敗する。再構成と整合性アプローチを学ぶことで、これらの制限を克服します。私たちのキーとなる洞察は、明示的な3Dモデルや定義済みの標準ポーズは持っていませんが、ビューアのフレーム内のオブジェクトの形状を推定し、イメージを使用して参照モデルや標準ポーズを提供します。特に,2つのネットワークの学習を提案する。第1は画像から画像への変換損失を学習し,第2は2つの特徴が一致しているかどうかを学習する。テスト時に、我々のモデルは、テスト画像のボトルネック特徴と参照画像とを最もよく一致させる相対変換を見つけます。提案手法は,異なるデータセットにまたがって一般化し,異なるモジュールの影響を分析し,学習した特徴の質的分析を行い,どの表現がアライメントのために学習されているかを特定することで,新たなオブジェクト視点推定手法を評価する。

関連論文リスト

One2Any: One-Reference 6D Pose Estimation for Any Object [98.50085481362808]
6Dオブジェクトのポーズ推定は、完全な3Dモデルへの依存、マルチビューイメージ、特定のオブジェクトカテゴリに限定したトレーニングのため、多くのアプリケーションにとって依然として困難である。本稿では,単一の参照単一クエリRGB-D画像のみを用いて,相対6自由度(DOF)オブジェクトのポーズを推定する新しい手法One2Anyを提案する。複数のベンチマークデータセットの実験により、我々のモデルは新しいオブジェクトによく一般化し、最先端の精度を実現し、また、コンピュータのごく一部でマルチビューやCAD入力を必要とする競合する手法さえも実現している。
論文参考訳（メタデータ） (2025-05-07T03:54:59Z)
FLARE: Feed-forward Geometry, Appearance and Camera Estimation from Uncalibrated Sparse Views [93.6881532277553]
FLAREは、高品質カメラのポーズと3次元幾何を、補正されていないスパースビュー画像から推定するために設計されたフィードフォワードモデルである。本ソリューションでは,3次元構造を2次元画像平面にマッピングする上で,カメラポーズが重要なブリッジとして機能するケースケード学習パラダイムを特徴とする。
論文参考訳（メタデータ） (2025-02-17T18:54:05Z)
Orient Anything: Learning Robust Object Orientation Estimation from Rendering 3D Models [79.96917782423219]
オリエント・アプライシング(Orient Anything)は、1つの画像でオブジェクトの向きを推定するために設計された最初のエキスパートで基礎的なモデルである。 3Dオブジェクトの前面にアノテートするパイプラインを開発することで、正確な向きのアノテーションで2Mイメージを収集する。本モデルでは,レンダリング画像と実画像の両方において,最先端の向き推定精度を実現する。
論文参考訳（メタデータ） (2024-12-24T18:58:43Z)
Generalizable Single-view Object Pose Estimation by Two-side Generating and Matching [19.730504197461144]
本稿では,RGB画像のみを用いてオブジェクトのポーズを決定するために,新しい一般化可能なオブジェクトポーズ推定手法を提案する。本手法は,オブジェクトの参照画像1枚で操作し,3次元オブジェクトモデルやオブジェクトの複数ビューの必要性を解消する。
論文参考訳（メタデータ） (2024-11-24T14:31:50Z)
Unsupervised Learning of Category-Level 3D Pose from Object-Centric Videos [15.532504015622159]
カテゴリーレベルの3Dポーズ推定は、コンピュータビジョンとロボット工学において基本的に重要な問題である。カテゴリーレベルの3Dポーズを,カジュアルに撮られた対象中心の動画からのみ推定する学習の課題に取り組む。
論文参考訳（メタデータ） (2024-07-05T09:43:05Z)
FoundationPose: Unified 6D Pose Estimation and Tracking of Novel Objects [55.77542145604758]
FoundationPoseは、6Dオブジェクトのポーズ推定と追跡のための統合基盤モデルである。我々のアプローチは、微調整なしで、テスト時に新しいオブジェクトに即座に適用できる。
論文参考訳（メタデータ） (2023-12-13T18:28:09Z)
GS-Pose: Category-Level Object Pose Estimation via Geometric and Semantic Correspondence [5.500735640045456]
カテゴリーレベルのポーズ推定は、コンピュータビジョンやロボット工学における多くの潜在的な応用において難しい課題である。本稿では,事前学習した基礎モデルから得られる幾何学的特徴と意味的特徴の両方を活用することを提案する。これは、セマンティックな特徴がオブジェクトのテクスチャや外観に対して堅牢であるため、以前のメソッドよりもトレーニングするデータを大幅に少なくする。
論文参考訳（メタデータ） (2023-11-23T02:35:38Z)
MegaPose: 6D Pose Estimation of Novel Objects via Render & Compare [84.80956484848505]
MegaPoseは、トレーニング中に見えない新しいオブジェクトの6Dポーズを推定する方法である。本稿では,新しいオブジェクトに適用可能なR&Compare戦略に基づく6次元ポーズリファインダを提案する。第2に,合成レンダリングと同一物体の観察画像間のポーズ誤差をリファインダで補正できるか否かを分類するために訓練されたネットワークを利用する,粗いポーズ推定のための新しいアプローチを提案する。
論文参考訳（メタデータ） (2022-12-13T19:30:03Z)
Semantic keypoint-based pose estimation from single RGB frames [64.80395521735463]
一つのRGB画像からオブジェクトの連続6-DoFポーズを推定する手法を提案する。このアプローチは、畳み込みネットワーク(convnet)によって予測されるセマンティックキーポイントと、変形可能な形状モデルを組み合わせる。提案手法は,インスタンスベースのシナリオとクラスベースのシナリオの両方に対して,6-DoFオブジェクトのポーズを正確に復元できることを示す。
論文参考訳（メタデータ） (2022-04-12T15:03:51Z)
Leveraging SE(3) Equivariance for Self-Supervised Category-Level Object Pose Estimation [30.04752448942084]
カテゴリーレベルのオブジェクトポーズ推定は、オブジェクトCADモデルにアクセスすることなく、既知のカテゴリから未確認のオブジェクトインスタンスの6Dオブジェクトポーズを見つけることを目的としている。本研究では,1つの3次元点群からカテゴリレベルの6次元オブジェクトのポーズを推定する自己教師型学習フレームワークを初めて提案する。
論文参考訳（メタデータ） (2021-10-30T06:46:44Z)
A Divide et Impera Approach for 3D Shape Reconstruction from Multiple Views [49.03830902235915]
物体の3次元形状を1つまたは複数の画像から推定することは、最近のディープラーニングによるブレークスルーによって人気を集めている。本稿では,与えられた視点からの可視情報を統合することで,視点変化の再構築に頼ることを提案する。提案手法を検証するために,相対的なポーズ推定と3次元形状再構成の観点から,ShapeNet参照ベンチマークの総合評価を行った。
論文参考訳（メタデータ） (2020-11-17T09:59:32Z)
Shape and Viewpoint without Keypoints [63.26977130704171]
本研究では,1枚の画像から3次元形状,ポーズ,テクスチャを復元する学習フレームワークを提案する。我々は,3次元形状,マルチビュー,カメラ視点,キーポイントの監督なしに画像収集を訓練した。我々は、最先端のカメラ予測結果を取得し、オブジェクト間の多様な形状やテクスチャを予測することを学べることを示す。
論文参考訳（メタデータ） (2020-07-21T17:58:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。