論文の概要: Sparse Pose Trajectory Completion
- arxiv url: http://arxiv.org/abs/2105.00125v1
- Date: Sat, 1 May 2021 00:07:21 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-06 05:18:15.685281
- Title: Sparse Pose Trajectory Completion
- Title(参考訳): Sparse Pose Trajectory Completion
- Authors: Bo Liu, Mandar Dixit, Roland Kwitt, Gang Hua, Nuno Vasconcelos
- Abstract要約: サンプルの少ないビューにのみオブジェクトが出現するデータセットを使用しても学習する方法を提案する。
これはクロスモーダルポーズ軌道伝達機構によって実現される。
この手法はPix3DおよびShapeNetデータセット上で評価される。
- 参考スコア(独自算出の注目度): 87.31270669154452
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose a method to learn, even using a dataset where objects appear only
in sparsely sampled views (e.g. Pix3D), the ability to synthesize a pose
trajectory for an arbitrary reference image. This is achieved with a
cross-modal pose trajectory transfer mechanism. First, a domain transfer
function is trained to predict, from an RGB image of the object, its 2D depth
map. Then, a set of image views is generated by learning to simulate object
rotation in the depth space. Finally, the generated poses are mapped from this
latent space into a set of corresponding RGB images using a learned identity
preserving transform. This results in a dense pose trajectory of the object in
image space. For each object type (e.g., a specific Ikea chair model), a 3D CAD
model is used to render a full pose trajectory of 2D depth maps. In the absence
of dense pose sampling in image space, these latent space trajectories provide
cross-modal guidance for learning. The learned pose trajectories can be
transferred to unseen examples, effectively synthesizing all object views in
image space. Our method is evaluated on the Pix3D and ShapeNet datasets, in the
setting of novel view synthesis under sparse pose supervision, demonstrating
substantial improvements over recent art.
- Abstract(参考訳): オブジェクトがスパースサンプリングされたビュー(例)にのみ現れるデータセットを用いて学習する手法を提案する。
Pix3D) 任意の参照画像に対してポーズ軌跡を合成する機能。
これはクロスモーダルポーズ軌道伝達機構によって達成される。
第一に、ドメイン転送関数は、オブジェクトのRGB画像、その2次元深さマップから予測するように訓練される。
そして、深度空間における物体回転をシミュレートする学習により、一連の画像ビューを生成する。
最後に、生成されたポーズをこの潜伏空間から学習ID保存変換を用いて対応するRGB画像の集合にマッピングする。
これにより、画像空間内の物体の密なポーズ軌跡が得られる。
各オブジェクトタイプ(例えば、特定のIKEAチェアモデル)に対して、3次元CADモデルを使用して2次元深度マップの完全なポーズ軌跡を描画する。
画像空間に濃密なポーズサンプリングがない場合、これらの潜在空間軌道は学習のためのクロスモーダルガイダンスを提供する。
学習されたポーズの軌跡は見えない例に転送でき、画像空間内のすべてのオブジェクトビューを効果的に合成することができる。
提案手法はPix3DとShapeNetのデータセットを用いて,スパースポーズの監督下での新規ビュー合成の設定において評価され,最近の技術よりも大幅に改善されている。
関連論文リスト
- Generating Visual Spatial Description via Holistic 3D Scene
Understanding [88.99773815159345]
視覚空間記述(VSD)は、画像内の対象物の空間的関係を記述するテキストを生成することを目的としている。
外部の3Dシーン抽出器を用いて,入力画像の3Dオブジェクトとシーン特徴を抽出する。
対象物の中心となる3次元空間シーングラフ(Go3D-S2G)を構築し,対象物の空間意味を総合的な3次元シーン内にモデル化する。
論文 参考訳(メタデータ) (2023-05-19T15:53:56Z) - 3D Surface Reconstruction in the Wild by Deforming Shape Priors from
Synthetic Data [24.97027425606138]
1枚の画像から被写体の3次元表面を再構築することは難しい問題である。
本稿では,1枚の画像から3次元合成とオブジェクトポーズ推定を行う新しい手法を提案する。
提案手法は,複数の実世界のデータセットにまたがって,最先端の再構築性能を実現する。
論文 参考訳(メタデータ) (2023-02-24T20:37:27Z) - GaussiGAN: Controllable Image Synthesis with 3D Gaussians from Unposed
Silhouettes [48.642181362172906]
対象物の粗い3次元表現を多視点2次元マスク監視から学習するアルゴリズムを提案する。
既存のボクセルを用いた物体再構成法とは対照的に,提案手法は生成した形状やポーズを表現することを学ぶ。
リアル照明を用いた合成データセットの結果を示し、対話的なポーズによるオブジェクト挿入を実証する。
論文 参考訳(メタデータ) (2021-06-24T17:47:58Z) - Neural Articulated Radiance Field [90.91714894044253]
本稿では,画像から学習した明瞭な物体に対する新しい変形可能な3次元表現であるニューラルArticulated Radiance Field(NARF)を提案する。
実験の結果,提案手法は効率的であり,新しいポーズにうまく一般化できることがわかった。
論文 参考訳(メタデータ) (2021-04-07T13:23:14Z) - Fully Understanding Generic Objects: Modeling, Segmentation, and
Reconstruction [33.95791350070165]
2D画像からジェネリックオブジェクトの3D構造を推定することは、コンピュータビジョンの長年の目標です。
半教師付き学習による代替アプローチを取る。
つまり、ジェネリックオブジェクトの2Dイメージでは、カテゴリ、形状、およびアルベドの潜在的な表現に分解します。
完全な形状とアルベドモデリングにより、モデリングとモデルフィッティングの両方で実際の2Dイメージを活用できることを示しています。
論文 参考訳(メタデータ) (2021-04-02T02:39:29Z) - 3D Object Detection and Pose Estimation of Unseen Objects in Color
Images with Local Surface Embeddings [35.769234123059086]
本研究では, 画像中のオブジェクトの3次元ポーズを, テクスチャのないCADモデルでのみ検出し, 推定する手法を提案する。
我々のアプローチはディープラーニングと3D幾何を組み合わせており、CADモデルと入力画像とを一致させるために、局所的な3D幾何の埋め込みに依存している。
我々は,Mask-RCNNをクラスに依存しない方法で,再学習せずに新しい物体を検出できることを示す。
論文 参考訳(メタデータ) (2020-10-08T15:57:06Z) - Weakly Supervised Learning of Multi-Object 3D Scene Decompositions Using
Deep Shape Priors [69.02332607843569]
PriSMONetは、単一画像から多目的3Dシーンの分解と表現を学習するための新しいアプローチである。
リカレントエンコーダは、入力されたRGB画像から、各オブジェクトの3D形状、ポーズ、テクスチャの潜時表現を回帰する。
我々は,3次元シーンレイアウトの推測におけるモデルの精度を評価し,その生成能力を実証し,実画像への一般化を評価し,学習した表現の利点を指摘する。
論文 参考訳(メタデータ) (2020-10-08T14:49:23Z) - Mask2CAD: 3D Shape Prediction by Learning to Segment and Retrieve [54.054575408582565]
本稿では,既存の3次元モデルの大規模データセットを活用し,画像中の物体の3次元構造を理解することを提案する。
本稿では,実世界の画像と検出対象を共同で検出するMask2CADについて,最も類似したCADモデルとそのポーズを最適化する。
これにより、画像内のオブジェクトのクリーンで軽量な表現が生成される。
論文 参考訳(メタデータ) (2020-07-26T00:08:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。