論文の概要: Partial-View Object View Synthesis via Filtered Inversion
- arxiv url: http://arxiv.org/abs/2304.00673v1
- Date: Mon, 3 Apr 2023 00:59:31 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-04 16:53:54.224251
- Title: Partial-View Object View Synthesis via Filtered Inversion
- Title(参考訳): フィルタインバージョンによる部分ビューオブジェクトビュー合成
- Authors: Fan-Yun Sun, Jonathan Tremblay, Valts Blukis, Kevin Lin, Danfei Xu,
Boris Ivanovic, Peter Karkus, Stan Birchfield, Dieter Fox, Ruohan Zhang,
Yunzhu Li, Jiajun Wu, Marco Pavone, Nick Haber
- Abstract要約: FINVは3D生成モデルのトレーニングによって形状を学習する。
FINVは実世界のオブジェクトの新たなビューをうまく合成する。
- 参考スコア(独自算出の注目度): 79.71504604370004
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose Filtering Inversion (FINV), a learning framework and optimization
process that predicts a renderable 3D object representation from one or few
partial views. FINV addresses the challenge of synthesizing novel views of
objects from partial observations, spanning cases where the object is not
entirely in view, is partially occluded, or is only observed from similar
views. To achieve this, FINV learns shape priors by training a 3D generative
model. At inference, given one or more views of a novel real-world object, FINV
first finds a set of latent codes for the object by inverting the generative
model from multiple initial seeds. Maintaining the set of latent codes, FINV
filters and resamples them after receiving each new observation, akin to
particle filtering. The generator is then finetuned for each latent code on the
available views in order to adapt to novel objects. We show that FINV
successfully synthesizes novel views of real-world objects (e.g., chairs,
tables, and cars), even if the generative prior is trained only on synthetic
objects. The ability to address the sim-to-real problem allows FINV to be used
for object categories without real-world datasets. FINV achieves
state-of-the-art performance on multiple real-world datasets, recovers object
shape and texture from partial and sparse views, is robust to occlusion, and is
able to incrementally improve its representation with more observations.
- Abstract(参考訳): 本研究では,1つか数つの部分ビューからレンダリング可能な3dオブジェクト表現を予測する学習フレームワークおよび最適化プロセスであるfiltering inversion(finv)を提案する。
FINVは、部分的な観察からオブジェクトの新たなビューを合成するという課題に対処する。
これを達成するため、finvは3次元生成モデルを訓練して形状事前学習を行う。
推測において、新しい現実世界のオブジェクトの1つ以上のビューが与えられたとき、FINVはまず、生成モデルを複数の初期シードから反転させることで、オブジェクトの潜在コードを見つける。
潜伏符号のセットの維持、finvフィルタの検証、およびパーティクルフィルタリングのような新しい観察を受けた後の再サンプリング。
次にジェネレータは、利用可能なビューの各潜在コードに対して微調整され、新しいオブジェクトに適応する。
FINVは, 合成対象にのみ訓練された場合でも, 現実の物体(例えば, 椅子, テーブル, 車)の新規な視点を合成することに成功した。
sim-to-real問題に対処する能力により、FINVは実際のデータセットなしでオブジェクトカテゴリに使用できる。
FINVは、複数の実世界のデータセット上で最先端のパフォーマンスを達成し、部分的およびスパースなビューからオブジェクトの形状とテクスチャを回復し、閉塞に対して堅牢であり、より多くの観測でその表現を漸進的に改善することができる。
関連論文リスト
- Object-level Scene Deocclusion [92.39886029550286]
オブジェクトレベルのシーン・デクルージョンのためのPArallel可視・コミュールト拡散フレームワークPACOを提案する。
PACOをトレーニングするために、500kサンプルの大規模なデータセットを作成し、自己教師付き学習を可能にします。
COCOAと様々な現実世界のシーンの実験では、PACOがシーンの排除に優れた能力を示し、芸術の状態をはるかに上回っている。
論文 参考訳(メタデータ) (2024-06-11T20:34:10Z) - Sparse multi-view hand-object reconstruction for unseen environments [31.604141859402187]
我々は、合成手オブジェクトデータセットに基づいてモデルをトレーニングし、実世界記録手オブジェクトデータセットを直接評価する。
目立たない手やオブジェクトをRGBから復元することは難しいが、追加の視点は再建の質を改善するのに役立つ。
論文 参考訳(メタデータ) (2024-05-02T15:01:25Z) - ROAM: Robust and Object-Aware Motion Generation Using Neural Pose
Descriptors [73.26004792375556]
本稿では,3次元オブジェクト認識キャラクタ合成における新しいシーンオブジェクトへのロバストさと一般化が,参照オブジェクトを1つも持たないモーションモデルをトレーニングすることで実現可能であることを示す。
我々は、オブジェクト専用のデータセットに基づいて訓練された暗黙的な特徴表現を活用し、オブジェクトの周りのSE(3)-同変記述体フィールドをエンコードする。
本研究では,3次元仮想キャラクタの動作と相互作用の質,および未知のオブジェクトを持つシナリオに対するロバスト性を大幅に向上することを示す。
論文 参考訳(メタデータ) (2023-08-24T17:59:51Z) - Time-Conditioned Generative Modeling of Object-Centric Representations
for Video Decomposition and Prediction [4.79974591281424]
ビデオの時間条件生成モデルを提案する。
本モデルでは,オブジェクト中心の映像分解を行い,隠蔽対象の完全な形状を再構築し,新しい視点の予測を行う。
論文 参考訳(メタデータ) (2023-01-21T13:39:39Z) - MegaPose: 6D Pose Estimation of Novel Objects via Render & Compare [84.80956484848505]
MegaPoseは、トレーニング中に見えない新しいオブジェクトの6Dポーズを推定する方法である。
本稿では,新しいオブジェクトに適用可能なR&Compare戦略に基づく6次元ポーズリファインダを提案する。
第2に,合成レンダリングと同一物体の観察画像間のポーズ誤差をリファインダで補正できるか否かを分類するために訓練されたネットワークを利用する,粗いポーズ推定のための新しいアプローチを提案する。
論文 参考訳(メタデータ) (2022-12-13T19:30:03Z) - ShAPO: Implicit Representations for Multi-Object Shape, Appearance, and
Pose Optimization [40.36229450208817]
SAPO, 関節多物体検出法, 3次元テクスチャ再構築法, 6次元オブジェクトポーズ法, サイズ推定法を提案する。
ShAPOのキーはシングルショットのパイプラインで、各オブジェクトインスタンスのマスクとともに、形状、外観、遅延コードのポーズをレグレッションする。
提案手法は,NOCSデータセット上でのベースライン全体の性能を,6次元ポーズ推定におけるmAPの8%の絶対的な改善で著しく向上させる。
論文 参考訳(メタデータ) (2022-07-27T17:59:31Z) - AutoRF: Learning 3D Object Radiance Fields from Single View Observations [17.289819674602295]
AutoRFは、トレーニングセットの各オブジェクトが単一のビューでのみ観察される、ニューラルな3Dオブジェクト表現を学ぶための新しいアプローチである。
提案手法は,現実の街路シーンに挑戦するさまざまなデータセットであっても,見えない物体に対してうまく一般化可能であることを示す。
論文 参考訳(メタデータ) (2022-04-07T17:13:39Z) - Learning Multi-Object Dynamics with Compositional Neural Radiance Fields [63.424469458529906]
本稿では,暗黙的オブジェクトエンコーダ,ニューラルレージアンスフィールド(NeRF),グラフニューラルネットワークに基づく画像観測から構成予測モデルを学習する手法を提案する。
NeRFは3D以前の強みから、シーンを表現するための一般的な選択肢となっている。
提案手法では,学習した潜時空間にRTを応用し,そのモデルと暗黙のオブジェクトエンコーダを用いて潜時空間を情報的かつ効率的にサンプリングする。
論文 参考訳(メタデータ) (2022-02-24T01:31:29Z) - Unsupervised Learning of 3D Object Categories from Videos in the Wild [75.09720013151247]
オブジェクトインスタンスの大規模なコレクションの複数のビューからモデルを学ぶことに重点を置いています。
再構成を大幅に改善するワープコンディショニングレイ埋め込み(WCR)と呼ばれる新しいニューラルネットワーク設計を提案する。
本評価は,既存のベンチマークを用いた複数の深部単眼再構成ベースラインに対する性能改善を示す。
論文 参考訳(メタデータ) (2021-03-30T17:57:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。