論文の概要: NViST: In the Wild New View Synthesis from a Single Image with
Transformers
- arxiv url: http://arxiv.org/abs/2312.08568v1
- Date: Wed, 13 Dec 2023 23:41:17 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-16 00:34:08.184311
- Title: NViST: In the Wild New View Synthesis from a Single Image with
Transformers
- Title(参考訳): nvist: トランスフォーマーのある1枚の画像からの新しい視点で合成する
- Authors: Wonbong Jang, Lourdes Agapito
- Abstract要約: 単一画像からの新規ビュー合成のためのトランスフォーマーモデルであるNViSTを提案する。
複雑な背景を持つWildイメージの大規模なデータセットに基づいてトレーニングされる。
MVImgNetの未確認オブジェクトやカテゴリ,さらにはカジュアル電話のキャプチャ結果も示す。
- 参考スコア(独自算出の注目度): 9.878414824892783
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose NViST, a transformer-based model for novel-view synthesis from a
single image, trained on a large-scale dataset of in-the-wild images with
complex backgrounds. NViST transforms image inputs directly into a radiance
field, adopting a scalable transformer-based architecture. In practice, NViST
exploits the self-supervised features learnt by a masked autoencoder (MAE), and
learns a novel decoder that translates features to 3D tokens via
cross-attention and adaptive layer normalization. Our model is efficient at
inference since only a single forward-pass is needed to predict a 3D
representation, unlike methods that require test-time optimization or sampling
such as 3D-aware diffusion models. We tackle further limitations of current
new-view synthesis models. First, unlike most generative models that are
trained in a category-specific manner, often on synthetic datasets or on masked
inputs, our model is trained on MVImgNet, a large-scale dataset of real-world,
casually-captured videos containing hundreds of object categories with diverse
backgrounds. Secondly, our model does not require canonicalization of the
training data - i.e. aligning all objects with a frontal view - only needing
relative pose at training time which removes a substantial barrier to it being
used on casually captured datasets. We show results on unseen objects and
categories on MVImgNet and even casual phone captures. We conduct qualitative
and quantitative evaluations on MVImgNet and ShapeNet to show that our model
represents a step forward towards enabling true in-the-wild novel-view
synthesis from a single image.
- Abstract(参考訳): NViSTは、1つの画像から新規ビューを合成するためのトランスフォーマーモデルであり、複雑な背景を持つ画像の大規模データセットに基づいて訓練される。
NViSTは画像入力を直接放射場に変換し、スケーラブルなトランスフォーマーベースのアーキテクチャを採用する。
実際には、NViSTはマスク付きオートエンコーダ(MAE)によって学習された自己教師機能を活用し、クロスアテンションと適応層正規化によって特徴を3Dトークンに変換する新しいデコーダを学ぶ。
実験時間最適化や3D対応拡散モデルのようなサンプリングを必要とする手法とは異なり,提案手法は1つのフォワードパスのみで3D表現を予測できる。
我々は,現行の新視点合成モデルのさらなる限界に取り組む。
まず、合成データセットやマスク入力で訓練されるほとんどの生成モデルとは異なり、我々のモデルは、様々な背景を持つ数百の対象カテゴリを含む実世界のカジュアルなビデオの大規模データセットであるMVImgNetで訓練されている。
第二に、私たちのモデルはトレーニングデータの正規化を必要としません。すなわち、すべてのオブジェクトをフロントビューに整列する — トレーニング時に相対的なポーズが必要なだけであり、カジュアルにキャプチャされたデータセットで使用されていることに対する大きな障壁を取り除きます。
MVImgNetの未確認オブジェクトやカテゴリ,さらにはカジュアル電話のキャプチャの結果を示す。
我々は,MVImgNetとShapeNetの質的,定量的な評価を行い,本モデルが1枚の画像から真の新規ビュー合成を実現するための一歩であることを示す。
関連論文リスト
- VaLID: Variable-Length Input Diffusion for Novel View Synthesis [36.57742242154048]
新たなビュー合成(NVS)は、3次元ビジョンの基本的な問題である。
それぞれのポーズ画像ペアを別々に処理し、それらを統一された視覚表現として融合させ、モデルに注入する。
可変長入力データを固定サイズ出力データにマッピングする多視点クロス前置モジュールを提案する。
論文 参考訳(メタデータ) (2023-12-14T12:52:53Z) - UpFusion: Novel View Diffusion from Unposed Sparse View Observations [66.36092764694502]
UpFusionは、参照画像のスパースセットが与えられたオブジェクトに対して、新しいビュー合成と3D表現を推論することができる。
本研究では,この機構により,付加された(未提示)画像の合成品質を向上しつつ,高忠実度な新規ビューを生成することができることを示す。
論文 参考訳(メタデータ) (2023-12-11T18:59:55Z) - LRM: Large Reconstruction Model for Single Image to 3D [61.47357798633123]
本稿では,1つの入力画像からオブジェクトの3次元モデルを5秒以内で予測する最初のLarge Restruction Model (LRM)を提案する。
LRMは5億の学習可能なパラメータを持つ高度にスケーラブルなトランスフォーマーベースのアーキテクチャを採用し、入力画像からニューラル放射場(NeRF)を直接予測する。
約100万のオブジェクトを含む巨大なマルチビューデータに基づいて、エンド・ツー・エンドでモデルをトレーニングする。
論文 参考訳(メタデータ) (2023-11-08T00:03:52Z) - Robust Category-Level 3D Pose Estimation from Synthetic Data [17.247607850702558]
CADモデルから生成されたオブジェクトポーズ推定のための新しい合成データセットであるSyntheticP3Dを紹介する。
逆レンダリングによるポーズ推定を行うニューラルネットワークモデルをトレーニングするための新しいアプローチ(CC3D)を提案する。
論文 参考訳(メタデータ) (2023-05-25T14:56:03Z) - Vision Transformer for NeRF-Based View Synthesis from a Single Input
Image [49.956005709863355]
本稿では,グローバルな特徴と局所的な特徴を両立させ,表現力のある3D表現を実現することを提案する。
新たなビューを合成するために,学習した3次元表現に条件付き多層パーセプトロン(MLP)ネットワークを訓練し,ボリュームレンダリングを行う。
提案手法は,1つの入力画像のみから新しいビューを描画し,複数のオブジェクトカテゴリを1つのモデルで一般化することができる。
論文 参考訳(メタデータ) (2022-07-12T17:52:04Z) - Meta Internal Learning [88.68276505511922]
単一画像生成のための内部学習は、単一の画像に基づいて新しい画像を生成するようにジェネレータを訓練するフレームワークである。
本稿では,サンプル画像の内部統計をより効果的にモデル化するために,画像集合のトレーニングを可能にするメタラーニング手法を提案する。
以上の結果から, 得られたモデルは, 多数の共通画像アプリケーションにおいて, シングルイメージのGANと同程度に適していることがわかった。
論文 参考訳(メタデータ) (2021-10-06T16:27:38Z) - ViViT: A Video Vision Transformer [75.74690759089529]
ビデオ分類にpure-transformerベースのモデルを提案する。
本モデルでは,入力ビデオから時間トークンを抽出し,一連のトランスフォーマー層で符号化する。
トレーニング中にモデルを効果的に正規化し、トレーニング済みの画像モデルを利用して比較的小さなデータセットでトレーニングできることを示します。
論文 参考訳(メタデータ) (2021-03-29T15:27:17Z) - Shape My Face: Registering 3D Face Scans by Surface-to-Surface
Translation [75.59415852802958]
Shape-My-Face (SMF) は、改良されたポイントクラウドエンコーダ、新しい視覚的注意機構、スキップ接続付きグラフ畳み込みデコーダ、特殊口モデルに基づく強力なエンコーダデコーダアーキテクチャである。
私たちのモデルは、トポロジカルにサウンドメッシュを最小限の監視で提供し、より高速なトレーニング時間を提供し、訓練可能なパラメータを桁違いに減らし、ノイズに強く、以前は見られないデータセットに一般化することができます。
論文 参考訳(メタデータ) (2020-12-16T20:02:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。