Fugu-MT 論文翻訳(概要): NViST: In the Wild New View Synthesis from a Single Image with Transformers

論文の概要: NViST: In the Wild New View Synthesis from a Single Image with Transformers

arxiv url: http://arxiv.org/abs/2312.08568v2
Date: Mon, 1 Apr 2024 11:49:22 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-04 11:33:25.250899
Title: NViST: In the Wild New View Synthesis from a Single Image with Transformers
Title（参考訳）: NViST: トランスフォーマー付き単一画像からのワイルド・ニュービュー・シンセサイザー
Authors: Wonbong Jang, Lourdes Agapito,
Abstract要約: 単一画像からの効率的なノベルビュー合成のためのトランスフォーマーベースモデルであるNViSTを提案する。 NViSTは、カジュアルにキャプチャされた現実世界のビデオの大規模なデータセットであるMVImgNetでトレーニングされている。 MVImgNetからの未確認オブジェクトやカテゴリ,さらにはカジュアル電話のキャプチャへの一般化結果を示す。
参考スコア（独自算出の注目度）: 8.361847255300846
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We propose NViST, a transformer-based model for efficient and generalizable novel-view synthesis from a single image for real-world scenes. In contrast to many methods that are trained on synthetic data, object-centred scenarios, or in a category-specific manner, NViST is trained on MVImgNet, a large-scale dataset of casually-captured real-world videos of hundreds of object categories with diverse backgrounds. NViST transforms image inputs directly into a radiance field, conditioned on camera parameters via adaptive layer normalisation. In practice, NViST exploits fine-tuned masked autoencoder (MAE) features and translates them to 3D output tokens via cross-attention, while addressing occlusions with self-attention. To move away from object-centred datasets and enable full scene synthesis, NViST adopts a 6-DOF camera pose model and only requires relative pose, dropping the need for canonicalization of the training data, which removes a substantial barrier to it being used on casually captured datasets. We show results on unseen objects and categories from MVImgNet and even generalization to casual phone captures. We conduct qualitative and quantitative evaluations on MVImgNet and ShapeNet to show that our model represents a step forward towards enabling true in-the-wild generalizable novel-view synthesis from a single image. Project webpage: https://wbjang.github.io/nvist_webpage.
Abstract（参考訳）: そこで本研究では,NViSTを提案する。NViSTは,実世界のシーンの単一画像から,効率的かつ一般化可能なノベルビュー合成のためのトランスフォーマーモデルである。合成データやオブジェクト中心のシナリオ、あるいはカテゴリ固有の方法でトレーニングされた多くの方法とは対照的に、NViSTは、さまざまな背景を持つ数百のオブジェクトカテゴリのカジュアルにキャプチャされた実世界の大規模なデータセットであるMVImgNetでトレーニングされている。 NViSTは、適応層正規化によりカメラパラメータに条件付けされた画像入力を直接放射場に変換する。実際には、NViSTは微調整されたマスク付きオートエンコーダ(MAE)機能を利用して、自己注意でオクルージョンに対処しながら、3D出力トークンに変換する。オブジェクト中心のデータセットから離れ、フルシーン合成を可能にするため、NViSTは6-DOFカメラのポーズモデルを採用し、相対的なポーズのみを必要とする。 MVImgNetからの未確認オブジェクトやカテゴリ,さらにはカジュアル電話のキャプチャへの一般化結果を示す。我々は,MVImgNetとShapeNetの質的,定量的な評価を行い,本モデルが単一の画像から真のインザワイルドな新規ビュー合成を実現するための一歩であることを示す。プロジェクトWebページ: https://wbjang.github.io/nvist_webpage.com

関連論文リスト

Stable Virtual Camera: Generative View Synthesis with Diffusion Models [51.71244310522393]
本稿では,シーンの新たなビューを生成する汎用拡散モデルであるスタブルバーチャルカメラ(Seva)を紹介する。このアプローチは、シンプルなモデル設計、最適化されたトレーニングレシピ、柔軟なサンプリング戦略によってこれらの制限を克服する。提案手法では,シームレスなループ閉鎖により,最大半分間の高品質なビデオを生成することができる。
論文参考訳（メタデータ） (2025-03-18T17:57:22Z)
MegaScenes: Scene-Level View Synthesis at Scale [69.21293001231993]
NVS (Scene-level novel view synthesis) は多くの視覚やグラフィックスの応用に基礎を置いている。 MegaScenesと呼ばれるインターネット写真コレクションから大規模なシーンレベルのデータセットを作成し、世界中の動き(SfM)から100K以上の構造を復元する。我々は、最先端NVS手法の故障事例を分析し、生成一貫性を大幅に改善する。
論文参考訳（メタデータ） (2024-06-17T17:55:55Z)
OV9D: Open-Vocabulary Category-Level 9D Object Pose and Size Estimation [56.028185293563325]
本稿では,新しい開集合問題,開語彙圏レベルのオブジェクトポーズとサイズ推定について検討する。まずOO3D-9Dという大規模フォトリアリスティックなデータセットを紹介した。次に、事前学習したDinoV2とテキストから画像への安定拡散モデルに基づくフレームワークを提案する。
論文参考訳（メタデータ） (2024-03-19T03:09:24Z)
UpFusion: Novel View Diffusion from Unposed Sparse View Observations [66.36092764694502]
UpFusionは、参照画像のスパースセットが与えられたオブジェクトに対して、新しいビュー合成と3D表現を推論することができる。本研究では,この機構により,付加された(未提示)画像の合成品質を向上しつつ,高忠実度な新規ビューを生成することができることを示す。
論文参考訳（メタデータ） (2023-12-11T18:59:55Z)
ROAM: Robust and Object-Aware Motion Generation Using Neural Pose Descriptors [73.26004792375556]
本稿では,3次元オブジェクト認識キャラクタ合成における新しいシーンオブジェクトへのロバストさと一般化が,参照オブジェクトを1つも持たないモーションモデルをトレーニングすることで実現可能であることを示す。我々は、オブジェクト専用のデータセットに基づいて訓練された暗黙的な特徴表現を活用し、オブジェクトの周りのSE(3)-同変記述体フィールドをエンコードする。本研究では,3次元仮想キャラクタの動作と相互作用の質,および未知のオブジェクトを持つシナリオに対するロバスト性を大幅に向上することを示す。
論文参考訳（メタデータ） (2023-08-24T17:59:51Z)
im2nerf: Image to Neural Radiance Field in the Wild [47.18702901448768]
im2nerfは、野生の1つの入力イメージが与えられた連続的な神経オブジェクト表現を予測する学習フレームワークである。 Im2nerfは、野生の単視未表示画像から新しいビューを合成するための最先端性能を実現する。
論文参考訳（メタデータ） (2022-09-08T23:28:56Z)
Vision Transformer for NeRF-Based View Synthesis from a Single Input Image [49.956005709863355]
本稿では,グローバルな特徴と局所的な特徴を両立させ,表現力のある3D表現を実現することを提案する。新たなビューを合成するために,学習した3次元表現に条件付き多層パーセプトロン(MLP)ネットワークを訓練し,ボリュームレンダリングを行う。提案手法は,1つの入力画像のみから新しいビューを描画し,複数のオブジェクトカテゴリを1つのモデルで一般化することができる。
論文参考訳（メタデータ） (2022-07-12T17:52:04Z)
Towards 3D Scene Understanding by Referring Synthetic Models [65.74211112607315]
メソッドは通常、実際のシーンスキャンにおける過剰なアノテーションを緩和する。合成モデルは、合成特徴の実際のシーンカテゴリを、統一された特徴空間にどのように依存するかを考察する。実験の結果,ScanNet S3DISデータセットの平均mAPは46.08%,学習データセットは55.49%であった。
論文参考訳（メタデータ） (2022-03-20T13:06:15Z)
pixelNeRF: Neural Radiance Fields from One or Few Images [20.607712035278315]
pixelNeRFは、1つまたは少数の入力画像に条件付された連続的なニューラルシーン表現を予測する学習フレームワークである。本研究では,単一画像の新規ビュー合成タスクのためのShapeNetベンチマーク実験を行った。いずれの場合も、ピクセルNeRFは、新しいビュー合成とシングルイメージ3D再構成のための最先端のベースラインよりも優れています。
論文参考訳（メタデータ） (2020-12-03T18:59:54Z)
Continuous Object Representation Networks: Novel View Synthesis without Target View Supervision [26.885846254261626]
連続オブジェクト表現ネットワーク(Continuous Object Representation Networks、CORN)は、入力画像の幾何学と外観を3D一貫したシーン表現にマッピングする条件付きアーキテクチャである。 CORNは、新しいビューの合成やシングルビューの3D再構成、そして直接監督を使用する最先端のアプローチに匹敵するパフォーマンスといった挑戦的なタスクでうまく機能する。
論文参考訳（メタデータ） (2020-07-30T17:49:44Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。