Fugu-MT 論文翻訳(概要): Novel View Synthesis with Pixel-Space Diffusion Models

論文の概要: Novel View Synthesis with Pixel-Space Diffusion Models

arxiv url: http://arxiv.org/abs/2411.07765v1
Date: Tue, 12 Nov 2024 12:58:33 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:46.91323
Title: Novel View Synthesis with Pixel-Space Diffusion Models
Title（参考訳）: 画素空間拡散モデルによる新しいビュー合成
Authors: Noam Elata, Bahjat Kawar, Yaron Ostrovsky-Berman, Miriam Farber, Ron Sokolovsky,
Abstract要約: 新規ビュー合成(NVS)に遺伝子モデルがますます採用されている画素空間における終端NVSに対して,現代的な拡散モデルアーキテクチャを適用した。単視点データセットを利用した新しいNVSトレーニングスキームを導入し,その相対的多元性に着目した。
参考スコア（独自算出の注目度）: 4.844800099745365
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Synthesizing a novel view from a single input image is a challenging task. Traditionally, this task was approached by estimating scene depth, warping, and inpainting, with machine learning models enabling parts of the pipeline. More recently, generative models are being increasingly employed in novel view synthesis (NVS), often encompassing the entire end-to-end system. In this work, we adapt a modern diffusion model architecture for end-to-end NVS in the pixel space, substantially outperforming previous state-of-the-art (SOTA) techniques. We explore different ways to encode geometric information into the network. Our experiments show that while these methods may enhance performance, their impact is minor compared to utilizing improved generative models. Moreover, we introduce a novel NVS training scheme that utilizes single-view datasets, capitalizing on their relative abundance compared to their multi-view counterparts. This leads to improved generalization capabilities to scenes with out-of-domain content.
Abstract（参考訳）: 単一の入力画像から新しいビューを合成するのは難しい作業です。従来、このタスクは、パイプラインの一部を可能にする機械学習モデルを使用して、シーン深さ、ワープ、インペイントの推定によってアプローチされていた。最近では、生成モデルが新しいビュー合成(NVS)にますます採用され、しばしばエンドツーエンドシステム全体を包含している。本研究では,最新の拡散モデルアーキテクチャを画素空間の終端NVSに適用し,従来のSOTA(State-of-the-art)技術を大幅に上回っている。我々は幾何学的情報をネットワークにエンコードする方法を探究する。実験の結果, これらの手法は性能を向上させるが, 改良された生成モデルに比べて影響は小さいことがわかった。さらに,シングルビューデータセットを利用した新しいNVSトレーニング手法を導入する。これにより、ドメイン外コンテンツを持つシーンへの一般化機能が向上する。

関連論文リスト

Aug3D: Augmenting large scale outdoor datasets for Generalizable Novel View Synthesis [1.2420608329006513]
大規模なUrbanScene3Dデータセット上で,フィードフォワードNVSモデルであるPixelNeRFをトレーニングする。 Aug3Dは、フィードフォワードNVSモデル学習を強化するために、グリッドとセマンティックサンプリングを通じて、よく調和した新しいビューを生成する。実験の結果,クラスタ毎のビュー数を20から10に削減することでPSNRが10%向上することがわかった。
論文参考訳（メタデータ） (2025-01-11T04:13:26Z)
Autoregressive Video Generation without Vector Quantization [90.87907377618747]
本研究では,時間フレーム毎の予測の非量子化自己回帰モデルとしてビデオ生成問題を再構成する。提案手法では,ベクトル量子化のない新しい自己回帰モデルであるNOVAを訓練する。以上の結果から,NOVAはデータ効率,推論速度,視覚的忠実度,映像流速において,従来の自己回帰ビデオモデルよりもはるかに小さいモデルキャパシティを有することがわかった。
論文参考訳（メタデータ） (2024-12-18T18:59:53Z)
MOVIS: Enhancing Multi-Object Novel View Synthesis for Indoor Scenes [35.16430027877207]
MOVISは、多目的NVSのためのビュー条件拡散モデルの構造的認識を高めることを目的としている。本稿では,新しいビューオブジェクトマスクを同時に予測するためにモデルを必要とする補助タスクを提案する。提案手法は強力な一般化能力を示し,一貫した新規なビュー合成を生成する。
論文参考訳（メタデータ） (2024-12-16T05:23:45Z)
Extrapolated Urban View Synthesis Benchmark [53.657271730352214]
光シミュレーターは視覚中心型自動運転車(AV)の訓練と評価に不可欠である中心となるのはノベルビュー合成(英語版)(NVS)であり、これはAVの広範かつ連続的なポーズ分布に対応するために、様々な目に見えない視点を生成する能力である。近年の3次元ガウス・スプラッティングのような放射場の発展は、リアルタイムなリアルタイムレンダリングを実現し、大規模ドライビングシーンのモデリングに広く利用されている。自動運転車と都市ロボットシミュレーション技術の進歩を支援するために、データを公開します。
論文参考訳（メタデータ） (2024-12-06T18:41:39Z)
NVComposer: Boosting Generative Novel View Synthesis with Multiple Sparse and Unposed Images [50.36605863731669]
NVComposerは、明示的な外部アライメントの必要性を排除する新しいアプローチである。 NVComposerは、生成的マルチビューNVSタスクにおいて最先端のパフォーマンスを達成する。提案手法は, 入力ビュー数の増加に伴い, 合成品質が大幅に向上したことを示す。
論文参考訳（メタデータ） (2024-12-04T17:58:03Z)
LVSM: A Large View Synthesis Model with Minimal 3D Inductive Bias [50.13457154615262]
スパースビュー入力からのスケーラブルで一般化可能な新規ビュー合成のためのトランスフォーマーに基づくアプローチを提案する。本稿では,(1)入力画像トークンを1次元遅延トークンにエンコードするエンコーダデコーダLVSM,(2)入力画像を直接新規ビュー出力にマッピングするデコーダのみLVSMの2つのアーキテクチャを紹介する。
論文参考訳（メタデータ） (2024-10-22T17:58:28Z)
ViewCrafter: Taming Video Diffusion Models for High-fidelity Novel View Synthesis [63.169364481672915]
単一またはスパース画像からジェネリックシーンの高忠実な新規ビューを合成する新しい方法である textbfViewCrafter を提案する。提案手法は,映像拡散モデルの強力な生成能力と,ポイントベース表現によって提供される粗い3D手がかりを利用して高品質な映像フレームを生成する。
論文参考訳（メタデータ） (2024-09-03T16:53:19Z)
MultiDiff: Consistent Novel View Synthesis from a Single Image [60.04215655745264]
MultiDiffは、単一のRGB画像からシーンを一貫した新しいビュー合成のための新しいアプローチである。以上の結果から,MultiDiffは,課題の多いリアルタイムデータセットであるRealEstate10KとScanNetにおいて,最先端の手法よりも優れていることを示す。
論文参考訳（メタデータ） (2024-06-26T17:53:51Z)
Generalizable Implicit Neural Representation As a Universal Spatiotemporal Traffic Data Learner [46.866240648471894]
時空間交通データ(STTD)は、マルチスケール交通システムの複雑な動的挙動を測定する。本稿では,STTDを暗黙的ニューラル表現としてパラメータ化することで,STTD学習問題に対処する新しいパラダイムを提案する。実世界のシナリオにおける広範な実験を通じて,その有効性を検証し,廊下からネットワークスケールへの応用を示す。
論文参考訳（メタデータ） (2024-06-13T02:03:22Z)
GenS: Generalizable Neural Surface Reconstruction from Multi-View Images [20.184657468900852]
GenSは、エンドツーエンドの一般化可能なニューラルサーフェス再構成モデルである。我々の表現はより強力であり、グローバルな滑らかさを維持しながら高周波の詳細を回復することができる。人気のあるベンチマーク実験により、我々のモデルは新たなシーンにうまく一般化できることが示された。
論文参考訳（メタデータ） (2024-06-04T17:13:10Z)
Hyper-VolTran: Fast and Generalizable One-Shot Image to 3D Object Structure via HyperNetworks [53.67497327319569]
画像から3Dまでを1つの視点から解く新しいニューラルレンダリング手法を提案する。提案手法では, 符号付き距離関数を表面表現として使用し, 幾何エンコードボリュームとハイパーネットワークスによる一般化可能な事前処理を取り入れた。本実験は,一貫した結果と高速な生成による提案手法の利点を示す。
論文参考訳（メタデータ） (2023-12-24T08:42:37Z)
Multi-View Unsupervised Image Generation with Cross Attention Guidance [23.07929124170851]
本稿では,単一カテゴリデータセット上でのポーズ条件拡散モデルの教師なし学習のための新しいパイプラインを提案する。特定のオブジェクト部分の可視性と位置を比較することで、データセットをクラスタリングすることで、オブジェクトのポーズを識別する。我々のモデルであるMIRAGEは、実画像における新しいビュー合成における先行研究を超越している。
論文参考訳（メタデータ） (2023-12-07T14:55:13Z)
SODA: Bottleneck Diffusion Models for Representation Learning [75.7331354734152]
本稿では,表現学習のための自己教師付き拡散モデルSODAを紹介する。このモデルには、ソースビューをコンパクトな表現に蒸留するイメージエンコーダが組み込まれており、関連する新規ビューの生成を導く。エンコーダと復調復調復調復調復調復調復調復調復号器の密集ボトルネックを付与することにより,拡散モデルを強力な表現学習器に変換することができることを示す。
論文参考訳（メタデータ） (2023-11-29T18:53:34Z)
Enhancing NeRF akin to Enhancing LLMs: Generalizable NeRF Transformer with Mixture-of-View-Experts [88.23732496104667]
クロスシーンの一般化可能なNeRFモデルは、NeRFフィールドの新たなスポットライトとなっている。我々は、大規模言語モデルから強力なMixture-of-Experts(MoE)のアイデアを"神経化"アーキテクチャにブリッジする。提案手法は,GNT-MOVE (Mixture-of-View-Experts) とよばれるモデルで,未知のシーンに移動する際の最先端の結果を実験的に示す。
論文参考訳（メタデータ） (2023-08-22T21:18:54Z)
Generalizable Patch-Based Neural Rendering [46.41746536545268]
未知のシーンの新たなビューを合成できるモデル学習のための新しいパラダイムを提案する。本手法は,シーンから採取したパッチの集合からのみ,新規シーンにおける対象光線の色を直接予測することができる。本手法は,従来よりも少ないデータでトレーニングされた場合であっても,目立たないシーンの新たなビュー合成において,最先端のビュー合成よりも優れていることを示す。
論文参考訳（メタデータ） (2022-07-21T17:57:04Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。