Fugu-MT 論文翻訳(概要): Look Outside the Room: Synthesizing A Consistent Long-Term 3D Scene Video from A Single Image

論文の概要: Look Outside the Room: Synthesizing A Consistent Long-Term 3D Scene Video from A Single Image

arxiv url: http://arxiv.org/abs/2203.09457v1
Date: Thu, 17 Mar 2022 17:16:16 GMT
ステータス: 翻訳完了
システム内更新日: 2022-03-18 15:21:46.621824
Title: Look Outside the Room: Synthesizing A Consistent Long-Term 3D Scene Video from A Single Image
Title（参考訳）: 部屋の外を眺める:1枚の画像から連続した3D映像を合成する
Authors: Xuanchi Ren, Xiaolong Wang
Abstract要約: 一つのシーン画像と大きなカメラモーションの軌跡が与えられた一貫した長期映像を合成する新しい手法を提案する。提案手法は,最先端のビュー合成手法よりも広いマージンで優れる。
参考スコア（独自算出の注目度）: 8.13564646389987
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Novel view synthesis from a single image has recently attracted a lot of attention, and it has been primarily advanced by 3D deep learning and rendering techniques. However, most work is still limited by synthesizing new views within relatively small camera motions. In this paper, we propose a novel approach to synthesize a consistent long-term video given a single scene image and a trajectory of large camera motions. Our approach utilizes an autoregressive Transformer to perform sequential modeling of multiple frames, which reasons the relations between multiple frames and the corresponding cameras to predict the next frame. To facilitate learning and ensure consistency among generated frames, we introduce a locality constraint based on the input cameras to guide self-attention among a large number of patches across space and time. Our method outperforms state-of-the-art view synthesis approaches by a large margin, especially when synthesizing long-term future in indoor 3D scenes. Project page at https://xrenaa.github.io/look-outside-room/.
Abstract（参考訳）: 単一の画像からの新しいビュー合成は、最近多くの注目を集めており、主に3D深層学習とレンダリング技術によって進歩している。しかし、ほとんどの作業は、比較的小さなカメラモーションで新しいビューを合成することで制限されている。本稿では,単一シーン画像と大規模カメラモーションの軌跡が与えられた一貫した長期映像を合成するための新しい手法を提案する。提案手法では,複数フレームの逐次モデリングを行うために自己回帰トランスを応用し,複数のフレームと対応するカメラの関係を推定する。生成したフレーム間の一貫性の確保と学習を容易にするため,入力カメラに基づく局所性制約を導入し,空間と時間にまたがる多数のパッチ間の自己注意を誘導する。本手法は,室内3Dシーンにおける長期的未来を合成する場合に,最先端のビュー合成手法よりも大きなマージンで優れる。プロジェクトページ: https://xrenaa.github.io/look-outside-room/

関連論文リスト

Eye2Eye: A Simple Approach for Monocular-to-Stereo Video Synthesis [45.64047250474718]
ビデオ合成の進歩にもかかわらず、3Dビデオデータが比較的少ないため、3Dビデオを作成することは難しい。本稿では,テキスト・ビデオ・ジェネレータをビデオ・ビデオ・ステレオ・ジェネレータに変換するための簡単な手法を提案する。われわれのフレームワークは、動画フレームをシフトした視点から自動生成し、説得力のある3D効果を実現する。
論文参考訳（メタデータ） (2025-04-30T19:06:09Z)
Cavia: Camera-controllable Multi-view Video Diffusion with View-Integrated Attention [62.2447324481159]
Caviaはカメラ制御可能なマルチビュービデオ生成のための新しいフレームワークである。我々のフレームワークは、空間的および時間的注意モジュールを拡張し、視点と時間的一貫性を改善します。 Caviaは、ユーザーが物体の動きを取得しながら、異なるカメラの動きを特定できる最初の製品だ。
論文参考訳（メタデータ） (2024-10-14T17:46:32Z)
Generative Camera Dolly: Extreme Monocular Dynamic Novel View Synthesis [43.02778060969546]
制御可能な単分子動的ビュー合成パイプラインを提案する。我々のモデルは入力として深度を必要としないし、明示的に3次元シーン形状をモデル化しない。私たちのフレームワークは、リッチな動的シーン理解、ロボット工学の知覚、バーチャルリアリティのためのインタラクティブな3Dビデオ視聴体験において、強力なアプリケーションをアンロックできる可能性があると考えています。
論文参考訳（メタデータ） (2024-05-23T17:59:52Z)
Explorative Inbetweening of Time and Space [46.77750028273578]
与えられた開始フレームと終了フレームのみに基づいて映像生成を制御するために境界生成を導入する。 Time Reversal Fusionは、開始フレームと終了フレームに条件付けられた時間的に前方および後方にデノナイジングパスを融合する。 Time Reversal Fusionは、すべてのサブタスクにおける関連する作業よりも優れています。
論文参考訳（メタデータ） (2024-03-21T17:57:31Z)
COLMAP-Free 3D Gaussian Splatting [88.420322646756]
本稿では,SfM前処理を使わずに新しいビュー合成を実現する手法を提案する。入力フレームを逐次的に処理し、一度に1つの入力フレームを取ることで3Dガウスを段階的に成長させる。提案手法は, 映像合成とカメラポーズ推定において, 大きな動き変化下での従来手法よりも大幅に改善されている。
論文参考訳（メタデータ） (2023-12-12T18:39:52Z)
ViVid-1-to-3: Novel View Synthesis with Video Diffusion Models [33.760292331843104]
単一のイメージからオブジェクトの新たなビューを生成することは、難しい作業です。近年,拡散に基づくビュー合成法は大きな進歩を見せている。本稿では,事前学習したビデオ拡散モデルを用いた簡単な方法を示す。
論文参考訳（メタデータ） (2023-12-03T06:50:15Z)
Persistent Nature: A Generative Model of Unbounded 3D Worlds [74.51149070418002]
任意のカメラポーズから3Dデコーダとボリュームレンダリングによって描画できる拡張可能な平面配置グリッドを提案する。この表現に基づいて、単一視点のインターネット写真のみから生成的世界モデルを学ぶ。提案手法は,現在の3次元生成モデルの固定境界を超えるシーン外挿を可能にするとともに,永続的でカメラに依存しない世界表現をサポートする。
論文参考訳（メタデータ） (2023-03-23T17:59:40Z)
DynIBaR: Neural Dynamic Image-Based Rendering [79.44655794967741]
複雑な動的シーンを描写したモノクロ映像から新しいビューを合成する問題に対処する。我々は,近傍のビューから特徴を集約することで,新しい視点を合成するボリューム画像ベースのレンダリングフレームワークを採用する。動的シーンデータセットにおける最先端手法の大幅な改善を示す。
論文参考訳（メタデータ） (2022-11-20T20:57:02Z)
Infinite Nature: Perpetual View Generation of Natural Scenes from a Single Image [73.56631858393148]
本研究では,1枚の画像から任意に長いカメラの軌跡に対応する新規ビューの長期生成という,永続的なビュー生成の問題について紹介する。我々は、幾何合成と画像合成の両方を反復レンダリング、洗練、反復フレームワークで統合するハイブリッドアプローチを採用する。提案手法は,手動のアノテーションを使わずに,一眼レフビデオシーケンスの集合から訓練することができる。
論文参考訳（メタデータ） (2020-12-17T18:59:57Z)
Street-view Panoramic Video Synthesis from a Single Satellite Image [92.26826861266784]
時間的および幾何学的に一貫したストリートビューパノラマビデオの両方を合成する新しい方法を提示する。既存のクロスビュー合成アプローチは画像に重点を置いているが、そのような場合のビデオ合成はまだ十分な注目を集めていない。
論文参考訳（メタデータ） (2020-12-11T20:22:38Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。