論文の概要: FreeVS: Generative View Synthesis on Free Driving Trajectory
- arxiv url: http://arxiv.org/abs/2410.18079v1
- Date: Wed, 23 Oct 2024 17:59:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-24 13:55:39.278512
- Title: FreeVS: Generative View Synthesis on Free Driving Trajectory
- Title(参考訳): FreeVS: 自由運転軌道上の生成ビュー合成
- Authors: Qitai Wang, Lue Fan, Yuqi Wang, Yuntao Chen, Zhaoxiang Zhang,
- Abstract要約: FreeVSは、実際の運転シーンで、無料の新しい軌跡のカメラビューを合成できる、新しい完全に生成的なアプローチである。
FreeVSは、新しいトラジェクトリの再構成プロセスや合成ビューなしで、バリデーションシーケンスに適用できる。
- 参考スコア(独自算出の注目度): 55.49370963413221
- License:
- Abstract: Existing reconstruction-based novel view synthesis methods for driving scenes focus on synthesizing camera views along the recorded trajectory of the ego vehicle. Their image rendering performance will severely degrade on viewpoints falling out of the recorded trajectory, where camera rays are untrained. We propose FreeVS, a novel fully generative approach that can synthesize camera views on free new trajectories in real driving scenes. To control the generation results to be 3D consistent with the real scenes and accurate in viewpoint pose, we propose the pseudo-image representation of view priors to control the generation process. Viewpoint transformation simulation is applied on pseudo-images to simulate camera movement in each direction. Once trained, FreeVS can be applied to any validation sequences without reconstruction process and synthesis views on novel trajectories. Moreover, we propose two new challenging benchmarks tailored to driving scenes, which are novel camera synthesis and novel trajectory synthesis, emphasizing the freedom of viewpoints. Given that no ground truth images are available on novel trajectories, we also propose to evaluate the consistency of images synthesized on novel trajectories with 3D perception models. Experiments on the Waymo Open Dataset show that FreeVS has a strong image synthesis performance on both the recorded trajectories and novel trajectories. Project Page: https://freevs24.github.io/
- Abstract(参考訳): エゴ車両の軌跡に沿ってカメラビューを合成することに焦点を当てた、既存のリコンストラクションに基づくシーン駆動の新規ビュー合成手法について検討した。
彼らの画像レンダリング性能は、記録された軌道から外れた視点で著しく劣化する。
実走行シーンにおける自由な新しい軌跡のカメラビューを合成する,新しい完全生成手法であるFreeVSを提案する。
実際のシーンと一致し、視点ポーズが正確である生成結果を制御するために、生成プロセスを制御するために、ビュー先行の擬似画像表現を提案する。
視点変換シミュレーションを擬似画像に適用し、各方向のカメラの動きをシミュレートする。
トレーニングが完了すると、FreeVSはリコンストラクションプロセスや新しいトラジェクトリの合成ビューなしで、バリデーションシーケンスに適用できる。
さらに,新たなカメラ合成と,視点の自由を重視した新規な軌跡合成という,運転シーンに適した2つの挑戦的ベンチマークを提案する。
また,新しい軌跡に基底的真理像が存在しないことを考慮し,新しい軌跡に合成された画像と3次元知覚モデルとの整合性を評価することを提案する。
Waymo Open Datasetの実験によると、FreeVSは記録された軌跡と新しい軌跡の両方で強力な画像合成性能を持つ。
Project Page: https://freevs24.github.io/
関連論文リスト
- DreamDrive: Generative 4D Scene Modeling from Street View Images [55.45852373799639]
生成と再構成の利点を組み合わせた4次元時空間シーン生成手法であるDreamDriveを提案する。
具体的には,映像拡散モデルの生成力を利用して,映像参照のシーケンスを合成する。
次に、ガウシアンスプラッティングで3D一貫性のあるドライビングビデオをレンダリングします。
論文 参考訳(メタデータ) (2024-12-31T18:59:57Z) - StreetCrafter: Street View Synthesis with Controllable Video Diffusion Models [59.55232046525733]
我々は,LDARポイントクラウドレンダリングをピクセルレベルの条件として利用する,制御可能なビデオ拡散モデルであるStreetCrafterを紹介する。
さらに、画素レベルのLiDAR条件を利用することで、ターゲットシーンに対して正確なピクセルレベルの編集を行うことができる。
我々のモデルは視点変化を柔軟に制御し、レンダリング領域を満たすためのビューを拡大する。
論文 参考訳(メタデータ) (2024-12-17T18:58:55Z) - Driving Scene Synthesis on Free-form Trajectories with Generative Prior [39.24591650300784]
我々はDriveXと呼ばれる新しいフリーフォーム駆動ビュー合成手法を提案する。
得られたモデルにより、記録軌道外の高忠実度仮想運転環境を作成できる。
実際の運転シーン以外にも、DriveXはAI生成ビデオから仮想運転世界をシミュレートすることもできる。
論文 参考訳(メタデータ) (2024-12-02T17:07:53Z) - Learning autonomous driving from aerial imagery [67.06858775696453]
フォトグラムシミュレーターは、生成済みの資産を新しいビューに変換することによって、新しいビューを合成することができる。
我々は、ニューラルネットワーク場(NeRF)を中間表現として使用し、地上車両の視点から新しいビューを合成する。
論文 参考訳(メタデータ) (2024-10-18T05:09:07Z) - TC4D: Trajectory-Conditioned Text-to-4D Generation [94.90700997568158]
提案するTC4D: trajectory-conditioned text-to-4D 生成は,グローバルおよびローカルなコンポーネントへの移動を要因とする。
我々は,テキスト・ビデオ・モデルから,グローバルな軌跡に適合する局所的な変形を観察する。
提案手法は,任意の軌跡に沿ってアニメーションされたシーンの合成,構成シーンの生成,および生成した動きのリアリズムと量に対する大幅な改善を可能にする。
論文 参考訳(メタデータ) (2024-03-26T17:55:11Z) - ReShader: View-Dependent Highlights for Single Image View-Synthesis [5.736642774848791]
本稿では,ビュー合成過程を画素再構成と再配置の2つの独立したタスクに分割することを提案する。
再構成の過程では,1枚の画像を入力とし,新しいカメラに基づいてシェーディングを調整する。
そして、この再構成画像を既存のビュー合成法の入力として使用し、画素を移動させ、最終的な新規なビュー画像を生成する。
論文 参考訳(メタデータ) (2023-09-19T15:23:52Z) - Novel View Synthesis of Humans using Differentiable Rendering [50.57718384229912]
我々は新しいポーズで人々の新しい視点を合成するための新しいアプローチを提案する。
我々の合成はヒトの骨格構造を表す拡散ガウス原始体を用いる。
これらのプリミティブをレンダリングすると、高次元の潜像が得られ、デコーダネットワークによってRGBイメージに変換される。
論文 参考訳(メタデータ) (2023-03-28T10:48:33Z) - Remote Sensing Novel View Synthesis with Implicit Multiplane
Representations [26.33490094119609]
暗黙的ニューラル表現の最近の進歩を活用して,新しいリモートセンシングビュー合成法を提案する。
リモートセンシング画像のオーバーヘッドと遠距離イメージングを考慮し,暗黙のマルチプレーン画像(MPI)表現とディープニューラルネットワークを組み合わせることで,3次元空間を表現する。
任意の新規ビューの画像は、再構成されたモデルに基づいて自由にレンダリングすることができる。
論文 参考訳(メタデータ) (2022-05-18T13:03:55Z) - Continuous Object Representation Networks: Novel View Synthesis without
Target View Supervision [26.885846254261626]
連続オブジェクト表現ネットワーク(Continuous Object Representation Networks、CORN)は、入力画像の幾何学と外観を3D一貫したシーン表現にマッピングする条件付きアーキテクチャである。
CORNは、新しいビューの合成やシングルビューの3D再構成、そして直接監督を使用する最先端のアプローチに匹敵するパフォーマンスといった挑戦的なタスクでうまく機能する。
論文 参考訳(メタデータ) (2020-07-30T17:49:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。