Fugu-MT 論文翻訳(概要): DriveScape: Towards High-Resolution Controllable Multi-View Driving Video Generation

論文の概要: DriveScape: Towards High-Resolution Controllable Multi-View Driving Video Generation

arxiv url: http://arxiv.org/abs/2409.05463v4
Date: Thu, 12 Sep 2024 12:32:21 GMT
ステータス: 翻訳完了
システム内更新日: 2024-09-13 13:20:50.101404
Title: DriveScape: Towards High-Resolution Controllable Multi-View Driving Video Generation
Title（参考訳）: DriveScape:高解像度制御可能なマルチビュー駆動ビデオ生成を目指して
Authors: Wei Wu, Xi Guo, Weixuan Tang, Tingxuan Huang, Chiyu Wang, Dongyue Chen, Chenjing Ding,
Abstract要約: DriveScapeは、マルチビュー、3D条件付きビデオ生成のためのエンドツーエンドフレームワークである。我々のBi-Directional Modulated Transformer (BiMot)は3次元構造情報の正確なアライメントを保証する。 DriveScapeはビデオ生成性能に優れ、FIDスコア8.34、FVDスコア76.39でnuScenesデータセットの最先端結果を達成する。
参考スコア（独自算出の注目度）: 10.296670127024045
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recent advancements in generative models have provided promising solutions for synthesizing realistic driving videos, which are crucial for training autonomous driving perception models. However, existing approaches often struggle with multi-view video generation due to the challenges of integrating 3D information while maintaining spatial-temporal consistency and effectively learning from a unified model. We propose DriveScape, an end-to-end framework for multi-view, 3D condition-guided video generation, capable of producing 1024 x 576 high-resolution videos at 10Hz. Unlike other methods limited to 2Hz due to the 3D box annotation frame rate, DriveScape overcomes this with its ability to operate under sparse conditions. Our Bi-Directional Modulated Transformer (BiMot) ensures precise alignment of 3D structural information, maintaining spatial-temporal consistency. DriveScape excels in video generation performance, achieving state-of-the-art results on the nuScenes dataset with an FID score of 8.34 and an FVD score of 76.39. Our project homepage: https://metadrivescape.github.io/papers_project/drivescapev1/index.html
Abstract（参考訳）: 生成モデルの最近の進歩は、自律運転知覚モデルの訓練に欠かせない現実的な運転映像を合成するための有望なソリューションを提供する。しかし,従来のアプローチでは,空間的時間的整合性を維持しながら3次元情報を統合することの難しさや,統一モデルから効果的に学習することの難しさから,多視点映像生成に苦慮することが多い。 10Hzで1024 x 576の高解像度ビデオを生成することができる3次元条件付きビデオ生成のためのエンドツーエンドフレームワークであるDriveScapeを提案する。 3Dボックスのアノテーションフレームレートによって2Hzに制限された他の方法とは異なり、DriveScapeはスパース条件下での動作能力でこれを克服している。我々のBi-Directional Modulated Transformer (BiMot)は3次元構造情報の正確なアライメントを保証し、空間的時間的整合性を維持する。 DriveScapeはビデオ生成性能に優れ、FIDスコア8.34、FVDスコア76.39でnuScenesデータセットの最先端結果を達成する。プロジェクトのホームページ: https://metadrivescape.github.io/papers_project/drivescapev1/index.html

関連論文リスト

InstaDrive: Instance-Aware Driving World Models for Realistic and Consistent Video Generation [53.47253633654885]
InstaDriveは、2つの重要な進歩を通じてビデオリアリズムを促進する新しいフレームワークである。これらのインスタンス認識機構を組み込むことで、InstaDriveは最先端のビデオ生成品質を実現する。私たちのプロジェクトページはhttps://shanpoyang654.io/InstaDrive/page.htmlです。
論文参考訳（メタデータ） (2026-02-03T08:22:13Z)
GenieDrive: Towards Physics-Aware Driving World Model with 4D Occupancy Guided Video Generation [80.1493315900789]
我々は物理対応駆動ビデオ生成のためのフレームワークGenieDriveを提案する。われわれのアプローチは、4Dの占有率の生成から始まり、これはその後のビデオ生成の物理インフォームド基盤として機能する。実験により、GenieDriveは高度に制御可能で、複数ビューの一貫性があり、物理対応の駆動ビデオ生成を可能にする。
論文参考訳（メタデータ） (2025-12-14T16:23:51Z)
DriveGen3D: Boosting Feed-Forward Driving Scene Generation with Efficient Video Diffusion [62.589889759543446]
DriveGen3Dは、高品質で制御可能な動的3D駆動シーンを生成するための新しいフレームワークである。本研究は,映像の高速化と大規模動的シーン再構築を融合させることにより,この手法のギャップを埋めるものである。
論文参考訳（メタデータ） (2025-10-17T03:00:08Z)
CoGen: 3D Consistent Video Generation via Adaptive Conditioning for Autonomous Driving [25.156989992025625]
本研究では,空間適応型生成フレームワークCoGenを導入し,高3次元一貫性で制御可能なマルチビュービデオを実現する。粗い2次元条件を微細な3次元表現に置き換えることで,生成した映像の空間的整合性を大幅に向上させる。以上の結果から, この手法は, 自律運転のための信頼性の高い映像生成ソリューションとして, 幾何学的忠実度と視覚的リアリズムの保存に優れることが示された。
論文参考訳（メタデータ） (2025-03-28T08:27:05Z)
DreamDrive: Generative 4D Scene Modeling from Street View Images [55.45852373799639]
生成と再構成の利点を組み合わせた4次元時空間シーン生成手法であるDreamDriveを提案する。具体的には,映像拡散モデルの生成力を利用して,映像参照のシーケンスを合成する。次に、ガウシアンスプラッティングで3D一貫性のあるドライビングビデオをレンダリングします。
論文参考訳（メタデータ） (2024-12-31T18:59:57Z)
DrivingWorld: Constructing World Model for Autonomous Driving via Video GPT [33.943125216555316]
我々は、自動運転のためのGPTスタイルの世界モデルであるDrivingWorldを紹介する。本稿では,連続フレーム間の時間的コヒーレンスをモデル化する次世代予測手法を提案する。また,長期ドリフト問題を軽減するため,トークン予測のための新しいマスキング戦略と再重み付け戦略を提案する。
論文参考訳（メタデータ） (2024-12-27T07:44:07Z)
Physical Informed Driving World Model [47.04423342994622]
DrivePhysicaは、本質的な物理原理に準拠したリアルなドライビングビデオを生成するために設計された革新的なモデルだ。我々は,Nuscenesデータセット上での3.96 FIDと38.06 FVDの駆動ビデオ生成品質と下流認識タスクにおける最先端性能を実現する。
論文参考訳（メタデータ） (2024-12-11T14:29:35Z)
Stag-1: Towards Realistic 4D Driving Simulation with Video Generation Model [83.31688383891871]
本稿では,現実世界のシーンを再現するために,DrivinG(Stag-1)モデルのための空間-テンポラル・シミュレートを提案する。 Stag-1は、自動運転車のサラウンドビューデータを使用して、連続した4Dポイントのクラウドシーンを構築する。空間的時間的関係を分離し、コヒーレントな運転ビデオを生成する。
論文参考訳（メタデータ） (2024-12-06T18:59:56Z)
InfiniCube: Unbounded and Controllable Dynamic 3D Driving Scene Generation with World-Guided Video Models [75.03495065452955]
InfiniCubeはダイナミックな3次元駆動シーンを高忠実かつ制御性で生成するスケーラブルな方法である。制御可能でリアルな3Dドライビングシーンを生成でき、モデルの有効性と優越性を広範囲にわたる実験により検証できる。
論文参考訳（メタデータ） (2024-12-05T07:32:20Z)
Seeing Beyond Views: Multi-View Driving Scene Video Generation with Holistic Attention [61.3281618482513]
高品質なマルチビュー駆動ビデオの合成を目的とした,新しいネットワークであるCogDrivingについて紹介する。 CogDriving は Diffusion Transformer アーキテクチャと holistic-4D attention module を活用し、次元間の同時結合を可能にする。 CogDrivingは、nuScenesバリデーションセットで強力なパフォーマンスを示し、FVDスコア37.8を達成し、リアルなドライビングビデオを生成する能力を強調している。
論文参考訳（メタデータ） (2024-12-04T18:02:49Z)
InfinityDrive: Breaking Time Limits in Driving World Models [12.041484892881057]
InfinityDriveは、例外的な一般化機能を備えた最初の駆動世界モデルである。最先端のパフォーマンスを高忠実さ、一貫性、多様性で実現し、微細なビデオ生成を実現している。複数のデータセットのテストは、複雑なさまざまなシナリオを生成するInfinityDriveの機能を検証する。
論文参考訳（メタデータ） (2024-12-02T14:15:41Z)
MagicDriveDiT: High-Resolution Long Video Generation for Autonomous Driving with Adaptive Control [68.74166535159311]
本稿では,Ditアーキテクチャに基づく新しいアプローチであるMagicDriveDiTを紹介する。 MagicDriveDiTは、空間的時間的条件エンコーディングを組み込むことで、空間的時間的潜伏量を正確に制御する。実験では、高解像度でフレーム数の多いリアルなストリートシーンビデオを生成する上で、優れたパフォーマンスを示している。
論文参考訳（メタデータ） (2024-11-21T03:13:30Z)
DreamForge: Motion-Aware Autoregressive Video Generation for Multi-View Driving Scenes [15.506076058742744]
本研究では,DreamForgeを提案する。DreamForgeは3次元制御可能な長期生成に適した,高度な拡散型自己回帰ビデオ生成モデルである。レーンと前景の生成を向上するために、視点誘導を導入し、オブジェクト指向位置符号化を統合する。また,映像中の動きの手がかりや外観の変化を捉えた時間的注意も提案する。
論文参考訳（メタデータ） (2024-09-06T03:09:58Z)
xGen-VideoSyn-1: High-fidelity Text-to-Video Synthesis with Compressed Representations [120.52120919834988]
xGen-SynVideo-1(xGen-SynVideo-1)は、テキスト記述からリアルなシーンを生成することができるテキスト・ツー・ビデオ(T2V)生成モデルである。 VidVAEはビデオデータを空間的にも時間的にも圧縮し、視覚トークンの長さを大幅に削減する。 DiTモデルは、空間的および時間的自己アテンション層を取り入れ、異なる時間枠とアスペクト比をまたいだ堅牢な一般化を可能にする。
論文参考訳（メタデータ） (2024-08-22T17:55:22Z)
MagicDrive3D: Controllable 3D Generation for Any-View Rendering in Street Scenes [72.02827211293736]
制御可能な3Dストリートシーン生成のための新しいパイプラインであるMagicDrive3Dを紹介する。生成モデルをトレーニングする前に再構築する従来の方法とは異なり、MagicDrive3Dはまずビデオ生成モデルをトレーニングし、生成したデータから再構成する。本研究の結果は, 自律運転シミュレーション等の可能性を示すとともに, フレームワークの優れた性能を示すものである。
論文参考訳（メタデータ） (2024-05-23T12:04:51Z)
Hybrid Video Diffusion Models with 2D Triplane and 3D Wavelet Representation [35.52770785430601]
複雑な依存関係をより効率的にキャプチャできるHVtemporalDMというハイブリッドビデオオートエンコーダを提案する。 HVDMは、ビデオの歪んだ表現を抽出するハイブリッドビデオオートエンコーダによって訓練される。当社のハイブリッドオートエンコーダは、生成されたビデオに詳細な構造と詳細を付加した、より包括的なビデオラテントを提供します。
論文参考訳（メタデータ） (2024-02-21T11:46:16Z)
RAVEN: Rethinking Adversarial Video Generation with Efficient Tri-plane Networks [93.18404922542702]
本稿では,長期的空間的および時間的依存関係に対処する新しいビデオ生成モデルを提案する。提案手法は,3次元認識型生成フレームワークにインスパイアされた,明示的で単純化された3次元平面のハイブリッド表現を取り入れたものである。我々のモデルは高精細度ビデオクリップを解像度256時間256$ピクセルで合成し、フレームレート30fpsで5ドル以上まで持続する。
論文参考訳（メタデータ） (2024-01-11T16:48:44Z)
PointOdyssey: A Large-Scale Synthetic Dataset for Long-Term Point Tracking [90.29143475328506]
本稿では,大規模合成データセットとデータ生成フレームワークであるPointOdysseyを紹介する。私たちのゴールは、自然主義的な動きを持つ長いビデオに重点を置いて、最先端の技術を推し進めることです。実世界のモーションキャプチャーデータを用いて変形可能なキャラクタをアニメーション化し、モーションキャプチャー環境に合わせて3Dシーンを構築し、リアルビデオ上で構造から抽出したトラジェクトリを用いてカメラ視点を描画する。
論文参考訳（メタデータ） (2023-07-27T17:58:11Z)
PV3D: A 3D Generative Model for Portrait Video Generation [94.96025739097922]
我々は,多視点一貫した肖像画を合成できる最初の生成フレームワークであるPV3Dを提案する。 PV3Dは、静的ポートレートのアニメーションやビュー一貫性のあるビデオモーション編集など、多くのダウンストリームアプリケーションをサポートすることができる。
論文参考訳（メタデータ） (2022-12-13T05:42:44Z)
Learnable Sampling 3D Convolution for Video Enhancement and Action Recognition [24.220358793070965]
3次元畳み込み(emphLS3D-Conv)の能力を向上させるための新しいモジュールを導入する。学習可能な2Dオフセットを3D畳み込みに追加し、フレーム間の空間的特徴マップ上の位置をサンプリングする。ビデオ, ビデオ超解像, ビデオデノナイズ, アクション認識実験により, 提案手法の有効性を実証した。
論文参考訳（メタデータ） (2020-11-22T09:20:49Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。