Fugu-MT 論文翻訳(概要): Panacea: Panoramic and Controllable Video Generation for Autonomous Driving

論文の概要: Panacea: Panoramic and Controllable Video Generation for Autonomous Driving

arxiv url: http://arxiv.org/abs/2311.16813v1
Date: Tue, 28 Nov 2023 14:22:24 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-29 18:19:12.676227
Title: Panacea: Panoramic and Controllable Video Generation for Autonomous Driving
Title（参考訳）: panacea: 自動運転のためのパノラマと制御可能なビデオ生成
Authors: Yuqing Wen, Yucheng Zhao, Yingfei Liu, Fan Jia, Yanhui Wang, Chong Luo, Chi Zhang, Tiancai Wang, Xiaoyan Sun, Xiangyu Zhang
Abstract要約: 運転シナリオにおいてパノラマおよび制御可能なビデオを生成する革新的な手法であるパナセアを提案する。 Panaceaは2つの重要な課題に対処する:「一貫性」と「保守性」
参考スコア（独自算出の注目度）: 38.404935454784855
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: The field of autonomous driving increasingly demands high-quality annotated training data. In this paper, we propose Panacea, an innovative approach to generate panoramic and controllable videos in driving scenarios, capable of yielding an unlimited numbers of diverse, annotated samples pivotal for autonomous driving advancements. Panacea addresses two critical challenges: 'Consistency' and 'Controllability.' Consistency ensures temporal and cross-view coherence, while Controllability ensures the alignment of generated content with corresponding annotations. Our approach integrates a novel 4D attention and a two-stage generation pipeline to maintain coherence, supplemented by the ControlNet framework for meticulous control by the Bird's-Eye-View (BEV) layouts. Extensive qualitative and quantitative evaluations of Panacea on the nuScenes dataset prove its effectiveness in generating high-quality multi-view driving-scene videos. This work notably propels the field of autonomous driving by effectively augmenting the training dataset used for advanced BEV perception techniques.
Abstract（参考訳）: 自動運転の分野は、ますます高品質な注釈付きトレーニングデータを必要としている。本稿では,運転シナリオにおいてパノラマ的かつ制御可能な映像を生成するための革新的なアプローチであるpanaceaを提案する。 Panacea氏は2つの重要な課題に対処している。一貫性はテンポラリとクロスビューのコヒーレンスを保証し、コントロール容易性は生成されたコンテンツと対応するアノテーションのアライメントを保証する。提案手法は,バードズアイビュー(BEV)レイアウトによる微妙な制御のために,コントロールネットフレームワークによって補足された,新しい4Dアテンションと2段階生成パイプラインを統合してコヒーレンスを維持する。 nuScenesデータセット上のパナセアの質的および定量的評価は、高品質なマルチビュー駆動シーンビデオを生成する上での有効性を証明している。この研究は、高度なBEV知覚技術に使用されるトレーニングデータセットを効果的に増強することで、自動運転の分野を特に促進する。

関連論文リスト

Controllable Pedestrian Video Editing for Multi-View Driving Scenarios via Motion Sequence [4.778564042492516]
本稿では,映像の描画と人体動作制御を統合して,多視点運転シナリオにおける歩行者映像編集のためのフレームワークを提案する。我々のアプローチは、複数のカメラビューにまたがる歩行者領域を特定し、一定の比率で境界ボックスを検知し、これらの領域を統一されたキャンバスに変えて縫い合わせることから始まる。実験により, 視覚的リアリズムのコヒーレンスと視線横断的整合性により, 高品質な歩行者編集を実現することが実証された。
論文参考訳（メタデータ） (2025-08-01T03:56:57Z)
SOLVE: Synergy of Language-Vision and End-to-End Networks for Autonomous Driving [51.47621083057114]
SOLVEは、ビジョンランゲージモデルとエンド・ツー・エンド(E2E)モデルを相乗化して自動運転車の計画を強化する革新的なフレームワークである。提案手法は,VLMとE2Eコンポーネント間の包括的インタラクションを実現するために,共有ビジュアルエンコーダによる機能レベルでの知識共有を重視している。
論文参考訳（メタデータ） (2025-05-22T15:44:30Z)
DiVE: Efficient Multi-View Driving Scenes Generation Based on Video Diffusion Transformer [56.98400572837792]
DiVEは高忠実で、時間的コヒーレントで、相互に一貫したマルチビュービデオを生成する。これらの革新は総じて、最小品質の劣化を伴う2.62倍のスピードアップを達成する。
論文参考訳（メタデータ） (2025-04-28T09:20:50Z)
Seeing Beyond Views: Multi-View Driving Scene Video Generation with Holistic Attention [61.3281618482513]
高品質なマルチビュー駆動ビデオの合成を目的とした,新しいネットワークであるCogDrivingについて紹介する。 CogDriving は Diffusion Transformer アーキテクチャと holistic-4D attention module を活用し、次元間の同時結合を可能にする。 CogDrivingは、nuScenesバリデーションセットで強力なパフォーマンスを示し、FVDスコア37.8を達成し、リアルなドライビングビデオを生成する能力を強調している。
論文参考訳（メタデータ） (2024-12-04T18:02:49Z)
MagicDriveDiT: High-Resolution Long Video Generation for Autonomous Driving with Adaptive Control [68.74166535159311]
本稿では,Ditアーキテクチャに基づく新しいアプローチであるMagicDriveDiTを紹介する。 MagicDriveDiTは、空間的時間的条件エンコーディングを組み込むことで、空間的時間的潜伏量を正確に制御する。実験では、高解像度でフレーム数の多いリアルなストリートシーンビデオを生成する上で、優れたパフォーマンスを示している。
論文参考訳（メタデータ） (2024-11-21T03:13:30Z)
ZOPP: A Framework of Zero-shot Offboard Panoptic Perception for Autonomous Driving [44.174489160967056]
オフボード認識は、自動運転シーンのための高品質な3Dラベルを自動生成することを目的としている。自律走行シーンのためのZOPP(Zero-shot Offboard Panoptic Perception)フレームワークを提案する。 ZOPPは、視覚基礎モデルの強力なゼロショット認識機能と、ポイントクラウドから派生した3D表現を統合している。
論文参考訳（メタデータ） (2024-11-08T03:52:32Z)
XAI-based Feature Ensemble for Enhanced Anomaly Detection in Autonomous Driving Systems [1.3022753212679383]
本稿では,複数の Explainable AI (XAI) メソッドを統合する新しい機能アンサンブルフレームワークを提案する。このフレームワークは、6つの多様なAIモデルにまたがって、これらのXAIメソッドによって識別されるトップ機能を融合することによって、異常の検出に不可欠な堅牢で包括的な機能のセットを生成する。我々の技術は、AIモデルの精度、堅牢性、透明性の向上を示し、より安全で信頼性の高い自動運転システムに貢献します。
論文参考訳（メタデータ） (2024-10-20T14:34:48Z)
DiVE: DiT-based Video Generation with Enhanced Control [23.63288169762629]
時間的・多視点的な一貫したビデオを生成するために特別に設計された第1のDiTベースのフレームワークを提案する。具体的には、パラメータフリーな空間ビューインフレードアテンション機構を利用して、クロスビューの一貫性を保証する。
論文参考訳（メタデータ） (2024-09-03T04:29:59Z)
Panacea+: Panoramic and Controllable Video Generation for Autonomous Driving [23.63374916271247]
本研究では,運転シーンにおける映像データ生成のための強力なフレームワークであるPanacea+を提案する。 Panacea+は、マルチビューのノイズ前処理機構と、一貫性と解像度の向上のための超解像モジュールを採用している。実験により、生成されたビデオサンプルは、異なるデータセット上の幅広いタスクに大きな恩恵をもたらすことが示された。
論文参考訳（メタデータ） (2024-08-14T15:10:13Z)
BEVWorld: A Multimodal World Simulator for Autonomous Driving via Scene-Level BEV Latents [56.33989853438012]
BEVWorldは,マルチモーダルセンサ入力を統一的でコンパクトなBird's Eye View潜在空間に変換し,全体的環境モデリングを行うフレームワークである。提案する世界モデルは,多モードトークン化器と遅延BEVシーケンス拡散モデルという2つの主要成分から構成される。
論文参考訳（メタデータ） (2024-07-08T07:26:08Z)
Enhancing End-to-End Autonomous Driving with Latent World Model [78.22157677787239]
コストのかかるラベルを必要とせずにエンドツーエンドの運転を改善するための,新しい自己管理手法を提案する。フレームワーク textbfLAW は LAtent World モデルを用いて,予測エゴアクションと現在のフレームの潜在機能に基づいて,今後の潜在機能を予測する。その結果,オープンループベンチマークとクローズループベンチマークの両方において,コストのかかるアノテーションを使わずに最先端のパフォーマンスを実現することができた。
論文参考訳（メタデータ） (2024-06-12T17:59:21Z)
3D Object Visibility Prediction in Autonomous Driving [6.802572869909114]
本稿では,新しい属性とその対応するアルゴリズムである3Dオブジェクトの可視性について述べる。この属性の提案とその計算戦略は、下流タスクの能力を拡大することを目的としている。
論文参考訳（メタデータ） (2024-03-06T13:07:42Z)
Driving into the Future: Multiview Visual Forecasting and Planning with World Model for Autonomous Driving [56.381918362410175]
Drive-WMは、既存のエンド・ツー・エンドの計画モデルと互換性のある世界初のドライビングワールドモデルである。ドライビングシーンで高忠実度マルチビュー映像を生成する。
論文参考訳（メタデータ） (2023-11-29T18:59:47Z)
Drive Anywhere: Generalizable End-to-end Autonomous Driving with Multi-modal Foundation Models [114.69732301904419]
本稿では、画像とテキストで検索可能な表現から、運転決定を提供することができる、エンドツーエンドのオープンセット(環境/シーン)自律運転を適用するアプローチを提案する。当社のアプローチでは, 多様なテストにおいて非並列的な結果を示すと同時に, アウト・オブ・ディストリビューションの状況において, はるかに高いロバスト性を実現している。
論文参考訳（メタデータ） (2023-10-26T17:56:35Z)
Visual Exemplar Driven Task-Prompting for Unified Perception in Autonomous Driving [100.3848723827869]
本稿では,タスク固有のプロンプトを通じて視覚的見本を提示する,効果的なマルチタスクフレームワークVE-Promptを提案する。具体的には、境界ボックスと色に基づくマーカーに基づいて視覚的な例を生成し、ターゲットカテゴリの正確な視覚的外観を提供する。我々は変圧器をベースとしたエンコーダと畳み込み層を橋渡しし、自律運転における効率的かつ正確な統合認識を実現する。
論文参考訳（メタデータ） (2023-03-03T08:54:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。