Fugu-MT 論文翻訳(概要): ScenarioControl: Vision-Language Controllable Vectorized Latent Scenario Generation

論文の概要: ScenarioControl: Vision-Language Controllable Vectorized Latent Scenario Generation

arxiv url: http://arxiv.org/abs/2604.17147v1
Date: Sat, 18 Apr 2026 21:00:26 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-21 21:52:52.358736
Title: ScenarioControl: Vision-Language Controllable Vectorized Latent Scenario Generation
Title（参考訳）: シナリオコントロ:ビジョンランゲージ制御可能なベクトル化潜在シナリオ生成
Authors: Lili Gao, Yanbo Xu, William Koch, Samuele Ruffino, Luke Rowe, Behdad Chalaki, Dmitriy Rivkin, Julian Ost, Roger Girgis, Mario Bijelic, Felix Heide,
Abstract要約: テキストプロンプトや入力イメージが与えられたScenario-Controlは、多様なリアルな3Dシナリオのロールアウトを合成する。道路構造と動的エージェントを共同で表現したベクトル化潜在空間のシーンを生成する。
参考スコア（独自算出の注目度）: 33.56680018838822
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: We introduce ScenarioControl, the first vision-language control mechanism for learned driving scenario generation. Given a text prompt or an input image, Scenario-Control synthesizes diverse, realistic 3D scenario rollouts - including map, 3D boxes of reactive actors over time, pedestrians, driving infrastructure, and ego camera observations. The method generates scenes in a vectorized latent space that represents road structure and dynamic agents jointly. To connect multimodal control with sparse vectorized scene elements, we propose a cross-global control mechanism that integrates crossattention with a lightweight global-context branch, enabling fine-grained control over road layout and traffic conditions while preserving realism. The method produces temporally consistent scenario rollouts from the perspectives different actors in the scene, supporting long-horizon continuation of driving scenarios. To facilitate training and evaluation, we release a dataset with text annotations aligned to vectorized map structures. Extensive experiments validate that the control adherence and fidelity of ScenarioControl compare favorable to all tested methods across all experiments. Project webpage: https://light.princeton.edu/ScenarioControl
Abstract（参考訳）: 学習シナリオ生成のための最初の視覚言語制御機構であるScenarioControlを紹介する。テキストプロンプトや入力画像が与えられたScenario-Controlは、マップ、リアクティブアクターの3Dボックス、歩行者、運転インフラ、エゴカメラの観察など、多様な現実的な3Dシナリオのロールアウトを合成する。道路構造と動的エージェントを共同で表現したベクトル化潜在空間のシーンを生成する。本研究では,マルチモーダル制御と疎ベクトル化シーン要素を結合するために,クロスアテンションを軽量なグローバルコンテキストブランチに統合し,リアル性を維持しながら道路レイアウトや交通条件のきめ細かい制御を可能にするクロスグロバル制御機構を提案する。この手法は、シーン内の異なるアクターの観点から時間的に一貫したシナリオロールアウトを生成し、運転シナリオの長期継続をサポートする。トレーニングと評価を容易にするため,ベクトル化された地図構造に整列したテキストアノテーションを用いたデータセットを作成した。広範囲な実験により、ScenarioControlの制御の忠実さと忠実さは、全ての実験で試験されたすべての方法に好適であることが検証された。プロジェクトWebページ: https://light.princeton.edu/ScenarioControl

関連論文リスト

LLM-based Realistic Safety-Critical Driving Video Generation [4.537331974356809]
CARLAシミュレータ内の運転シナリオを自動的に合成するフレームワークを提案する。このフレームワークはシナリオスクリプティング、トラフィック参加者の効率的なコードベースの制御、現実的な物理力学の実施において柔軟性がある。本手法により,制御可能なシナリオ生成が可能となり,稀ではあるが重要なエッジケースの作成が容易になる。
論文参考訳（メタデータ） (2025-07-02T00:45:19Z)
X-Scene: Large-Scale Driving Scene Generation with High Fidelity and Flexible Controllability [49.4647778989539]
X-Sceneは大規模ドライビングシーン生成のための新しいフレームワークである。幾何的複雑度と外観の忠実度の両方を実現し、フレキシブルな制御性を提供する。 X-Sceneは、大規模な運転シーン生成のための制御性と忠実性を大幅に向上させる。
論文参考訳（メタデータ） (2025-06-16T14:43:18Z)
Compass Control: Multi Object Orientation Control for Text-to-Image Generation [24.4172525865806]
テキストと画像の拡散モデルを制御する既存のアプローチは、強力ではあるが、明示的な3Dオブジェクト中心制御を許さない。テキスト・画像拡散モデルにおける多目的方向制御の問題に対処する。これにより、各オブジェクトに対して正確な向き制御を備えた多様なマルチオブジェクトシーンを生成することができる。
論文参考訳（メタデータ） (2025-04-09T10:15:15Z)
Generating Multimodal Driving Scenes via Next-Scene Prediction [24.84840824118813]
自律運転(AD)における生成モデルは、多様なシーン生成を可能にするが、既存の方法は、限られた範囲のモダリティをキャプチャすることで不足する。本稿では,4つの主要なデータモダリティを組み込んだマルチモーダル生成フレームワークを提案する。我々のフレームワークは、拡張シーケンス上で複雑で現実的な運転シーンを効果的に生成し、マルチモーダル整合性を確保し、シーン要素のきめ細かい制御を提供する。
論文参考訳（メタデータ） (2025-03-19T07:20:16Z)
Seeing Beyond Views: Multi-View Driving Scene Video Generation with Holistic Attention [61.3281618482513]
高品質なマルチビュー駆動ビデオの合成を目的とした,新しいネットワークであるCogDrivingについて紹介する。 CogDriving は Diffusion Transformer アーキテクチャと holistic-4D attention module を活用し、次元間の同時結合を可能にする。 CogDrivingは、nuScenesバリデーションセットで強力なパフォーマンスを示し、FVDスコア37.8を達成し、リアルなドライビングビデオを生成する能力を強調している。
論文参考訳（メタデータ） (2024-12-04T18:02:49Z)
Generating Compositional Scenes via Text-to-image RGBA Instance Generation [82.63805151691024]
テキストから画像への拡散生成モデルは、退屈な急進的なエンジニアリングを犠牲にして高品質な画像を生成することができる。本稿では, 粒度制御, 柔軟性, 相互作用性を考慮した新しい多段階生成パラダイムを提案する。実験の結果,RGBA拡散モデルでは,オブジェクト属性を正確に制御した多種多様な高品質なインスタンスを生成できることがわかった。
論文参考訳（メタデータ） (2024-11-16T23:44:14Z)
Fine-grained Controllable Video Generation via Object Appearance and Context [74.23066823064575]
細粒度制御可能なビデオ生成法(FACTOR)を提案する。 FACTORは、オブジェクトの位置とカテゴリを含む、オブジェクトの外観とコンテキストを制御することを目的としている。本手法は,オブジェクトの外観を微調整せずに制御し,オブジェクトごとの最適化作業を省く。
論文参考訳（メタデータ） (2023-12-05T17:47:33Z)
SceneChecker: Boosting Scenario Verification using Symmetry Abstractions [3.8995911009078816]
SceneCheckerは、大きな散らかったワークスペースで複雑な計画を実行する車両のシナリオを検証するツールである。 SceneCheckerは、これらのツールを到達性サブルーチンとして使用しても、検証時間の20倍のスピードアップを示している。
論文参考訳（メタデータ） (2020-11-21T03:18:55Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。