論文の概要: LangDriveCTRL: Natural Language Controllable Driving Scene Editing with Multi-modal Agents
- arxiv url: http://arxiv.org/abs/2512.17445v1
- Date: Fri, 19 Dec 2025 10:57:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-22 19:25:54.349152
- Title: LangDriveCTRL: Natural Language Controllable Driving Scene Editing with Multi-modal Agents
- Title(参考訳): LangDriveCTRL:マルチモーダルエージェントによる自然言語制御可能な運転シーン編集
- Authors: Yun He, Francesco Pittaluga, Ziyu Jiang, Matthias Zwicker, Manmohan Chandraker, Zaid Tasneem,
- Abstract要約: LangDriveCTRLは、様々な交通シナリオを合成するために現実世界の運転ビデオを編集するフレームワークである。
オブジェクトノードの編集(削除、挿入、置換)と1つの自然言語命令からの複数オブジェクトの振る舞いの編集の両方をサポートする。
- 参考スコア(独自算出の注目度): 61.91651123290512
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: LangDriveCTRL is a natural-language-controllable framework for editing real-world driving videos to synthesize diverse traffic scenarios. It leverages explicit 3D scene decomposition to represent driving videos as a scene graph, containing static background and dynamic objects. To enable fine-grained editing and realism, it incorporates an agentic pipeline in which an Orchestrator transforms user instructions into execution graphs that coordinate specialized agents and tools. Specifically, an Object Grounding Agent establishes correspondence between free-form text descriptions and target object nodes in the scene graph; a Behavior Editing Agent generates multi-object trajectories from language instructions; and a Behavior Reviewer Agent iteratively reviews and refines the generated trajectories. The edited scene graph is rendered and then refined using a video diffusion tool to address artifacts introduced by object insertion and significant view changes. LangDriveCTRL supports both object node editing (removal, insertion and replacement) and multi-object behavior editing from a single natural-language instruction. Quantitatively, it achieves nearly $2\times$ higher instruction alignment than the previous SoTA, with superior structural preservation, photorealism, and traffic realism. Project page is available at: https://yunhe24.github.io/langdrivectrl/.
- Abstract(参考訳): LangDriveCTRLは、現実世界の運転映像を編集して多様な交通シナリオを合成するための自然言語制御可能なフレームワークである。
明示的な3Dシーン分解を活用して、静的な背景と動的オブジェクトを含むシーングラフとして駆動ビデオを表現する。
きめ細かい編集とリアリズムを実現するため、Orchestratorがユーザ命令を特殊なエージェントやツールを調整する実行グラフに変換するエージェントパイプラインが組み込まれている。
具体的には、オブジェクトグラウンディングエージェントは、シーングラフ内の自由形式のテキスト記述とターゲット対象ノードとの対応を確立し、ビヘイビア編集エージェントは、言語命令から多目的トラジェクトリを生成し、ビヘイビアレビュアエージェントは、生成されたトラジェクトリを反復的にレビューし、洗練する。
編集されたシーングラフは、ビデオ拡散ツールを使用してレンダリングされ、オブジェクト挿入と大きなビュー変更によって導入されたアーティファクトに対処する。
LangDriveCTRLは、オブジェクトノードの編集(削除、挿入、置換)と1つの自然言語命令からの複数オブジェクトの振る舞いの編集の両方をサポートする。
定量的には、以前のSoTAよりも2ドル近い命令アライメントを実現し、優れた構造保存、フォトリアリズム、トラフィックリアリズムを実現している。
プロジェクトページは、https://yunhe24.github.io/langdrivectrl/.comで公開されている。
関連論文リスト
- LoVoRA: Text-guided and Mask-free Video Object Removal and Addition with Learnable Object-aware Localization [49.945233586949286]
LoVoRAは、マスクのないビデオオブジェクトの削除と追加のための新しいフレームワークである。
提案手法は,画像間翻訳,光フローベースのマスク伝搬,ビデオペインティングを統合し,時間的に一貫した編集を可能にする。
LoVoRAは、推論中に外部制御信号を必要とせずに、エンドツーエンドのビデオ編集を実現する。
論文 参考訳(メタデータ) (2025-12-02T17:01:07Z) - TGT: Text-Grounded Trajectories for Locally Controlled Video Generation [33.989722489622075]
本稿では,テキスト記述と組み合わせたトラジェクトリ上でのビデオ生成を行うフレームワークであるText-Grounded Trajectories (TGT)を紹介する。
TGTは、従来のアプローチと比較して、より高い視覚的品質、より正確なテキストアライメント、モーションコントロール性の向上を実現している。
論文 参考訳(メタデータ) (2025-10-16T19:45:27Z) - InstructUDrag: Joint Text Instructions and Object Dragging for Interactive Image Editing [6.95116998047811]
InstructUDragは、テキスト命令とオブジェクトドラッグを組み合わせた拡散ベースのフレームワークである。
本フレームワークは,オブジェクトのドラッグングを画像再構成プロセスとして扱い,二つの相乗的分岐に分割する。
InstructUDragはフレキシブルで高忠実な画像編集を容易にし、オブジェクトの移動精度と画像コンテンツに対するセマンティックコントロールを提供する。
論文 参考訳(メタデータ) (2025-10-09T13:06:49Z) - Neural Atlas Graphs for Dynamic Scene Decomposition and Editing [32.587200006985015]
本稿では,各グラフノードがビュー依存型ニューラルアトラスであるハイブリッド高解像度シーン表現を提案する。
NAGはOpenデータセット上で最先端の定量的結果を達成する。
論文 参考訳(メタデータ) (2025-09-19T18:24:41Z) - DrivingGaussian++: Towards Realistic Reconstruction and Editable Simulation for Surrounding Dynamic Driving Scenes [49.23098808629567]
DrivingGaussian++は、自律運転シーンをリアルに再構成し、制御可能な編集を行うための効率的なフレームワークである。
テクスチャ修正、天気予報、オブジェクト操作など、ダイナミックな運転シーンのためのトレーニング不要のコントロール可能な編集をサポートする。
提案手法は,動的物体の運動軌跡を自動的に生成し,最適化過程における現実性を高める。
論文 参考訳(メタデータ) (2025-08-28T16:22:54Z) - DriveEditor: A Unified 3D Information-Guided Framework for Controllable Object Editing in Driving Scenes [23.215760822443194]
DriveEditorは、動画のオブジェクト編集のための拡散ベースのフレームワークである。
再配置、置換、削除、挿入を含む包括的なオブジェクト編集操作のための統一されたフレームワークを提供する。
論文 参考訳(メタデータ) (2024-12-27T04:49:36Z) - EditRoom: LLM-parameterized Graph Diffusion for Composable 3D Room Layout Editing [114.14164860467227]
自然言語コマンドで様々なレイアウト編集を実行できるフレームワークであるEditRoomを提案する。
特にEditRoomは、コマンドプランニングとターゲットシーンの生成にLarge Language Models(LLM)を利用している。
既存の3Dシーンデータセットを拡張する自動パイプラインを開発し,83kの編集ペアを備えた大規模データセットであるEditRoom-DBを導入した。
論文 参考訳(メタデータ) (2024-10-03T17:42:24Z) - Graph-to-3D: End-to-End Generation and Manipulation of 3D Scenes Using
Scene Graphs [85.54212143154986]
制御可能なシーン合成は、基本的な仕様を満たす3D情報を生成することで構成される。
シーングラフは、オブジェクト(ノード)とオブジェクト間の関係(エッジ)からなるシーンの表現である
本稿では,シーングラフから形状を直接エンドツーエンドに生成する手法を提案する。
論文 参考訳(メタデータ) (2021-08-19T17:59:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。