論文の概要: HorizonWeaver: Generalizable Multi-Level Semantic Editing for Driving Scenes
- arxiv url: http://arxiv.org/abs/2604.04887v1
- Date: Mon, 06 Apr 2026 17:36:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-07 15:49:19.312829
- Title: HorizonWeaver: Generalizable Multi-Level Semantic Editing for Driving Scenes
- Title(参考訳): HorizonWeaver: 運転シーンのための汎用マルチレベルセマンティック編集
- Authors: Mauricio Soroco, Francesco Pittaluga, Zaid Tasneem, Abhishek Aich, Bingbing Zhuang, Wuyang Chen, Manmohan Chandraker, Ziyu Jiang,
- Abstract要約: HorizonWeaverは複雑な運転シーンを命令駆動で編集するためのフレームワークである。
13の編集カテゴリで255Kイメージを収集し、L1、CLIP、DINOメトリクスで先行メソッドを上回っている。
ユーザの好みは+46.4%で、BEVセグメンテーションIoUを+33%改善している。
- 参考スコア(独自算出の注目度): 56.61064471501987
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Ensuring safety in autonomous driving requires scalable generation of realistic, controllable driving scenes beyond what real-world testing provides. Yet existing instruction guided image editors, trained on object-centric or artistic data, struggle with dense, safety-critical driving layouts. We propose HorizonWeaver, which tackles three fundamental challenges in driving scene editing: (1) multi-level granularity, requiring coherent object- and scene-level edits in dense environments; (2) rich high-level semantics, preserving diverse objects while following detailed instructions; and (3) ubiquitous domain shifts, handling changes in climate, layout, and traffic across unseen environments. The core of HorizonWeaver is a set of complementary contributions across data, model, and training: (1) Data: Large-scale dataset generation, where we build a paired real/synthetic dataset from Boreas, nuScenes, and Argoverse2 to improve generalization; (2) Model: Language-Guided Masks for fine-grained editing, where semantics-enriched masks and prompts enable precise, language-guided edits; and (3) Training: Content preservation and instruction alignment, where joint losses enforce scene consistency and instruction fidelity. Together, HorizonWeaver provides a scalable framework for photorealistic, instruction-driven editing of complex driving scenes, collecting 255K images across 13 editing categories and outperforming prior methods in L1, CLIP, and DINO metrics, achieving +46.4% user preference and improving BEV segmentation IoU by +33%. Project page: https://msoroco.github.io/horizonweaver/
- Abstract(参考訳): 自動運転における安全性の確保には、現実的な制御可能な運転シーンを、現実的なテスト以上のスケーラブルに生成する必要がある。
しかし、既存の指導による画像エディターは、オブジェクト中心または芸術的データに基づいて訓練され、密度が高く安全に重要な運転レイアウトに苦しむ。
本研究では,(1)密集環境における多面的粒度,一貫性のあるオブジェクトとシーンレベルの編集を必要とすること,(2)詳細な指示に従って多面的オブジェクトを保存すること,(3)ユビキタスな領域シフト,気候,レイアウト,および未知環境間のトラフィックを扱うこと,の3つの基本的な課題に対処するHorizonWeaverを提案する。
HorizonWeaverのコアは、データ、モデル、トレーニングにまたがる補完的なコントリビューションのセットである。(1)データ:Boreas, nuScenes, Argoverse2からペアでリアルタイム/合成データセットを構築する大規模データセット生成、(2)モデル: セマンティクスに富んだマスクとプロンプトが正確な言語指導による編集を可能にし、(3)トレーニング: コンテンツ保存と命令アライメント、そして、共同の損失がシーンの一貫性と命令の忠実性を強制する。
HorizonWeaverは、複雑な運転シーンのフォトリアリスティックで命令駆動の編集のためのスケーラブルなフレームワークを提供し、13の編集カテゴリにわたって255Kの画像を収集し、L1、CLIP、DINOのメトリクスで先行メソッドを上回り、+46.4%のユーザの好みを達成し、BEVセグメンテーションIoUを+33%改善する。
プロジェクトページ:https://msoroco.github.io/Horizonweaver/
関連論文リスト
- WeEdit: A Dataset, Benchmark and Glyph-Guided Framework for Text-centric Image Editing [103.68419705566146]
WeEditは、スケーラブルなデータ構築パイプラインと2つのベンチマーク、2段階のトレーニング戦略を含む、システマティックなソリューションである。
具体的には、多様な編集操作と15言語をカバーする330Kのトレーニングペアを生成するHTMLベースの新しい自動編集パイプラインを提案する。
アルゴリズム面では、グリフ誘導による微調整を用いて、空間的および内容的事前の明示を注入し、次いで、命令の順守、テキストの明瞭さ、背景の保存と、生成を整合させる多目的強化学習ステージを用いる。
論文 参考訳(メタデータ) (2026-03-12T06:25:09Z) - HorizonForge: Driving Scene Editing with Any Trajectories and Any Vehicles [63.88996084630768]
制御可能な運転シーン生成は、現実的でスケーラブルな自律運転シミュレーションに不可欠である。
シーンを編集可能なガウス版とメッシュとして再構築する統合フレームワークであるHorizonForgeを紹介した。
実験により、ガウス・メシュ表現は代替の3次元表現よりもかなり高い忠実性をもたらすことが示された。
論文 参考訳(メタデータ) (2026-02-24T20:03:47Z) - LangDriveCTRL: Natural Language Controllable Driving Scene Editing with Multi-modal Agents [61.91651123290512]
LangDriveCTRLは、様々な交通シナリオを合成するために現実世界の運転ビデオを編集するフレームワークである。
オブジェクトノードの編集(削除、挿入、置換)と1つの自然言語命令からの複数オブジェクトの振る舞いの編集の両方をサポートする。
論文 参考訳(メタデータ) (2025-12-19T10:57:03Z) - SceneCrafter: Controllable Multi-View Driving Scene Editing [44.91248700043744]
SceneCrafterは、複数のカメラから撮影した運転シーンをリアルな3D一貫性で操作するための汎用的なエディタである。
SceneCrafterは、既存のベースラインと比較して最先端のリアリズム、制御性、3D一貫性、シーン編集品質を実現している。
論文 参考訳(メタデータ) (2025-06-24T10:23:47Z) - DriveEditor: A Unified 3D Information-Guided Framework for Controllable Object Editing in Driving Scenes [23.215760822443194]
DriveEditorは、動画のオブジェクト編集のための拡散ベースのフレームワークである。
再配置、置換、削除、挿入を含む包括的なオブジェクト編集操作のための統一されたフレームワークを提供する。
論文 参考訳(メタデータ) (2024-12-27T04:49:36Z) - CommonScenes: Generating Commonsense 3D Indoor Scenes with Scene Graph
Diffusion [83.30168660888913]
シーングラフを対応する制御可能な3Dシーンに変換する完全生成モデルであるCommonScenesを提案する。
パイプラインは2つのブランチで構成されており、1つは変分オートエンコーダでシーン全体のレイアウトを予測し、もう1つは互換性のある形状を生成する。
生成されたシーンは、入力シーングラフを編集し、拡散モデルのノイズをサンプリングすることで操作することができる。
論文 参考訳(メタデータ) (2023-05-25T17:39:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。