論文の概要: DrivePTS: A Progressive Learning Framework with Textual and Structural Enhancement for Driving Scene Generation
- arxiv url: http://arxiv.org/abs/2602.22549v1
- Date: Thu, 26 Feb 2026 02:42:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-27 18:41:22.4923
- Title: DrivePTS: A Progressive Learning Framework with Textual and Structural Enhancement for Driving Scene Generation
- Title(参考訳): DrivePTS: 運転シーン生成のためのテキスト・構造強化型プログレッシブラーニングフレームワーク
- Authors: Zhechao Wang, Yiming Zeng, Lufan Ma, Zeqing Fu, Chen Bai, Ziyao Lin, Cheng Lu,
- Abstract要約: 現在の手法は条件付きシーン生成のための幾何学的条件として高精細(HD)マップと3次元境界ボックスを集約する。
これらの手法は意味的側面と構造的側面の両方において不十分な詳細に悩まされている。
本稿では,3つの重要なイノベーションを取り入れたDrivePTSを提案する。
- 参考スコア(独自算出の注目度): 8.8362637812626
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Synthesis of diverse driving scenes serves as a crucial data augmentation technique for validating the robustness and generalizability of autonomous driving systems. Current methods aggregate high-definition (HD) maps and 3D bounding boxes as geometric conditions in diffusion models for conditional scene generation. However, implicit inter-condition dependency causes generation failures when control conditions change independently. Additionally, these methods suffer from insufficient details in both semantic and structural aspects. Specifically, brief and view-invariant captions restrict semantic contexts, resulting in weak background modeling. Meanwhile, the standard denoising loss with uniform spatial weighting neglects foreground structural details, causing visual distortions and blurriness. To address these challenges, we propose DrivePTS, which incorporates three key innovations. Firstly, our framework adopts a progressive learning strategy to mitigate inter-dependency between geometric conditions, reinforced by an explicit mutual information constraint. Secondly, a Vision-Language Model is utilized to generate multi-view hierarchical descriptions across six semantic aspects, providing fine-grained textual guidance. Thirdly, a frequency-guided structure loss is introduced to strengthen the model's sensitivity to high-frequency elements, improving foreground structural fidelity. Extensive experiments demonstrate that our DrivePTS achieves state-of-the-art fidelity and controllability in generating diverse driving scenes. Notably, DrivePTS successfully generates rare scenes where prior methods fail, highlighting its strong generalization ability.
- Abstract(参考訳): 多様な運転シーンの合成は、自律運転システムの堅牢性と一般化性を検証するための重要なデータ拡張技術として機能する。
現在の手法は、条件付きシーン生成のための拡散モデルにおける幾何学的条件として、ハイデフィニション(HD)マップと3次元境界ボックスを集約する。
しかし、暗黙的な条件間の依存関係は、制御条件が独立に変化すると、発生不良を引き起こす。
さらに、これらの手法は意味的側面と構造的側面の両方において不十分な詳細に悩まされている。
具体的には、簡潔でビュー不変なキャプションはセマンティックコンテキストを制限し、弱い背景モデリングをもたらす。
一方、均一な空間重み付けによる標準的な騒音損失は、前景の構造的詳細を無視し、視覚的歪みとぼやけを引き起こす。
これらの課題に対処するために,3つの重要なイノベーションを取り入れたDrivePTSを提案する。
まず,我々のフレームワークは,明示的な相互情報制約によって強化された幾何学的条件間の相互依存を軽減するために,漸進的な学習戦略を採用する。
第2に、視覚言語モデルを用いて、6つの意味的側面にまたがる多視点階層的記述を生成し、きめ細かいテキストガイダンスを提供する。
第三に、高周波数要素に対するモデルの感度を高めるために周波数誘導構造損失を導入し、前景構造忠実度を向上させる。
大規模な実験により、DrivePTSは様々な運転シーンを生成する上で、最先端の忠実さと制御性を実現することが実証された。
特に、DrivePTSは、前のメソッドが失敗する稀なシーンをうまく生成し、その強力な一般化能力を強調している。
関連論文リスト
- StdGEN++: A Comprehensive System for Semantic-Decomposed 3D Character Generation [57.06461272772509]
StdGEN++は、多種多様な入力から高忠実で意味的に分解された3D文字を生成するための、新しく包括的なシステムである。
最先端の性能を達成し、幾何学的精度と意味的絡み合いにおいて既存の手法を著しく上回っている。
結果として、非破壊的な編集、物理学に準拠したアニメーション、視線追跡など、より進んだ下流の機能をアンロックする。
論文 参考訳(メタデータ) (2026-01-12T15:41:27Z) - SGDrive: Scene-to-Goal Hierarchical World Cognition for Autonomous Driving [52.02379432801349]
本稿では,運転特化知識階層に関するVLMの表現学習を構築する新しいフレームワークであるSGDriveを提案する。
トレーニング済みのVLMバックボーン上に構築されたSGDriveは、人間の運転認知を反映するシーンエージェントゴール階層に、駆動理解を分解する。
論文 参考訳(メタデータ) (2026-01-09T08:55:42Z) - OpenHype: Hyperbolic Embeddings for Hierarchical Open-Vocabulary Radiance Fields [25.81679730373062]
連続的な双曲型潜在空間を用いてシーン階層を表現する新しい手法であるOpenHypeを提案する。
双曲幾何学の特性を活用することにより、OpenHypeは自然にマルチスケールな関係を符号化する。
提案手法は,標準ベンチマークにおける最先端手法よりも優れている。
論文 参考訳(メタデータ) (2025-10-24T13:17:56Z) - HF-VTON: High-Fidelity Virtual Try-On via Consistent Geometric and Semantic Alignment [22.960492450413497]
HF-VTONは,多種多様なポーズにおける高忠実度仮想トライオン性能を保証する新しいフレームワークである。
HF-VTONは3つの主要なモジュールで構成されている: 外観保存型ワープアライメントモジュール、セマンティック表現モジュール、およびマルチモーダル事前誘導型外観生成モジュール。
実験の結果,HF-VTONはVITON-HDとSAMP-VTONSの両方で最先端の手法より優れていた。
論文 参考訳(メタデータ) (2025-05-26T07:55:49Z) - PFSD: A Multi-Modal Pedestrian-Focus Scene Dataset for Rich Tasks in Semi-Structured Environments [73.80718037070773]
本稿では, 半構造化シーンに, nuScenesの形式を付加したマルチモーダルなPedestrian-Focused Sceneデータセットを提案する。
また,密集・隠蔽シナリオにおける歩行者検出のためのHMFN(Hybrid Multi-Scale Fusion Network)を提案する。
論文 参考訳(メタデータ) (2025-02-21T09:57:53Z) - Multi-Modality Driven LoRA for Adverse Condition Depth Estimation [61.525312117638116]
逆条件深さ推定のためのMulti-Modality Driven LoRA(MMD-LoRA)を提案する。
Prompt Driven Domain Alignment (PDDA) と Visual-Text Consistent Contrastive Learning (VTCCL) の2つのコアコンポーネントで構成されている。
nuScenesとOxford RobotCarデータセットの最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2024-12-28T14:23:58Z) - Semantically Adversarial Scenario Generation with Explicit Knowledge
Guidance [24.09547181095033]
本稿では,SAG(Semantically Adversarial Generation)を実現するために,ドメイン知識を生成プロセスに明示的に組み込む手法を提案する。
ツリー構造内のノードとエッジの特性に意味ルールを付与することにより、明示的な知識統合が制御可能な生成を可能にします。
本手法は, 異なる最先端3Dポイントクラウドセグメンテーションモデルに対して, 対向駆動シーンを効果的に同定する。
論文 参考訳(メタデータ) (2021-06-08T02:51:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。