論文の概要: DrivePTS: A Progressive Learning Framework with Textual and Structural Enhancement for Driving Scene Generation
- arxiv url: http://arxiv.org/abs/2602.22549v1
- Date: Thu, 26 Feb 2026 02:42:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-27 18:41:22.4923
- Title: DrivePTS: A Progressive Learning Framework with Textual and Structural Enhancement for Driving Scene Generation
- Title(参考訳): DrivePTS: 運転シーン生成のためのテキスト・構造強化型プログレッシブラーニングフレームワーク
- Authors: Zhechao Wang, Yiming Zeng, Lufan Ma, Zeqing Fu, Chen Bai, Ziyao Lin, Cheng Lu,
- Abstract要約: 現在の手法は条件付きシーン生成のための幾何学的条件として高精細(HD)マップと3次元境界ボックスを集約する。
これらの手法は意味的側面と構造的側面の両方において不十分な詳細に悩まされている。
本稿では,3つの重要なイノベーションを取り入れたDrivePTSを提案する。
- 参考スコア(独自算出の注目度): 8.8362637812626
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Synthesis of diverse driving scenes serves as a crucial data augmentation technique for validating the robustness and generalizability of autonomous driving systems. Current methods aggregate high-definition (HD) maps and 3D bounding boxes as geometric conditions in diffusion models for conditional scene generation. However, implicit inter-condition dependency causes generation failures when control conditions change independently. Additionally, these methods suffer from insufficient details in both semantic and structural aspects. Specifically, brief and view-invariant captions restrict semantic contexts, resulting in weak background modeling. Meanwhile, the standard denoising loss with uniform spatial weighting neglects foreground structural details, causing visual distortions and blurriness. To address these challenges, we propose DrivePTS, which incorporates three key innovations. Firstly, our framework adopts a progressive learning strategy to mitigate inter-dependency between geometric conditions, reinforced by an explicit mutual information constraint. Secondly, a Vision-Language Model is utilized to generate multi-view hierarchical descriptions across six semantic aspects, providing fine-grained textual guidance. Thirdly, a frequency-guided structure loss is introduced to strengthen the model's sensitivity to high-frequency elements, improving foreground structural fidelity. Extensive experiments demonstrate that our DrivePTS achieves state-of-the-art fidelity and controllability in generating diverse driving scenes. Notably, DrivePTS successfully generates rare scenes where prior methods fail, highlighting its strong generalization ability.
- Abstract(参考訳): 多様な運転シーンの合成は、自律運転システムの堅牢性と一般化性を検証するための重要なデータ拡張技術として機能する。
現在の手法は、条件付きシーン生成のための拡散モデルにおける幾何学的条件として、ハイデフィニション(HD)マップと3次元境界ボックスを集約する。
しかし、暗黙的な条件間の依存関係は、制御条件が独立に変化すると、発生不良を引き起こす。
さらに、これらの手法は意味的側面と構造的側面の両方において不十分な詳細に悩まされている。
具体的には、簡潔でビュー不変なキャプションはセマンティックコンテキストを制限し、弱い背景モデリングをもたらす。
一方、均一な空間重み付けによる標準的な騒音損失は、前景の構造的詳細を無視し、視覚的歪みとぼやけを引き起こす。
これらの課題に対処するために,3つの重要なイノベーションを取り入れたDrivePTSを提案する。
まず,我々のフレームワークは,明示的な相互情報制約によって強化された幾何学的条件間の相互依存を軽減するために,漸進的な学習戦略を採用する。
第2に、視覚言語モデルを用いて、6つの意味的側面にまたがる多視点階層的記述を生成し、きめ細かいテキストガイダンスを提供する。
第三に、高周波数要素に対するモデルの感度を高めるために周波数誘導構造損失を導入し、前景構造忠実度を向上させる。
大規模な実験により、DrivePTSは様々な運転シーンを生成する上で、最先端の忠実さと制御性を実現することが実証された。
特に、DrivePTSは、前のメソッドが失敗する稀なシーンをうまく生成し、その強力な一般化能力を強調している。
関連論文リスト
- StdGEN++: A Comprehensive System for Semantic-Decomposed 3D Character Generation [57.06461272772509]
StdGEN++は、多種多様な入力から高忠実で意味的に分解された3D文字を生成するための、新しく包括的なシステムである。
最先端の性能を達成し、幾何学的精度と意味的絡み合いにおいて既存の手法を著しく上回っている。
結果として、非破壊的な編集、物理学に準拠したアニメーション、視線追跡など、より進んだ下流の機能をアンロックする。
論文 参考訳(メタデータ) (2026-01-12T15:41:27Z) - SGDrive: Scene-to-Goal Hierarchical World Cognition for Autonomous Driving [52.02379432801349]
本稿では,運転特化知識階層に関するVLMの表現学習を構築する新しいフレームワークであるSGDriveを提案する。
トレーニング済みのVLMバックボーン上に構築されたSGDriveは、人間の運転認知を反映するシーンエージェントゴール階層に、駆動理解を分解する。
論文 参考訳(メタデータ) (2026-01-09T08:55:42Z) - ArtGen: Conditional Generative Modeling of Articulated Objects in Arbitrary Part-Level States [9.721009445297716]
ArtGenは、正確な幾何学とコヒーレント・キネマティクスを備えた3Dオブジェクトを生成することができる条件付き拡散ベースのフレームワークである。
具体的には、ArtGenはグローバルキネマティック一貫性を明示的に実施するために、クロスステートなMonte Carloサンプリングを使用している。
合成3D-VAE潜伏剤は局所的言語的注意に先行して強化され、微細な幾何学的関係と大域的部分的関係を効果的に捉える。
論文 参考訳(メタデータ) (2025-12-13T17:00:03Z) - Beyond the Black Box: Identifiable Interpretation and Control in Generative Models via Causal Minimality [52.57416398859353]
因果的最小性は、明確な因果的解釈と頑健でコンポーネント単位で識別可能な制御を持つ拡散視覚と自己回帰言語モデルの潜在表現を許容できることを示す。
我々は階層的選択モデルのための新しい理論的枠組みを導入し、より高レベルな概念は低レベルの変数の制約された構成から生まれる。
これらの因果的基礎を持つ概念は、きめ細かいモデルステアリングのレバーとして機能し、透明で信頼性の高いシステムへの道を開く。
論文 参考訳(メタデータ) (2025-12-11T14:59:14Z) - OpenHype: Hyperbolic Embeddings for Hierarchical Open-Vocabulary Radiance Fields [25.81679730373062]
連続的な双曲型潜在空間を用いてシーン階層を表現する新しい手法であるOpenHypeを提案する。
双曲幾何学の特性を活用することにより、OpenHypeは自然にマルチスケールな関係を符号化する。
提案手法は,標準ベンチマークにおける最先端手法よりも優れている。
論文 参考訳(メタデータ) (2025-10-24T13:17:56Z) - Cross-Modal Geometric Hierarchy Fusion: An Implicit-Submap Driven Framework for Resilient 3D Place Recognition [9.411542547451193]
本稿では,密度に依存しない幾何学的推論により3次元位置認識を再定義するフレームワークを提案する。
具体的には、元のシーンポイント雲密度の干渉に免疫する弾性点に基づく暗黙の3次元表現を導入する。
これら2種類の情報を活用することで,鳥眼視と3Dセグメントの両視点から幾何学的情報を融合する記述子を得る。
論文 参考訳(メタデータ) (2025-06-17T07:04:07Z) - HF-VTON: High-Fidelity Virtual Try-On via Consistent Geometric and Semantic Alignment [22.960492450413497]
HF-VTONは,多種多様なポーズにおける高忠実度仮想トライオン性能を保証する新しいフレームワークである。
HF-VTONは3つの主要なモジュールで構成されている: 外観保存型ワープアライメントモジュール、セマンティック表現モジュール、およびマルチモーダル事前誘導型外観生成モジュール。
実験の結果,HF-VTONはVITON-HDとSAMP-VTONSの両方で最先端の手法より優れていた。
論文 参考訳(メタデータ) (2025-05-26T07:55:49Z) - FreSca: Scaling in Frequency Space Enhances Diffusion Models [55.75504192166779]
本稿では,潜時拡散モデルにおける周波数制御について検討する。
本稿では,低周波成分と高周波成分にノイズ差を分解する新しいフレームワークFreScaを紹介する。
FreScaはモデルの再トレーニングやアーキテクチャの変更なしに動作し、モデルとタスクに依存しない制御を提供する。
論文 参考訳(メタデータ) (2025-04-02T22:03:11Z) - PFSD: A Multi-Modal Pedestrian-Focus Scene Dataset for Rich Tasks in Semi-Structured Environments [73.80718037070773]
本稿では, 半構造化シーンに, nuScenesの形式を付加したマルチモーダルなPedestrian-Focused Sceneデータセットを提案する。
また,密集・隠蔽シナリオにおける歩行者検出のためのHMFN(Hybrid Multi-Scale Fusion Network)を提案する。
論文 参考訳(メタデータ) (2025-02-21T09:57:53Z) - Multi-Modality Driven LoRA for Adverse Condition Depth Estimation [61.525312117638116]
逆条件深さ推定のためのMulti-Modality Driven LoRA(MMD-LoRA)を提案する。
Prompt Driven Domain Alignment (PDDA) と Visual-Text Consistent Contrastive Learning (VTCCL) の2つのコアコンポーネントで構成されている。
nuScenesとOxford RobotCarデータセットの最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2024-12-28T14:23:58Z) - Semantically Adversarial Scenario Generation with Explicit Knowledge
Guidance [24.09547181095033]
本稿では,SAG(Semantically Adversarial Generation)を実現するために,ドメイン知識を生成プロセスに明示的に組み込む手法を提案する。
ツリー構造内のノードとエッジの特性に意味ルールを付与することにより、明示的な知識統合が制御可能な生成を可能にします。
本手法は, 異なる最先端3Dポイントクラウドセグメンテーションモデルに対して, 対向駆動シーンを効果的に同定する。
論文 参考訳(メタデータ) (2021-06-08T02:51:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。