論文の概要: Decoupled Diffusion Sparks Adaptive Scene Generation
- arxiv url: http://arxiv.org/abs/2504.10485v1
- Date: Mon, 14 Apr 2025 17:59:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-15 16:51:12.996939
- Title: Decoupled Diffusion Sparks Adaptive Scene Generation
- Title(参考訳): 分離拡散火花の適応シーン生成
- Authors: Yunsong Zhou, Naisheng Ye, William Ljungbergh, Tianyu Li, Jiazhi Yang, Zetong Yang, Hongzi Zhu, Christoffer Petersson, Hongyang Li,
- Abstract要約: 制御可能なシーン生成は、自律運転のための多様なデータ収集のコストを大幅に削減する可能性がある。
以前の作業では、トラフィックレイアウト生成を予測進行として、全シーケンスを一度にデノイングするか、あるいは次のフレームを反復的に予測することで定式化している。
Nexusは、日常シナリオと課題シナリオの両方をシミュレートすることで、反応性と目標条件を改善する、分離されたシーン生成フレームワークである。
- 参考スコア(独自算出の注目度): 21.879138794472194
- License:
- Abstract: Controllable scene generation could reduce the cost of diverse data collection substantially for autonomous driving. Prior works formulate the traffic layout generation as predictive progress, either by denoising entire sequences at once or by iteratively predicting the next frame. However, full sequence denoising hinders online reaction, while the latter's short-sighted next-frame prediction lacks precise goal-state guidance. Further, the learned model struggles to generate complex or challenging scenarios due to a large number of safe and ordinal driving behaviors from open datasets. To overcome these, we introduce Nexus, a decoupled scene generation framework that improves reactivity and goal conditioning by simulating both ordinal and challenging scenarios from fine-grained tokens with independent noise states. At the core of the decoupled pipeline is the integration of a partial noise-masking training strategy and a noise-aware schedule that ensures timely environmental updates throughout the denoising process. To complement challenging scenario generation, we collect a dataset consisting of complex corner cases. It covers 540 hours of simulated data, including high-risk interactions such as cut-in, sudden braking, and collision. Nexus achieves superior generation realism while preserving reactivity and goal orientation, with a 40% reduction in displacement error. We further demonstrate that Nexus improves closed-loop planning by 20% through data augmentation and showcase its capability in safety-critical data generation.
- Abstract(参考訳): 制御可能なシーン生成は、自律運転のための多様なデータ収集のコストを大幅に削減する可能性がある。
以前の作業では、トラフィックレイアウト生成を予測進行として、全シーケンスを一度にデノイングするか、あるいは次のフレームを反復的に予測することで定式化している。
しかし、フルシーケンスのデノイングはオンラインの反応を妨げるが、後者の近視の次世代の予測は正確な目標状態のガイダンスを欠いている。
さらに、学習したモデルは、オープンデータセットから多数の安全で規則的な運転行動のために、複雑なシナリオや難しいシナリオを生成するのに苦労している。
これらを克服するため,Nexus は分離されたシーン生成フレームワークで,ノイズ状態の細かいトークンから規則的シナリオと挑戦的シナリオの両方をシミュレートすることで,アクティビティと目標条件の改善を実現している。
分離パイプラインのコアとなるのは、部分的なノイズマスキングトレーニング戦略と、デノナイジングプロセス全体を通してタイムリーな環境アップデートを保証するノイズ対応スケジュールの統合である。
難解なシナリオ生成を補完するため、複雑なコーナーケースからなるデータセットを収集する。
540時間のシミュレーションデータ(カットイン、突然のブレーキ、衝突などのリスクの高い相互作用を含む)をカバーしている。
Nexusは、反応とゴールオリエンテーションを維持しながら、40%の変位誤差を低減しながら、優れた世代リアリズムを達成する。
さらに、Nexusはデータ拡張によってクローズドループ計画を20%改善し、安全クリティカルなデータ生成におけるその能力を示した。
関連論文リスト
- Bench2Drive-R: Turning Real World Data into Reactive Closed-Loop Autonomous Driving Benchmark by Generative Model [63.336123527432136]
我々は,リアクティブ閉ループ評価を可能にする生成フレームワークであるBench2Drive-Rを紹介する。
既存の自動運転用ビデオ生成モデルとは異なり、提案された設計はインタラクティブなシミュレーションに適したものである。
我々は、Bench2Drive-Rの生成品質を既存の生成モデルと比較し、最先端の性能を達成する。
論文 参考訳(メタデータ) (2024-12-11T06:35:18Z) - OccludeNet: A Causal Journey into Mixed-View Actor-Centric Video Action Recognition under Occlusions [37.79525665359017]
OccludeNetは、現実世界と合成閉塞シーンの両方を含む、大規模に隠蔽されたビデオデータセットである。
本稿では,隠蔽シーンの構造因果モデルを提案するとともに,バックドア調整と対実的推論を用いた因果的行動認識フレームワークを提案する。
論文 参考訳(メタデータ) (2024-11-24T06:10:05Z) - EchoScene: Indoor Scene Generation via Information Echo over Scene Graph Diffusion [77.0556470600979]
シーングラフ上に3次元屋内シーンを生成する対話型かつ制御可能な生成モデルであるEchoSceneを提案する。
既存の手法では、様々なノード数、複数のエッジの組み合わせ、マニピュレータによるノードエッジ操作によるシーングラフの処理に苦労している。
論文 参考訳(メタデータ) (2024-05-02T00:04:02Z) - Layout Sequence Prediction From Noisy Mobile Modality [53.49649231056857]
軌道予測は、自律運転やロボット工学などの応用における歩行者運動を理解する上で重要な役割を担っている。
現在の軌道予測モデルは、視覚的モダリティからの長い、完全な、正確に観察されたシーケンスに依存する。
本稿では,物体の障害物や視界外を,完全に視認できる軌跡を持つものと同等に扱う新しいアプローチであるLTrajDiffを提案する。
論文 参考訳(メタデータ) (2023-10-09T20:32:49Z) - DeNoising-MOT: Towards Multiple Object Tracking with Severe Occlusions [52.63323657077447]
DNMOTは、複数のオブジェクト追跡のためのエンドツーエンドのトレーニング可能なDeNoising Transformerである。
具体的には、トレーニング中にノイズを伴って軌道を拡大し、エンコーダ・デコーダアーキテクチャのデノイング過程をモデルに学習させる。
我々はMOT17,MOT20,DanceTrackのデータセットについて広範な実験を行い,実験結果から,提案手法が従来の最先端手法よりも明確なマージンで優れていることが示された。
論文 参考訳(メタデータ) (2023-09-09T04:40:01Z) - DiffSED: Sound Event Detection with Denoising Diffusion [70.18051526555512]
生成学習の観点からSED問題を再構築する。
具体的には,騒音拡散過程において,雑音のある提案から音の時間境界を生成することを目的としている。
トレーニング中は,ノイズの多い遅延クエリを基本バージョンに変換することで,ノイズ発生過程の逆転を学習する。
論文 参考訳(メタデータ) (2023-08-14T17:29:41Z) - ContrastMotion: Self-supervised Scene Motion Learning for Large-Scale
LiDAR Point Clouds [21.6511040107249]
BEV表現を用いたLiDARに基づく自律走行のための新しい自律走行推定器を提案する。
連続するフレームにおける柱間の特徴レベルの整合性によるシーンの動きを予測し,ダイナミックなシーンにおけるノイズポイントや視点変化点雲の影響を解消する。
論文 参考訳(メタデータ) (2023-04-25T05:46:24Z) - Conditional Denoising Diffusion for Sequential Recommendation [62.127862728308045]
GAN(Generative Adversarial Networks)とVAE(VAE)の2つの顕著な生成モデル
GANは不安定な最適化に苦しむ一方、VAEは後続の崩壊と過度に平らな世代である。
本稿では,シーケンスエンコーダ,クロスアテンティブデノナイジングデコーダ,ステップワイズディフューザを含む条件付きデノナイジング拡散モデルを提案する。
論文 参考訳(メタデータ) (2023-04-22T15:32:59Z) - Low-Rank Autoregressive Tensor Completion for Spatiotemporal Traffic
Data Imputation [4.9831085918734805]
データ計算の欠如は長年の研究課題であり、現実世界のインテリジェント交通システムにとって重要な応用である。
テキストの時間変化を新たな正規化項として導入し,低ランク自動回帰テンソル補完(LATC)フレームワークを提案する。
本研究では,複数の実世界の交通データ集合について広範な数値実験を行い,LATCの有効性を実証した。
論文 参考訳(メタデータ) (2021-04-30T12:00:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。