論文の概要: Diffusion-FS: Multimodal Free-Space Prediction via Diffusion for Autonomous Driving
- arxiv url: http://arxiv.org/abs/2507.18763v1
- Date: Thu, 24 Jul 2025 19:30:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-28 16:16:48.735157
- Title: Diffusion-FS: Multimodal Free-Space Prediction via Diffusion for Autonomous Driving
- Title(参考訳): Diffusion-FS: 自律運転のための拡散によるマルチモーダル自由空間予測
- Authors: Keshav Gupta, Tejas S. Stanley, Pranjal Paul, Arun K. Singh, K. Madhava Krishna,
- Abstract要約: 自由空間予測は、自律運転における基本的で決定的な問題である。
最近の研究は、非障害物道路地域全体を自由空間として表現することでこの問題に対処している。
本研究の目的は,道路地域全体の航行可能なサブセットである運転回廊を推定することである。
- 参考スコア(独自算出の注目度): 7.667821982085968
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Drivable Free-space prediction is a fundamental and crucial problem in autonomous driving. Recent works have addressed the problem by representing the entire non-obstacle road regions as the free-space. In contrast our aim is to estimate the driving corridors that are a navigable subset of the entire road region. Unfortunately, existing corridor estimation methods directly assume a BEV-centric representation, which is hard to obtain. In contrast, we frame drivable free-space corridor prediction as a pure image perception task, using only monocular camera input. However such a formulation poses several challenges as one doesn't have the corresponding data for such free-space corridor segments in the image. Consequently, we develop a novel self-supervised approach for free-space sample generation by leveraging future ego trajectories and front-view camera images, making the process of visual corridor estimation dependent on the ego trajectory. We then employ a diffusion process to model the distribution of such segments in the image. However, the existing binary mask-based representation for a segment poses many limitations. Therefore, we introduce ContourDiff, a specialized diffusion-based architecture that denoises over contour points rather than relying on binary mask representations, enabling structured and interpretable free-space predictions. We evaluate our approach qualitatively and quantitatively on both nuScenes and CARLA, demonstrating its effectiveness in accurately predicting safe multimodal navigable corridors in the image.
- Abstract(参考訳): ドライビング可能な自由空間予測は、自動運転における基本的で決定的な問題である。
最近の研究は、非障害物道路地域全体を自由空間として表現することでこの問題に対処している。
これとは対照的に,道路全体の航行可能な部分集合である走行通路を推定することを目的としている。
残念ながら、既存の廊下推定法は直接的にBEV中心の表現を仮定するが、入手は困難である。
対照的に、単眼カメラ入力のみを用いて、ドライビング可能な自由空間廊下予測を純粋なイメージ認識タスクとする。
しかし、そのような定式化は、画像中のそのような自由空間の廊下セグメントに対応するデータを持たないため、いくつかの問題を引き起こす。
その結果、将来のエゴ軌跡とフロントカメラ画像を利用して、エゴ軌跡に依存した視覚的回廊推定を行うことにより、自由空間サンプル生成のための新しい自己教師型アプローチを開発した。
次に、画像中のそのようなセグメントの分布をモデル化するために拡散過程を用いる。
しかし、セグメントに対する既存のバイナリマスクベースの表現には、多くの制限がある。
そこでContourDiffは、二項マスク表現に頼らず、輪郭点を denoise し、構造化および解釈可能な自由空間予測を可能にする特殊な拡散型アーキテクチャである。
我々は,このアプローチをnuScenesとCARLAの両方で定性的かつ定量的に評価し,画像中の安全なマルチモーダル航法を正確に予測する方法の有効性を実証した。
関連論文リスト
- Unsupervised Region-Based Image Editing of Denoising Diffusion Models [50.005612464340246]
本研究では,事前学習した拡散モデルの潜在空間における意味的属性を,それ以上の訓練を伴わずに同定する手法を提案する。
提案手法により,局所的なマスキング領域の正確な意味発見と制御が容易になり,アノテーションの必要がなくなる。
論文 参考訳(メタデータ) (2024-12-17T13:46:12Z) - Homography Guided Temporal Fusion for Road Line and Marking Segmentation [73.47092021519245]
道路線やマーキングは、移動車両、影、グレアの存在下でしばしば閉鎖される。
本稿では,映像フレームを補足的に利用するHomography Guided Fusion (HomoFusion) モジュールを提案する。
カメラ固有のデータと地上平面の仮定をクロスフレーム対応に利用することにより,高速・高精度性能が向上した軽量ネットワークの実現が期待できることを示す。
論文 参考訳(メタデータ) (2024-04-11T10:26:40Z) - BEVSeg2TP: Surround View Camera Bird's-Eye-View Based Joint Vehicle
Segmentation and Ego Vehicle Trajectory Prediction [4.328789276903559]
軌道予測は自動車の自律性にとって重要な課題である。
学習に基づく軌道予測への関心が高まっている。
認識能力を向上させる可能性があることが示される。
論文 参考訳(メタデータ) (2023-12-20T15:02:37Z) - OccNeRF: Advancing 3D Occupancy Prediction in LiDAR-Free Environments [77.0399450848749]
本稿では,OccNeRF法を用いて,3次元監視なしで占有ネットワークを訓練する手法を提案する。
我々は、再構成された占有領域をパラメータ化し、サンプリング戦略を再編成し、カメラの無限知覚範囲に合わせる。
意味的占有予測のために,事前学習した開語彙2Dセグメンテーションモデルの出力をフィルタリングし,プロンプトを洗練するためのいくつかの戦略を設計する。
論文 参考訳(メタデータ) (2023-12-14T18:58:52Z) - Monocular BEV Perception of Road Scenes via Front-to-Top View Projection [57.19891435386843]
本稿では,鳥の目視で道路配置と車両占有率によって形成された局所地図を再構築する新しい枠組みを提案する。
我々のモデルは1つのGPU上で25FPSで動作し、リアルタイムパノラマHDマップの再構築に有効である。
論文 参考訳(メタデータ) (2022-11-15T13:52:41Z) - Dfferentiable Raycasting for Self-supervised Occupancy Forecasting [52.61762537741392]
自動運転のための運動計画では、エゴ車の周囲の環境が時間とともにどのように進化するかを学ぶ必要がある。
本稿では,自由空間のようなビュー依存表現の自然な代替手段として,幾何学的占有を用いる。
私たちの重要な洞察は、差別化可能なレイキャストを使用して、将来の占有率予測を、将来のLiDARスイープ予測に"レンダリング"することです。
論文 参考訳(メタデータ) (2022-10-04T21:35:21Z) - Unsupervised Foggy Scene Understanding via Self Spatial-Temporal Label
Diffusion [51.11295961195151]
運転シーンの霧画像列の特徴を利用して、自信ある擬似ラベルを密度化する。
局所的な空間的類似性と逐次画像データの隣接時間対応の2つの発見に基づいて,新たなターゲット・ドメイン駆動擬似ラベル拡散方式を提案する。
本手法は,2つの天然霧のデータセット上で51.92%,53.84%の平均交叉結合(mIoU)を達成するのに有効である。
論文 参考訳(メタデータ) (2022-06-10T05:16:50Z) - NMR: Neural Manifold Representation for Autonomous Driving [2.2596039727344452]
本研究では,有限地平線上の多様体上の意味論を推論し,経路点を予測する自律運転の表現を提案する。
本研究では, 周辺単分子画像と部分エゴ車状態の潜時高次元埋め込みに適用した反復的注意機構を用いてこれを行う。
本研究では,BEV占有格子のエッジ適応被覆損失に基づくサンプリングアルゴリズムを提案し,表面多様体を生成する。
論文 参考訳(メタデータ) (2022-05-11T14:58:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。