論文の概要: FASTopoWM: Fast-Slow Lane Segment Topology Reasoning with Latent World Models
- arxiv url: http://arxiv.org/abs/2507.23325v1
- Date: Thu, 31 Jul 2025 08:12:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-01 17:19:09.30948
- Title: FASTopoWM: Fast-Slow Lane Segment Topology Reasoning with Latent World Models
- Title(参考訳): FASTopoWM: 潜在世界モデルを用いた高速スローレーンセグメントトポロジー
- Authors: Yiming Yang, Hongbin Lin, Yueru Luo, Suzhong Fu, Chao Zheng, Xinrui Yan, Shuqi Mei, Kun Tang, Shuguang Cui, Zhen Li,
- Abstract要約: レーンセグメント推論は、総合的な鳥眼ビュー(BEV)ロードシーン理解を提供する。
ストリームベースの時間的伝搬法は,クエリレベルとBEVレベルの両方に時間的手がかりを組み込むことで,有望な結果を示した。
FASTopoWMは、潜在世界モデルで拡張された新しい高速スローレーンセグメント推論フレームワークである。
- 参考スコア(独自算出の注目度): 53.91899980806139
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Lane segment topology reasoning provides comprehensive bird's-eye view (BEV) road scene understanding, which can serve as a key perception module in planning-oriented end-to-end autonomous driving systems. Existing lane topology reasoning methods often fall short in effectively leveraging temporal information to enhance detection and reasoning performance. Recently, stream-based temporal propagation method has demonstrated promising results by incorporating temporal cues at both the query and BEV levels. However, it remains limited by over-reliance on historical queries, vulnerability to pose estimation failures, and insufficient temporal propagation. To overcome these limitations, we propose FASTopoWM, a novel fast-slow lane segment topology reasoning framework augmented with latent world models. To reduce the impact of pose estimation failures, this unified framework enables parallel supervision of both historical and newly initialized queries, facilitating mutual reinforcement between the fast and slow systems. Furthermore, we introduce latent query and BEV world models conditioned on the action latent to propagate the state representations from past observations to the current timestep. This design substantially improves the performance of temporal perception within the slow pipeline. Extensive experiments on the OpenLane-V2 benchmark demonstrate that FASTopoWM outperforms state-of-the-art methods in both lane segment detection (37.4% v.s. 33.6% on mAP) and centerline perception (46.3% v.s. 41.5% on OLS).
- Abstract(参考訳): レーンセグメントトポロジ推論は、計画指向のエンドツーエンド自動運転システムにおいて重要な認識モジュールとして機能する、包括的な鳥眼ビュー(BEV)ロードシーン理解を提供する。
既存のレーントポロジ推論手法は、検出と推論性能を高めるために時間情報を効果的に活用するのに不足することが多い。
近年,ストリームベースの時間的伝搬法は,クエリレベルとBEVレベルの両方に時間的手がかりを組み込むことで,有望な結果を示した。
しかし、履歴クエリの過度な信頼、推定失敗のポーズの脆弱性、時間的伝播の不十分によって、依然として制限されている。
これらの制約を克服するため、我々は、潜時世界モデルで拡張された新しい高速スローレーンセグメント・トポロジー推論フレームワークであるFASTopoWMを提案する。
ポーズ推定失敗の影響を低減するため、この統合されたフレームワークは、履歴と新しい初期化クエリの両方を並列に監視し、高速なシステムと低速なシステム間の相互強化を容易にする。
さらに、過去の観測から現在までの状態表現を伝播させるために、動作遅延を条件とした潜在クエリとBEVワールドモデルを導入する。
この設計により、遅いパイプライン内での時間知覚の性能が大幅に向上する。
OpenLane-V2ベンチマークの大規模な実験では、FASTopoWMはレーンセグメント検出(37.4%対mAP33.6%)と中心線知覚(46.3%対OLS41.5%)の両方において最先端の手法よりも優れていた。
関連論文リスト
- An Information-Theoretic Analysis for Federated Learning under Concept Drift [8.343774282372337]
本稿では,情報理論を用いてコンセプトドリフトにおける性能を解析し,性能劣化を軽減するアルゴリズムを提案する。
本研究では,3つのドリフトパターン(周期的,漸進的,ランダム)とそのFL性能への影響について検討した。
そこで本研究では,KL分散と相互情報を用いた経験的リスク最小化手法を標準化し,長期的性能を向上させるアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-06-26T06:25:15Z) - Rethinking Temporal Fusion with a Unified Gradient Descent View for 3D Semantic Occupancy Prediction [62.69089767730514]
視覚に基づく3次元意味的占有予測(VisionOcc)のための時間融合法であるGAFusionを提案する。
これは、VisionOccフレームワーク内の時間融合の未調査の側面を開き、時間的手がかりと融合戦略の両方に焦点を当てる。
論文 参考訳(メタデータ) (2025-04-17T14:05:33Z) - Deflickering Vision-Based Occupancy Networks through Lightweight Spatio-Temporal Correlation [15.726401007342087]
視覚ベースの占有ネットワーク(VON)は、自動運転における3D環境を再構築するためのエンドツーエンドのソリューションを提供する。
近年のアプローチでは、この問題を軽減するために歴史的データを組み込んでいるが、しばしば高い計算コストを発生させ、物体検出に干渉するノイズの多い情報を導入する可能性がある。
我々はOccLinkerを提案する。OccLinkerは既存のVONとシームレスに統合し、パフォーマンスを向上させるための新しいプラグインフレームワークである。
提案手法は,従来の静的および動きの手がかりを効果的に集約し,2つのクロスアテンション機構によって現在の特徴との疎遅延相関を学習し,補正占有成分を生成し,ベースネットワークの予測を洗練させる。
論文 参考訳(メタデータ) (2025-02-21T13:07:45Z) - ResFlow: Fine-tuning Residual Optical Flow for Event-based High Temporal Resolution Motion Estimation [50.80115710105251]
イベントカメラは、高時間分解能(HTR)モーション推定に重要な可能性を秘めている。
イベントデータを用いてHTR光流を推定するための残差に基づくパラダイムを提案する。
論文 参考訳(メタデータ) (2024-12-12T09:35:47Z) - Rethinking Spatio-Temporal Transformer for Traffic Prediction:Multi-level Multi-view Augmented Learning Framework [4.773547922851949]
トラフィックは、非常に複雑なセマンティックな相関を含む、困難な時間的予測問題である。
本稿では,交通予測のためのマルチレベル多視点時間変換器(LVST)を提案する。
論文 参考訳(メタデータ) (2024-06-17T07:36:57Z) - USTEP: Spatio-Temporal Predictive Learning under A Unified View [62.58464029270846]
UTEP(Unified S-Temporal Predictive Learning)は,マイクロテンポラリスケールとマクロテンポラリスケールを統合した再帰的および再帰的フリーな手法を再構築する,革新的なフレームワークである。
論文 参考訳(メタデータ) (2023-10-09T16:17:42Z) - Temporal Context Aggregation Network for Temporal Action Proposal
Refinement [93.03730692520999]
時間的行動提案生成はビデオ理解分野において難しいが重要な課題である。
現在の方法はまだ不正確な時間境界と検索に使用される劣った自信に苦しんでいます。
TCANet は、「ローカルおよびグローバル」な時間的コンテキストアグリゲーションを通じて、高品質のアクション提案を生成するために提案します。
論文 参考訳(メタデータ) (2021-03-24T12:34:49Z) - Physics-informed Tensor-train ConvLSTM for Volumetric Velocity
Forecasting of Loop Current [6.016102212809306]
ループカレント(英: Loop Current)は、メキシコ湾におけるループカレント(LC)の速度、垂直構造、持続時間の週間予測である。
本稿では3次元地理空間データ予測のための物理インフォームド空間訓練ConvLSTMの有効性を示す。
論文 参考訳(メタデータ) (2020-08-04T19:55:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。