論文の概要: Temporal-Anchor3DLane: Enhanced 3D Lane Detection with Multi-Task Losses and LSTM Fusion
- arxiv url: http://arxiv.org/abs/2512.11869v1
- Date: Fri, 05 Dec 2025 21:52:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-21 14:22:08.745127
- Title: Temporal-Anchor3DLane: Enhanced 3D Lane Detection with Multi-Task Losses and LSTM Fusion
- Title(参考訳): テンポラルアンカー3DLane:マルチタスク損失とLSTM融合による3次元レーン検出
- Authors: D. Shainu Suhas, G. Rahul, K. Muni,
- Abstract要約: Temporal-Anchor3DLaneは、Anchor3DLaneを3つの重要なコントリビューションで拡張した3Dレーン検出フレームワークである。
軽量のテンポラルLSTMフュージョンモジュールは、フレーム全体にわたってアンカー毎の特徴を集約し、より重いトランスフォーマースタイルのテンポラルフュージョンを置き換える。
OpenLaneでは、Temporal-Anchor3DLaneはF1を+6.2改善し、より滑らかな時間軌道を得る。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Monocular 3D lane detection remains challenging due to depth ambiguity, occlusion, and temporal instability across frames. Anchor-based approaches such as Anchor3DLane have demonstrated strong performance by regressing continuous 3D lane curves from multi-camera surround views. However, the baseline model still exhibits (i) sensitivity to regression outliers, (ii) weak supervision of global curve geometry, (iii) difficulty in balancing multiple loss terms, and (iv) limited exploitation of temporal continuity. We propose Temporal-Anchor3DLane, an enhanced 3D lane detection framework that extends Anchor3DLane with three key contributions: (1) a set of multi-task loss improvements, including Balanced L1 regression, Chamfer point-set distance, and uncertainty-based loss weighting, together with focal and Dice components for classification and visibility; (2) a lightweight Temporal LSTM Fusion module that aggregates per-anchor features across frames, replacing a heavier Transformer-style temporal fusion; and (3) ESCOP-style training refinements that couple curve-level supervision with temporal consistency. On OpenLane, Temporal-Anchor3DLane improves F1 by +6.2 and yields smoother temporal trajectories, showing that small architectural and loss refinements significantly enhance 3D lane robustness without extra sensors or scaling.
- Abstract(参考訳): フレーム間の深さのあいまいさ、閉塞性、時間的不安定さのため、単眼で3Dレーンを検出することは依然として困難である。
Anchor3DLaneのようなアンカーベースのアプローチは、マルチカメラサラウンドビューから連続した3次元レーン曲線を回帰することで、強い性能を示す。
しかし、ベースラインモデルはまだ展示されている。
(i)レグレッション・アウトレイアに対する感度
(II)大域曲線幾何学の弱監督
三 複数の損失項のバランスのとれないこと、
(四)時間的連続性を限定的に活用すること。
我々は,Anchor3DLaneを拡張した3次元レーン検出フレームワークであるTemporal-Anchor3DLaneを提案する。(1)バランス付きL1回帰,チャンファー点セット距離,不確実性に基づく損失重み付け,(2)フレーム間のアンカー間特徴を集約し,重いTransformerスタイルの時間融合を置き換える軽量なTemporal LSTM Fusionモジュール,(3)曲線レベルの監視と時間的整合性を両立するESCOPスタイルのトレーニング改善。
OpenLaneでは、Temporal-Anchor3DLaneはF1を+6.2改善し、よりスムーズな時間軌道を得る。
関連論文リスト
- MoRel: Long-Range Flicker-Free 4D Motion Modeling via Anchor Relay-based Bidirectional Blending with Hierarchical Densification [10.799902862870288]
MoRelは、時間的に一貫したメモリ効率のモデリングのための新しいフレームワークである。
我々のアプローチは、時間的不連続を緩和し、成果物をひらめかせる。
境界メモリ使用率を維持しつつ、時間的コヒーレントでフリッカフリーなロングレンジ4D再構成を実現する。
論文 参考訳(メタデータ) (2025-12-10T02:49:09Z) - DVLO4D: Deep Visual-Lidar Odometry with Sparse Spatial-temporal Fusion [28.146811420532455]
DVLO4Dは,空間-時空間融合を利用して精度とロバスト性を向上する新しい視覚-LiDARオドメトリーフレームワークである。
提案手法は,82msの予測時間を持つ高効率で,実時間展開の可能性を秘めている。
論文 参考訳(メタデータ) (2025-09-07T11:43:11Z) - LiDAR-BIND-T: Improved and Temporally Consistent Sensor Modality Translation and Fusion for Robotic Applications [2.112132378217468]
本稿では,多元性センサ(レーダー,ソナー)をLiDAR定義潜在空間に結合するモジュール型マルチモーダル融合フレームワークLiDAR-BINDを拡張した。
i)連続的な潜伏表現を整列する時間的埋め込み類似性、(ii)予測と地上の真実のLiDARの変位に一致する動きに沿った変換損失、(iii)特別な時間的加群を用いた窓付き時間的融合、の3つの貢献を紹介する。
論文 参考訳(メタデータ) (2025-09-06T14:21:27Z) - RMFAT: Recurrent Multi-scale Feature Atmospheric Turbulence Mitigator [4.021926055330021]
大気の乱流は、幾何学的歪み、ぼかし、時間的ひねりなどの歪みを導入することで、映像の品質を著しく低下させる。
我々は,AT条件下での高効率かつ時間的に一貫したビデオ復元を目的としたRMFAT: Recurrent Multi-scale Feature Atmospheric Turbulence Mitigatorを提案する。
論文 参考訳(メタデータ) (2025-08-15T11:20:18Z) - Rethinking Temporal Fusion with a Unified Gradient Descent View for 3D Semantic Occupancy Prediction [62.69089767730514]
視覚に基づく3次元意味的占有予測(VisionOcc)のための時間融合法であるGAFusionを提案する。
これは、VisionOccフレームワーク内の時間融合の未調査の側面を開き、時間的手がかりと融合戦略の両方に焦点を当てる。
論文 参考訳(メタデータ) (2025-04-17T14:05:33Z) - SuperFlow++: Enhanced Spatiotemporal Consistency for Cross-Modal Data Pretraining [62.433137130087445]
SuperFlow++は、連続するカメラペアを使用して事前トレーニングと下流タスクを統合する新しいフレームワークである。
SuperFlow++は様々なタスクや運転条件で最先端のメソッドよりも優れています。
強力な一般化性と計算効率により、SuperFlow++は、自動運転におけるデータ効率の高いLiDARベースの認識のための新しいベンチマークを確立する。
論文 参考訳(メタデータ) (2025-03-25T17:59:57Z) - On Robust Cross-View Consistency in Self-Supervised Monocular Depth Estimation [56.97699793236174]
本論文では,2種類の堅牢なクロスビュー整合性について検討する。
深度特徴空間と3次元ボクセル空間の時間的コヒーレンスを自己教師付き単眼深度推定に利用した。
いくつかのアウトドアベンチマークの実験結果から,本手法は最先端技術より優れていることが示された。
論文 参考訳(メタデータ) (2022-09-19T03:46:13Z) - Self-Supervised Multi-Frame Monocular Scene Flow [61.588808225321735]
自己監督学習に基づくマルチフレーム一眼的シーンフローネットワークを導入。
自己監督学習に基づく単眼的シーンフロー法における最新の精度を観察する。
論文 参考訳(メタデータ) (2021-05-05T17:49:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。