論文の概要: Localization-Guided Foreground Augmentation in Autonomous Driving
- arxiv url: http://arxiv.org/abs/2604.18940v1
- Date: Tue, 21 Apr 2026 00:26:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-22 22:41:49.552402
- Title: Localization-Guided Foreground Augmentation in Autonomous Driving
- Title(参考訳): 自動運転における定位誘導前景拡張
- Authors: Jiawei Yong, Deyuan Qu, Qi Chen, Kentaro Oguchi, Shintaro Fukushima,
- Abstract要約: 幾何学的文脈をオンラインで充実させることにより,前景の知覚を高める軽量かつプラグアンドプレイ推論モジュールを提案する。
挑戦的な nuScenes 配列の実験により、LG-FA は BEV 表現の幾何学的完全性と時間的安定性を改善していることが示された。
- 参考スコア(独自算出の注目度): 9.012134069126938
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Autonomous driving systems often degrade under adverse visibility conditions-such as rain, nighttime, or snow-where online scene geometry (e.g., lane dividers, road boundaries, and pedestrian crossings) becomes sparse or fragmented. While high-definition (HD) maps can provide missing structural context, they are costly to construct and maintain at scale. We propose Localization-Guided Foreground Augmentation (LG-FA), a lightweight and plug-and-play inference module that enhances foreground perception by enriching geometric context online. LG-FA: (i) incrementally constructs a sparse global vector layer from per-frame Bird's-Eye View (BEV) predictions; (ii) estimates ego pose via class-constrained geometric alignment, jointly improving localization and completing missing local topology; and (iii) reprojects the augmented foreground into a unified global frame to improve per-frame predictions. Experiments on challenging nuScenes sequences demonstrate that LG-FA improves the geometric completeness and temporal stability of BEV representations, reduces localization error, and produces globally consistent lane and topology reconstructions. The module can be seamlessly integrated into existing BEV-based perception systems without backbone modification. By providing a reliable geometric context prior, LG-FA enhances temporal consistency and supplies stable structural support for downstream modules such as tracking and decision-making.
- Abstract(参考訳): 自律運転システムは、雨、夜間、または雪のような視界の悪い状況下で劣化することが多く、オンラインシーンの幾何学(例えば、車線分割、道路境界、歩行者横断など)は狭くなり、断片化される。
高精細(HD)マップは構造的コンテキストの欠如を提供するが、大規模な構築と維持にはコストがかかる。
幾何学的文脈を充実させて前景知覚を高める軽量かつプラグアンドプレイ推論モジュールLG-FAを提案する。
LG-FA
(i)フレームごとのBird-Eye View(BEV)予測から疎グローバルベクトル層を段階的に構築する。
(二 クラス制約幾何アライメントによるエゴポーズの推定、共同で局所化を改善し、欠落した局所位相を完遂すること。)
(iii)拡張フォアグラウンドを統一されたグローバルフレームに再計画し、フレーム単位の予測を改善する。
挑戦的な nuScenes 配列の実験により、LG-FA は BEV 表現の幾何学的完全性と時間的安定性を改善し、局所化誤差を低減し、一貫した車線とトポロジーの再構成を生成することを示した。
このモジュールは、バックボーンを変更せずに既存のBEVベースの知覚システムにシームレスに統合することができる。
事前に信頼性の高い幾何学的コンテキストを提供することで、LG-FAは時間的一貫性を高め、追跡や意思決定といった下流モジュールに対する安定した構造的サポートを提供する。
関連論文リスト
- Keep It CALM: Toward Calibration-Free Kilometer-Level SLAM with Visual Geometry Foundation Models via an Assistant Eye [34.902300948471314]
CAL2Mは任意のVGFMと互換性のあるプラグイン・アンド・プレイのフレームワークである。
一定の物理的間隔の先行を利用するためだけに「補助眼」を使用する。
不正確な内因論による回転と翻訳の誤りを効果的に正すことができる。
論文 参考訳(メタデータ) (2026-04-16T08:58:57Z) - Enhancing Gradient Inversion Attacks in Federated Learning via Hierarchical Feature Optimization [56.95448807869383]
フェデレートラーニング(FL)は、プライバシを保存する分散機械学習の魅力的なパラダイムとして登場した。
近年の研究では、FLシステムで交換される勾配もプライバシー漏洩に弱いことが報告されている。
我々は textbfGradient textbfInversion over textbfFeature textbfDomains (GIFD) を提案する。
論文 参考訳(メタデータ) (2026-04-01T14:32:15Z) - GLU: Global-Local-Uncertainty Fusion for Scalable Spatiotemporal Reconstruction and Forecasting [0.0]
GLU(Global-Local-Uncertainty framework)について述べる。
再構成では、GLUは重要適応型地区選択を用いて、局所的な関連情報を検索する。
予測では、階層的なLeader-Follower Dynamicsモジュールが遅延状態を進化させ、メモリ増加を大幅に減少させる。
論文 参考訳(メタデータ) (2026-03-27T02:40:58Z) - SpatialFly: Geometry-Guided Representation Alignment for UAV Vision-and-Language Navigation in Urban Environments [49.966170814478915]
UAV VLNのための幾何学誘導空間表現フレームワークを提案する。
明示的な3次元再構成を伴わないRGB観測において、SpatialFlyは幾何学誘導2次元表示アライメント機構を導入する。
実験結果から、SpatialFlyは現状のUAV VLNベースラインを目に見える環境と見えない環境の両方で一貫して上回っていることが明らかとなった。
論文 参考訳(メタデータ) (2026-03-22T03:56:58Z) - StepVAR: Structure-Texture Guided Pruning for Visual Autoregressive Models [98.72926158261937]
本稿では,Visual AutoRegressive モデルのためのトレーニングフリートークン解析フレームワークを提案する。
我々は局所的なテクスチャの詳細を捉えるために軽量なハイパスフィルタを使用し、グローバルな構造情報を保存するために主成分分析(PCA)を活用している。
スパーストークンの下で有効な次世代の予測を維持するために,近接した特徴伝達戦略を導入する。
論文 参考訳(メタデータ) (2026-03-02T11:35:05Z) - LoGoPlanner: Localization Grounded Navigation Policy with Metric-aware Visual Geometry [41.054069737969876]
非構造環境における軌道計画は、移動ロボットの基本的で困難な能力である。
ローカライズされたエンドツーエンドナビゲーションフレームワークであるLoGoPlannerを紹介する。
シミュレーションと実世界の両方の環境でLoGoPlannerを評価し,その完全なエンドツーエンド設計により累積誤差が低減される。
論文 参考訳(メタデータ) (2025-12-22T18:03:08Z) - TALO: Pushing 3D Vision Foundation Models Towards Globally Consistent Online Reconstruction [57.46712611558817]
3次元視覚基礎モデルでは、1つのフィードフォワードパスを通して、未校正画像からキー3D属性を再構成する際の強力な一般化が示されている。
近年の戦略は,グローバルトランスフォーメーションの解決によって連続的な予測と整合するが,本分析では,仮定の妥当性,局所的なアライメント範囲,雑音的幾何の下でのロバスト性といった基本的な限界を明らかにしている。
本研究では,グローバルに伝播する制御点を利用して空間的に異なる不整合を補正する,Tin Plate Splineに基づく高DOFおよび長期アライメントフレームワークを提案する。
論文 参考訳(メタデータ) (2025-12-02T02:22:20Z) - Global-to-Local Modeling for Video-based 3D Human Pose and Shape
Estimation [53.04781510348416]
フレーム内精度とフレーム間スムーズさにより,映像に基づく3次元人間のポーズと形状推定を評価する。
エンドツーエンドフレームワークGLoT(Global-to-Local Transformer)における長期的・短期的相関のモデル化を構造的に分離することを提案する。
我々のGLoTは、一般的なベンチマーク(3DPW、MPI-INF-3DHP、Human3.6M)において、最も低いモデルパラメータを持つ従来の最先端の手法を上回る。
論文 参考訳(メタデータ) (2023-03-26T14:57:49Z) - GitNet: Geometric Prior-based Transformation for Birds-Eye-View
Segmentation [105.19949897812494]
Birds-eye-view (BEV) セマンティックセマンティックセグメンテーションは自動運転に不可欠である。
本稿では,GitNetという新しい2段階のGeometry Preside-based Transformationフレームワークを提案する。
論文 参考訳(メタデータ) (2022-04-16T06:46:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。