論文の概要: V2VLoc: Robust GNSS-Free Collaborative Perception via LiDAR Localization
- arxiv url: http://arxiv.org/abs/2511.14247v1
- Date: Tue, 18 Nov 2025 08:34:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-19 16:23:53.010659
- Title: V2VLoc: Robust GNSS-Free Collaborative Perception via LiDAR Localization
- Title(参考訳): V2VLoc:LiDARによるロバストGNSSフリー協調知覚
- Authors: Wenkai Lin, Qiming Xia, Wen Li, Xun Huang, Chenglu Wen,
- Abstract要約: マルチエージェントは、観察を共有し、調整するための正確なポーズに依存し、環境の協調的な認識を可能にします。
従来のLiDARベースのローカライゼーションは、しばしばインデント環境で失敗し、協調作業において一貫した機能アライメントが困難になる。
本稿では,LiDARのローカライゼーションに基づくロバストフリー協調認識フレームワークを提案する。
- 参考スコア(独自算出の注目度): 31.461386714511963
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-agents rely on accurate poses to share and align observations, enabling a collaborative perception of the environment. However, traditional GNSS-based localization often fails in GNSS-denied environments, making consistent feature alignment difficult in collaboration. To tackle this challenge, we propose a robust GNSS-free collaborative perception framework based on LiDAR localization. Specifically, we propose a lightweight Pose Generator with Confidence (PGC) to estimate compact pose and confidence representations. To alleviate the effects of localization errors, we further develop the Pose-Aware Spatio-Temporal Alignment Transformer (PASTAT), which performs confidence-aware spatial alignment while capturing essential temporal context. Additionally, we present a new simulation dataset, V2VLoc, which can be adapted for both LiDAR localization and collaborative detection tasks. V2VLoc comprises three subsets: Town1Loc, Town4Loc, and V2VDet. Town1Loc and Town4Loc offer multi-traversal sequences for training in localization tasks, whereas V2VDet is specifically intended for the collaborative detection task. Extensive experiments conducted on the V2VLoc dataset demonstrate that our approach achieves state-of-the-art performance under GNSS-denied conditions. We further conduct extended experiments on the real-world V2V4Real dataset to validate the effectiveness and generalizability of PASTAT.
- Abstract(参考訳): マルチエージェントは、観察を共有し、調整するための正確なポーズに依存し、環境の協調的な認識を可能にします。
しかし、従来の GNSS ベースのローカライゼーションは GNSS で定義された環境では失敗することが多く、共同作業では一貫した機能アライメントが困難である。
この課題に対処するため、我々は、LiDARのローカライゼーションに基づく、堅牢なGNSSフリー協調認識フレームワークを提案する。
具体的には、コンパクトなポーズと信頼表現を推定する軽量なPGC(Pose Generator with Confidence)を提案する。
局所化誤差の影響を軽減するため,重要時間的文脈を捉えつつ,信頼性に配慮した空間アライメントを行うPASTAT(Pose-Aware Spatio-Temporal Alignment Transformer)を開発した。
さらに,LiDARのローカライゼーションと協調検出の両方に適応可能な新しいシミュレーションデータセットであるV2VLocを提案する。
V2VLocは、タウン1Loc、タウン4Loc、V2VDetの3つのサブセットから構成される。
Town1Loc と Town4Loc はローカライゼーションタスクのトレーニングにマルチトラバースシーケンスを提供するが、V2VDet は特に協調検出タスクを意図している。
V2VLocデータセットを用いた大規模実験により,GNSSの条件下での最先端性能が得られた。
さらに、実世界のV2V4Realデータセットに関する拡張実験を行い、PASTATの有効性と一般化性を検証する。
関連論文リスト
- D$^2$GS: Depth-and-Density Guided Gaussian Splatting for Stable and Accurate Sparse-View Reconstruction [73.61056394880733]
3D Gaussian Splatting (3DGS)は、3D表現を明示したリアルタイムかつ高忠実なノベルビュー合成(NVS)を可能にする。
疎視条件下では,カメラ近傍のガウス密度が過大な地域での過度適合と,ガウス範囲が不十分な遠隔地での過度適合の2つの重要な障害モードを同定する。
本稿では,奥行き案内型ドロップアウト戦略と距離認識型フィデリティ拡張モジュールという,2つの主要なコンポーネントからなる統合フレームワークD$2$GSを提案する。
論文 参考訳(メタデータ) (2025-10-09T17:59:49Z) - SPADE: Spatial-Aware Denoising Network for Open-vocabulary Panoptic Scene Graph Generation with Long- and Local-range Context Reasoning [23.984926906083473]
Panoptic Scene Graph Generation (PSG)は、複雑なシーンにおけるピクセルレベルの構造的関係をキャプチャするために、関係理解とインスタンスセグメンテーションを統合する。
事前学習された視覚言語モデル(VLM)を活用する最近のアプローチは、オープン語彙設定における性能を大幅に改善した。
オープン語彙PSGの新しいアプローチであるSPADE(SPatial-Aware Denoising-nEtwork)フレームワークを提案する。
論文 参考訳(メタデータ) (2025-07-08T09:03:24Z) - U-ViLAR: Uncertainty-Aware Visual Localization for Autonomous Driving via Differentiable Association and Registration [25.74646789843283]
U-ViLARは、新しい不確実性を認識した視覚的ローカライゼーションフレームワークである。
ハイデフィニション(HD)マップやナビゲーションマップを使った適応的なローカライゼーションを可能にする。
当社のモデルでは、大規模自動運転車両の厳格なテストが実施されている。
論文 参考訳(メタデータ) (2025-07-06T18:40:42Z) - COST: Contrastive One-Stage Transformer for Vision-Language Small Object Tracking [52.62149024881728]
本稿では,視覚言語(VL)追跡のための一段変圧器融合フレームワークを提案する。
ビデオとそれに対応する言語記述間の相互情報を最大化するコントラストアライメント戦略を導入する。
視覚言語変換器を活用することにより,効率的なマルチモーダル融合・推論機構を確立する。
論文 参考訳(メタデータ) (2025-04-02T03:12:38Z) - From Holistic to Localized: Local Enhanced Adapters for Efficient Visual Instruction Fine-Tuning [102.18178065928426]
効率的なビジュアルインストラクションファインタニング(EVIT)は、最小の計算オーバーヘッドで下流タスクにマルチモーダル大言語モデル(MLLM)を適用することを目指している。
本稿では,Dual Low-Rank Adaptation (Dual-LoRA)を提案する。
論文 参考訳(メタデータ) (2024-11-19T11:03:09Z) - Cooperative Students: Navigating Unsupervised Domain Adaptation in Nighttime Object Detection [1.6624384368855527]
教師なし領域適応 (Unsupervised Domain Adaptation, UDA) は、厳密な条件下での物体検出において顕著な進歩を示した。
UDAのパフォーマンスは特に夜間の低可視性シナリオで低下する。
この問題に対処するため,textbfCooperative textbfStudents (textbfCoS) フレームワークを提案する。
論文 参考訳(メタデータ) (2024-04-02T14:26:18Z) - Privacy-Preserving Cooperative Visible Light Positioning for
Nonstationary Environment: A Federated Learning Perspective [2.5445550558789884]
協調可視光測位ネットワーク (CVPosNet) を提案し, 収束率を向上し, 位置決め精度を向上させる。
シミュレーションの結果,提案手法は,特に非定常環境において,ベンチマーク方式よりも優れていた。
論文 参考訳(メタデータ) (2023-03-11T10:02:17Z) - Multi-level Consistency Learning for Semi-supervised Domain Adaptation [85.90600060675632]
半教師付きドメイン適応(SSDA)は、完全にラベル付けされたソースドメインから学習した知識をわずかにラベル付けされたターゲットドメインに適用することを目的としている。
SSDAのための多レベル一貫性学習フレームワークを提案する。
論文 参考訳(メタデータ) (2022-05-09T06:41:18Z) - HSVA: Hierarchical Semantic-Visual Adaptation for Zero-Shot Learning [74.76431541169342]
ゼロショット学習(ZSL)は、目に見えないクラス認識の問題に取り組み、目に見えないクラスから目に見えないクラスに意味的な知識を移す。
本稿では,意味領域と視覚領域を協調させる新しい階層型意味視覚適応(HSVA)フレームワークを提案する。
4つのベンチマークデータセットの実験では、HSVAは従来のZSLと一般的なZSLの両方で優れた性能を示す。
論文 参考訳(メタデータ) (2021-09-30T14:27:50Z) - Cross-modal Consensus Network for Weakly Supervised Temporal Action
Localization [74.34699679568818]
時間的行動局所化 (WS-TAL) は、ビデオレベルの分類的監督によって、ビデオ内のアクションインスタンスをローカライズすることを目的とした課題である。
この問題に対処するためのクロスモーダルコンセンサスネットワーク(CO2-Net)を提案する。
論文 参考訳(メタデータ) (2021-07-27T04:21:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。