論文の概要: TransLocNet: Cross-Modal Attention for Aerial-Ground Vehicle Localization with Contrastive Learning
- arxiv url: http://arxiv.org/abs/2512.10419v1
- Date: Thu, 11 Dec 2025 08:34:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-12 16:15:42.280732
- Title: TransLocNet: Cross-Modal Attention for Aerial-Ground Vehicle Localization with Contrastive Learning
- Title(参考訳): TransLocNet: コントラスト学習による空中車両位置決めのためのクロスモーダルアテンション
- Authors: Phu Pham, Damon Conover, Aniket Bera,
- Abstract要約: TransLocNet(トランスロックネット)は、LiDARの幾何学を空中のセマンティックコンテキストと融合する、クロスモーダルなアテンションフレームワークである。
CARLAとKITTIの実験では、TransLocNetは最先端のベースラインを上回っている。
- 参考スコア(独自算出の注目度): 14.74396995978237
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Aerial-ground localization is difficult due to large viewpoint and modality gaps between ground-level LiDAR and overhead imagery. We propose TransLocNet, a cross-modal attention framework that fuses LiDAR geometry with aerial semantic context. LiDAR scans are projected into a bird's-eye-view representation and aligned with aerial features through bidirectional attention, followed by a likelihood map decoder that outputs spatial probability distributions over position and orientation. A contrastive learning module enforces a shared embedding space to improve cross-modal alignment. Experiments on CARLA and KITTI show that TransLocNet outperforms state-of-the-art baselines, reducing localization error by up to 63% and achieving sub-meter, sub-degree accuracy. These results demonstrate that TransLocNet provides robust and generalizable aerial-ground localization in both synthetic and real-world settings.
- Abstract(参考訳): 地上レベルのLiDARと頭上画像との間に大きな視点とモダリティのギャップがあるため,空中位置決めは困難である。
本稿では,LiDARの幾何学と意味的コンテキストを融合した多モードアテンションフレームワークであるTransLocNetを提案する。
LiDARスキャンは鳥の目視表示に投影され、双方向の注意を通して空中の特徴と一致し、次いで位置と向きの空間確率分布を出力する確率マップデコーダが続く。
対照的な学習モジュールは、クロスモーダルアライメントを改善するために共有埋め込みスペースを強制する。
CARLAとKITTIの実験では、TransLocNetは最先端のベースラインよりも優れており、ローカライゼーションエラーを最大63%削減し、サブメーター、サブ学位精度を実現している。
これらの結果から,TransLocNetは,合成環境と実環境の両方において,堅牢かつ一般化可能な地上局地化を提供することが示された。
関連論文リスト
- Generative MIMO Beam Map Construction for Location Recovery and Beam Tracking [67.65578956523403]
本稿では,スパースチャネル状態情報(CSI)から位置ラベルを直接復元する生成フレームワークを提案する。
生のCSIを直接格納する代わりに、小型の低次元無線地図の埋め込みを学び、生成モデルを利用して高次元CSIを再構築する。
数値実験により,NLOSシナリオにおける局所化精度が30%以上向上し,20%のキャパシティゲインが得られることが示された。
論文 参考訳(メタデータ) (2025-11-21T07:25:49Z) - Object Detection as an Optional Basis: A Graph Matching Network for Cross-View UAV Localization [17.908597896653045]
本稿では,対象物検出によるマップマッチングを行うUAVローカライゼーションフレームワークを提案する。
典型的なパイプラインでは、UAVの視覚的ローカライゼーションは画像検索の問題として定式化されている。
本手法は, グラフベースノード類似度測定法を用いて, 高精度な検索とローカライズ性能を実現する。
論文 参考訳(メタデータ) (2025-11-04T11:25:31Z) - Loc$^2$: Interpretable Cross-View Localization via Depth-Lifted Local Feature Matching [80.57282092735991]
本稿では,高精度かつ解釈可能なクロスビューローカライズ手法を提案する。
地上画像の3自由度(DoF)のポーズを、その局所的な特徴と基準空中画像とをマッチングすることによって推定する。
実験では、クロスエリアテストや未知の向きといった挑戦的なシナリオにおいて、最先端の精度を示す。
論文 参考訳(メタデータ) (2025-09-11T18:52:16Z) - AGL-NET: Aerial-Ground Cross-Modal Global Localization with Varying Scales [45.315661330785275]
我々は,LiDAR点雲と衛星地図を用いたグローバルローカライゼーションのための新しい学習手法であるAGL-NETを提案する。
我々は,特徴マッチングのための画像と点間の表現ギャップを埋めること,グローバルビューとローカルビューのスケールの相違に対処すること,という2つの重要な課題に取り組む。
論文 参考訳(メタデータ) (2024-04-04T04:12:30Z) - ELGC-Net: Efficient Local-Global Context Aggregation for Remote Sensing Change Detection [65.59969454655996]
本稿では,変化領域を正確に推定するために,リッチな文脈情報を利用する効率的な変化検出フレームワークELGC-Netを提案する。
提案するELGC-Netは、リモートセンシング変更検出ベンチマークにおいて、最先端の性能を新たに設定する。
また,ELGC-Net-LWも導入した。
論文 参考訳(メタデータ) (2024-03-26T17:46:25Z) - SCTransNet: Spatial-channel Cross Transformer Network for Infrared Small Target Detection [46.049401912285134]
赤外線小ターゲット検出(IRSTD)は近年,U字型ニューラルモデルから大きな恩恵を受けている。
既存のテクニックは、ターゲットが背景と高い類似性を持つ場合に苦労する。
本稿では,空間チャネルクロストランスネットワーク(SCTransNet)を提案する。
論文 参考訳(メタデータ) (2024-01-28T06:41:15Z) - Towards Local Visual Modeling for Image Captioning [87.02744388237045]
そこで我々はLSTNet(Locality-Sensitive Transformer Network)とLSA(Locality-Sensitive Attention)とLSF(Locality-Sensitive Fusion)の2つの新しい設計を提案する。
LSAはトランスフォーマー内の層間相互作用のために、各格子とその近傍の関係をモデル化して展開される。
LSFは層間情報融合に使われ、層間セマンティック補完のために異なるエンコーダ層の情報を集約する。
論文 参考訳(メタデータ) (2023-02-13T04:42:00Z) - Co-visual pattern augmented generative transformer learning for
automobile geo-localization [12.449657263683337]
クロスビュージオローカライゼーション(CVGL)は、地上カメラの地理的位置を、巨大なジオタグ付き空中画像とマッチングすることによって推定することを目的としている。
CVGLのための相互生成型トランスフォーマー学習(MGTL)という,トランスフォーマーと組み合わせたクロスビュー知識生成技術を用いた新しい手法を提案する。
論文 参考訳(メタデータ) (2022-03-17T07:29:02Z) - TC-Net: Triple Context Network for Automated Stroke Lesion Segmentation [0.5482532589225552]
本稿では,空間的コンテキスト情報を中心として,新たなネットワークである Triple Context Network (TC-Net) を提案する。
我々のネットワークはオープンデータセットATLASで評価され、最高スコアは0.594、ハウスドルフ距離は27.005mm、平均対称性表面距離は7.137mmである。
論文 参考訳(メタデータ) (2022-02-28T11:12:16Z) - Think Global, Act Local: Dual-scale Graph Transformer for
Vision-and-Language Navigation [87.03299519917019]
本稿では,2次元グラフ変換器 (DUET) を提案する。
我々は,グローバルな行動空間における効率的な探索を可能にするために,トポロジカルマップをオンザフライで構築する。
提案手法であるDUETは、目標指向の視覚・言語ナビゲーションベンチマークにおいて最先端の手法を著しく上回っている。
論文 参考訳(メタデータ) (2022-02-23T19:06:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。