論文の概要: LIP-Loc: LiDAR Image Pretraining for Cross-Modal Localization
- arxiv url: http://arxiv.org/abs/2312.16648v1
- Date: Wed, 27 Dec 2023 17:23:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-29 18:26:58.704761
- Title: LIP-Loc: LiDAR Image Pretraining for Cross-Modal Localization
- Title(参考訳): LIP-Loc: クロスモーダルローカライゼーションのためのLiDAR画像プレトレーニング
- Authors: Sai Shubodh Puligilla, Mohammad Omama, Husain Zaidi, Udit Singh
Parihar and Madhava Krishna
- Abstract要約: 本研究では,2次元画像領域と3次元LiDAR点の領域にコントラスト言語-画像事前学習を適用した。
提案手法は,視点画像のみを用いて,KITTI-360データセットの最先端リコール@1精度を22.4%向上させる。
また、モデルのゼロショット能力を実証し、トレーニングもせずにSOTAを8%上回りました。
- 参考スコア(独自算出の注目度): 0.9562145896371785
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Global visual localization in LiDAR-maps, crucial for autonomous driving
applications, remains largely unexplored due to the challenging issue of
bridging the cross-modal heterogeneity gap. Popular multi-modal learning
approach Contrastive Language-Image Pre-Training (CLIP) has popularized
contrastive symmetric loss using batch construction technique by applying it to
multi-modal domains of text and image. We apply this approach to the domains of
2D image and 3D LiDAR points on the task of cross-modal localization. Our
method is explained as follows: A batch of N (image, LiDAR) pairs is
constructed so as to predict what is the right match between N X N possible
pairings across the batch by jointly training an image encoder and LiDAR
encoder to learn a multi-modal embedding space. In this way, the cosine
similarity between N positive pairings is maximized, whereas that between the
remaining negative pairings is minimized. Finally, over the obtained similarity
scores, a symmetric cross-entropy loss is optimized. To the best of our
knowledge, this is the first work to apply batched loss approach to a
cross-modal setting of image & LiDAR data and also to show Zero-shot transfer
in a visual localization setting. We conduct extensive analyses on standard
autonomous driving datasets such as KITTI and KITTI-360 datasets. Our method
outperforms state-of-the-art recall@1 accuracy on the KITTI-360 dataset by
22.4%, using only perspective images, in contrast to the state-of-the-art
approach, which utilizes the more informative fisheye images. Additionally,
this superior performance is achieved without resorting to complex
architectures. Moreover, we demonstrate the zero-shot capabilities of our model
and we beat SOTA by 8% without even training on it. Furthermore, we establish
the first benchmark for cross-modal localization on the KITTI dataset.
- Abstract(参考訳): 自律運転アプリケーションにとって重要なLiDARマップのグローバルな視覚的ローカライゼーションは、クロスモーダルな異質性ギャップを埋めることの難しさから、いまだほとんど解明されていない。
ポピュラーなマルチモーダル学習アプローチ コントラスト言語イメージ前訓練(clip)は、テキストと画像のマルチモーダルドメインに適用することにより、バッチ構築技術を用いてコントラスト対称損失を広めてきた。
このアプローチを2次元画像領域と3次元lidar点領域に適用し,クロスモーダル局所化の課題に適用する。
画像エンコーダとLiDARエンコーダを共同でトレーニングすることで,N (image, LiDAR) ペアのバッチを構築し, N X N の可能なペア間の適切なマッチングを予測し,マルチモーダル埋め込み空間を学習する。
このように、N 個の正の対のコサイン類似性が最大化され、残りの負の対のコサイン類似性が最小化される。
最後に、得られた類似度スコアに対して対称クロスエントロピー損失を最適化する。
我々の知る限り、これは画像とLiDARデータのクロスモーダルな設定にバッチ化ロスアプローチを適用し、また視覚的ローカライゼーション設定でゼロショット転送を示す最初の試みである。
我々は,KITTI や KITTI-360 などの標準自律運転データセットを広範囲に分析する。
魚眼画像を用いた最新技術アプローチとは対照的に,kitti-360データセットのリコール@1精度を22.4%向上させた。
さらに、この優れたパフォーマンスは複雑なアーキテクチャに頼ることなく達成される。
さらに,モデルのゼロショット能力を実証し,トレーニングも行わずにSOTAを8%上回った。
さらに、KITTIデータセット上でのクロスモーダルなローカライゼーションのための最初のベンチマークを確立する。
関連論文リスト
- LiOn-XA: Unsupervised Domain Adaptation via LiDAR-Only Cross-Modal Adversarial Training [61.26381389532653]
LiOn-XAは、LiDAR-Only Cross-Modal (X)学習と3D LiDARポイントクラウドセマンティックセマンティックセグメンテーションのためのAdversarial Trainingを組み合わせた、教師なしドメイン適応(UDA)アプローチである。
3つの現実的適応シナリオに関する実験は、我々のアプローチの有効性を実証している。
論文 参考訳(メタデータ) (2024-10-21T09:50:17Z) - Towards Self-Supervised FG-SBIR with Unified Sample Feature Alignment and Multi-Scale Token Recycling [11.129453244307369]
FG-SBIRは、埋め込み空間におけるスケッチと対応する画像の距離を最小化することを目的としている。
両領域間のギャップを狭める効果的なアプローチを提案する。
主に、イントラサンプルとインターサンプルの両方を共有する統一的な相互情報共有を促進する。
論文 参考訳(メタデータ) (2024-06-17T13:49:12Z) - Symmetrical Bidirectional Knowledge Alignment for Zero-Shot Sketch-Based
Image Retrieval [69.46139774646308]
本稿ではゼロショットスケッチベース画像検索(ZS-SBIR)の問題点について検討する。
目に見えないカテゴリのスケッチをクエリとして使用して、同じカテゴリのイメージにマッチさせることが目的だ。
ゼロショットスケッチに基づく画像検索(SBKA)のための新しい対称双方向知識アライメントを提案する。
論文 参考訳(メタデータ) (2023-12-16T04:50:34Z) - A Recipe for Efficient SBIR Models: Combining Relative Triplet Loss with
Batch Normalization and Knowledge Distillation [3.364554138758565]
SBIR(Sketch-Based Image Retrieval)は、マルチメディア検索において重要なタスクであり、指定されたスケッチクエリにマッチした画像の集合を検索することを目的としている。
我々は, アンカーの類似性に基づく損失重み付けにより, 制限を克服する適応三重項損失である相対三重項損失(RTL)を導入する。
本稿では, 知識蒸留による精度の限界損失を抑えて, 小型モデルを効率的に訓練するための簡単な手法を提案する。
論文 参考訳(メタデータ) (2023-05-30T12:41:04Z) - Unleash the Potential of Image Branch for Cross-modal 3D Object
Detection [67.94357336206136]
画像分岐のポテンシャルを2つの側面から解き放つことを目的として,新しい3Dオブジェクト検出器UPIDetを提案する。
まず、UPIDetは正規化された局所座標写像推定と呼ばれる新しい2次元補助タスクを導入する。
第2に,イメージブランチのトレーニング目標から逆転する勾配によって,ポイントクラウドバックボーンの表現能力を向上できることを見出した。
論文 参考訳(メタデータ) (2023-01-22T08:26:58Z) - S2-Net: Self-supervision Guided Feature Representation Learning for
Cross-Modality Images [0.0]
モダリティ間の画像ペアは、通信の特徴表現を可能な限り近いものにするのに失敗することが多い。
本稿では,最近成功した検出・記述パイプラインに基づいて,モーダリティ間特徴表現学習ネットワークであるS2-Netを設計する。
本稿では,自己教師型学習とよく設計された損失関数を導入し,本来の利点を捨てることなくトレーニングを指導する。
論文 参考訳(メタデータ) (2022-03-28T08:47:49Z) - Modality-Aware Triplet Hard Mining for Zero-shot Sketch-Based Image
Retrieval [51.42470171051007]
本稿では,ZES-SBIR(Zero-Shot Sketch-Based Image Retrieval)問題に,クロスモダリティメトリック学習の観点から取り組む。
DMLにおける2つの基本的な学習手法、例えば分類訓練とペアトレーニングを組み合わせることで、ZS-SBIRの強力なベースラインを構築した。
モータリティ・アウェア・トリプルト・ハード・マイニング(MATHM)は3種類のペア・ラーニングによってベースラインを向上することを示す。
論文 参考訳(メタデータ) (2021-12-15T08:36:44Z) - Self-Supervised Multi-Frame Monocular Scene Flow [61.588808225321735]
自己監督学習に基づくマルチフレーム一眼的シーンフローネットワークを導入。
自己監督学習に基づく単眼的シーンフロー法における最新の精度を観察する。
論文 参考訳(メタデータ) (2021-05-05T17:49:55Z) - StEP: Style-based Encoder Pre-training for Multi-modal Image Synthesis [68.3787368024951]
マルチモーダルイメージ・ツー・イメージ(I2I)翻訳のための新しいアプローチを提案する。
我々は、出力領域の可変性をモデル化する潜伏埋め込みをジェネレータと共同で学習する。
具体的には、新しいプロキシタスクを用いて汎用的なスタイルエンコーダを事前訓練し、任意のドメインから低次元のスタイル潜在空間への画像の埋め込みを学習する。
論文 参考訳(メタデータ) (2021-04-14T19:58:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。