論文の概要: Camera-LiDAR Fusion with Latent Contact for Place Recognition in
Challenging Cross-Scenes
- arxiv url: http://arxiv.org/abs/2310.10371v1
- Date: Mon, 16 Oct 2023 13:06:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-17 14:25:49.648612
- Title: Camera-LiDAR Fusion with Latent Contact for Place Recognition in
Challenging Cross-Scenes
- Title(参考訳): 交差するシーンにおける位置認識のための潜在接触型カメラLiDAR融合
- Authors: Yan Pan, Jiapeng Xie, Jiajie Wu, Bo Zhou
- Abstract要約: 本稿では,画像,点雲,融合枝のカスケードからなる新しい3チャンネルプレースディスクリプタを提案する。
KITTI、NCLT、USVInland、およびキャンパスのデータセットの実験は、提案された場所記述子が最先端のアプローチであることを示している。
- 参考スコア(独自算出の注目度): 5.957306851772919
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Although significant progress has been made, achieving place recognition in
environments with perspective changes, seasonal variations, and scene
transformations remains challenging. Relying solely on perception information
from a single sensor is insufficient to address these issues. Recognizing the
complementarity between cameras and LiDAR, multi-modal fusion methods have
attracted attention. To address the information waste in existing multi-modal
fusion works, this paper introduces a novel three-channel place descriptor,
which consists of a cascade of image, point cloud, and fusion branches.
Specifically, the fusion-based branch employs a dual-stage pipeline, leveraging
the correlation between the two modalities with latent contacts, thereby
facilitating information interaction and fusion. Extensive experiments on the
KITTI, NCLT, USVInland, and the campus dataset demonstrate that the proposed
place descriptor stands as the state-of-the-art approach, confirming its
robustness and generality in challenging scenarios.
- Abstract(参考訳): 重要な進展はあったが、視点の変化、季節変化、シーン変換を伴う環境における場所認識の実現は依然として困難である。
これらの問題に対処するには、単一センサからの知覚情報のみに頼るだけでは不十分である。
カメラとLiDARの相補性を認識したマルチモーダル融合法が注目されている。
本稿では,既存のマルチモーダル核融合作業における情報ムダを解決するために,画像,点雲,融合枝のカスケードからなる新しい3チャンネルプレースディスクリプタを提案する。
具体的には、融合に基づく分岐は二重ステージパイプラインを使用し、2つのモードと潜伏接触の相関を利用して情報相互作用と融合を容易にする。
KITTI、NCLT、USVInland、およびキャンパスのデータセットに関する大規模な実験は、提案された場所記述子は最先端のアプローチであり、挑戦的なシナリオにおけるその堅牢性と一般性を確認する。
関連論文リスト
- Two in One Go: Single-stage Emotion Recognition with Decoupled Subject-context Transformer [78.35816158511523]
単段階の感情認識手法として,DSCT(Decoupled Subject-Context Transformer)を用いる。
広範に使われている文脈認識型感情認識データセットであるCAER-SとEMOTICの単段階フレームワークの評価を行った。
論文 参考訳(メタデータ) (2024-04-26T07:30:32Z) - From Text to Pixels: A Context-Aware Semantic Synergy Solution for
Infrared and Visible Image Fusion [66.33467192279514]
我々は、テキスト記述から高レベルなセマンティクスを活用し、赤外線と可視画像のセマンティクスを統合するテキスト誘導多モード画像融合法を提案する。
本手法は,視覚的に優れた融合結果を生成するだけでなく,既存の手法よりも高い検出mAPを達成し,最先端の結果を得る。
論文 参考訳(メタデータ) (2023-12-31T08:13:47Z) - Mutual Information-driven Triple Interaction Network for Efficient Image
Dehazing [54.168567276280505]
画像デハージングのための相互情報駆動型トリプルインタラクションネットワーク(MITNet)を提案する。
振幅誘導ヘイズ除去と呼ばれる第1段階は、ヘイズ除去のためのヘイズ画像の振幅スペクトルを復元することを目的としている。
第2段階は位相誘導構造が洗練され、位相スペクトルの変換と微細化を学ぶことに尽力した。
論文 参考訳(メタデータ) (2023-08-14T08:23:58Z) - Robust Saliency-Aware Distillation for Few-shot Fine-grained Visual
Recognition [57.08108545219043]
サンプルが少ない新しいサブカテゴリを認識することは、コンピュータビジョンにおいて不可欠で挑戦的な研究課題である。
既存の文献は、ローカルベースの表現アプローチを採用することでこの問題に対処している。
本稿では,ロバスト・サリエンシ・アウェア蒸留法(RSaD)を提案する。
論文 参考訳(メタデータ) (2023-05-12T00:13:17Z) - Multimodal Hyperspectral Image Classification via Interconnected Fusion [12.41850641917384]
The Interconnect Fusion (IF) framework is proposed to explore the relationship across HSI and LiDAR modalities comprehensively。
トレント、MUUFL、ヒューストンの3つの広く使われているデータセットで実験が行われた。
論文 参考訳(メタデータ) (2023-04-02T09:46:13Z) - FER-former: Multi-modal Transformer for Facial Expression Recognition [14.219492977523682]
本稿では,表情認識のための多孔性監視ステアリングトランスを提案する。
提案手法は,多粒性埋め込み統合,ハイブリッド自己アテンション方式,及びヘテロジニアス・ドメイン・ステアリング・インスペクションを特徴とする。
人気のあるベンチマークの実験では、既存の最先端技術よりも提案されたFER-formerの方が優れていることが示されている。
論文 参考訳(メタデータ) (2023-03-23T02:29:53Z) - CLIP-Driven Fine-grained Text-Image Person Re-identification [50.94827165464813]
TIReIDは、候補画像のプールから与えられたテキストクエリに対応する画像を取得することを目的としている。
TIReIDにおけるCLIPの強力な知識をフル活用するための,CLIP駆動のきめ細かい情報抽出フレームワーク(CFine)を提案する。
論文 参考訳(メタデータ) (2022-10-19T03:43:12Z) - Target-aware Dual Adversarial Learning and a Multi-scenario
Multi-Modality Benchmark to Fuse Infrared and Visible for Object Detection [65.30079184700755]
本研究は、物体検出のために異なるように見える赤外線と可視画像の融合の問題に対処する。
従来のアプローチでは、2つのモダリティの根底にある共通点を発見し、反復最適化またはディープネットワークによって共通空間に融合する。
本稿では、融合と検出の連立問題に対する二段階最適化の定式化を提案し、その後、核融合と一般的に使用される検出ネットワークのためのターゲット認識デュアル逆学習(TarDAL)ネットワークに展開する。
論文 参考訳(メタデータ) (2022-03-30T11:44:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。