論文の概要: GMF: General Multimodal Fusion Framework for Correspondence Outlier
Rejection
- arxiv url: http://arxiv.org/abs/2211.00207v1
- Date: Tue, 1 Nov 2022 01:18:46 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-02 14:00:48.308772
- Title: GMF: General Multimodal Fusion Framework for Correspondence Outlier
Rejection
- Title(参考訳): gmf: 汎用マルチモーダル融合フレームワークによる通信異常拒否
- Authors: Xiaoshui Huang, Wentao Qu, Yifan Zuo, Yuming Fang, Xiaowei Zhao
- Abstract要約: 本稿では,一般マルチモーダル・フュージョンを提案する。
我々のGMFは広範な一般化能力を実現し、点雲登録精度を一貫して改善する。
- 参考スコア(独自算出の注目度): 36.35090386001373
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Rejecting correspondence outliers enables to boost the correspondence
quality, which is a critical step in achieving high point cloud registration
accuracy. The current state-of-the-art correspondence outlier rejection methods
only utilize the structure features of the correspondences. However, texture
information is critical to reject the correspondence outliers in our human
vision system. In this paper, we propose General Multimodal Fusion (GMF) to
learn to reject the correspondence outliers by leveraging both the structure
and texture information. Specifically, two cross-attention-based fusion layers
are proposed to fuse the texture information from paired images and structure
information from point correspondences. Moreover, we propose a convolutional
position encoding layer to enhance the difference between Tokens and enable the
encoding feature pay attention to neighbor information. Our position encoding
layer will make the cross-attention operation integrate both local and global
information. Experiments on multiple datasets(3DMatch, 3DLoMatch, KITTI) and
recent state-of-the-art models (3DRegNet, DGR, PointDSC) prove that our GMF
achieves wide generalization ability and consistently improves the point cloud
registration accuracy. Furthermore, several ablation studies demonstrate the
robustness of the proposed GMF on different loss functions, lighting conditions
and noises.The code is available at https://github.com/XiaoshuiHuang/GMF.
- Abstract(参考訳): 対応出力の削除は、高点雲登録精度を達成するための重要なステップである対応品質を高めることができる。
現状の対応拒否法では,対応文の構造的特徴のみを活用している。
しかし, テクスチャ情報は, 人間の視覚系における対応異常を拒絶する上で重要である。
本稿では,構造情報とテクスチャ情報の両方を利用して,対応外れ値の否定を学ぶための汎用マルチモーダル融合(gmf)を提案する。
具体的には,ペア画像からのテクスチャ情報とポイント対応からの構造情報を融合するために,2つのクロス・アテンション・ベースの融合層を提案する。
さらに,トークン間の差異を増大させ,隣り合う情報に注意を払わせるために,畳み込み位置符号化層を提案する。
我々の位置エンコーディング層は、ローカル情報とグローバル情報の両方を相互アテンション操作に統合する。
複数のデータセット(3DMatch, 3DLoMatch, KITTI)と最近の最先端モデル(DRegNet, DGR, PointDSC)による実験により、GMFが広範な一般化能力を達成し、点雲登録精度を一貫して改善していることが証明された。
さらに、いくつかのアブレーション研究では、異なる損失関数、照明条件、ノイズに対するGMFの堅牢性を示しており、コードはhttps://github.com/XiaoshuiHuang/GMFで公開されている。
関連論文リスト
- PGNeXt: High-Resolution Salient Object Detection via Pyramid Grafting Network [24.54269823691119]
本稿では、データセットとネットワークフレームワークの両方の観点から、より難解な高分解能サルエントオブジェクト検出(HRSOD)について述べる。
HRSODデータセットの欠如を補うため、UHRSDと呼ばれる大規模高解像度の高分解能物体検出データセットを慎重に収集した。
すべての画像はピクセルレベルで微妙にアノテートされ、以前の低解像度のSODデータセットをはるかに上回っている。
論文 参考訳(メタデータ) (2024-08-02T09:31:21Z) - UGMAE: A Unified Framework for Graph Masked Autoencoders [67.75493040186859]
グラフマスク付きオートエンコーダのための統一フレームワークであるUGMAEを提案する。
まず,ノードの特異性を考慮した適応型特徴マスク生成器を開発した。
次に,階層型構造再構成と特徴再構成を併用し,総合的なグラフ情報を取得する。
論文 参考訳(メタデータ) (2024-02-12T19:39:26Z) - Mutual-Guided Dynamic Network for Image Fusion [51.615598671899335]
画像融合のための新しい相互誘導動的ネットワーク(MGDN)を提案する。
5つのベンチマークデータセットによる実験結果から,提案手法は4つの画像融合タスクにおいて既存手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2023-08-24T03:50:37Z) - Object Segmentation by Mining Cross-Modal Semantics [68.88086621181628]
マルチモーダル特徴の融合と復号を導くために,クロスモーダル・セマンティックスをマイニングする手法を提案する。
具体的には,(1)全周減衰核融合(AF),(2)粗大デコーダ(CFD),(3)多層自己超越からなる新しいネットワークXMSNetを提案する。
論文 参考訳(メタデータ) (2023-05-17T14:30:11Z) - Robust Point Cloud Registration Framework Based on Deep Graph
Matching(TPAMI Version) [13.286247750893681]
3Dポイントクラウドの登録は、コンピュータビジョンとロボティクスの基本的な問題である。
本稿では,ポイントクラウド登録のための新しいディープグラフマッチングベースのフレームワークを提案する。
論文 参考訳(メタデータ) (2022-11-09T06:05:25Z) - Camouflaged Object Detection via Context-aware Cross-level Fusion [10.942917945534678]
カモフラージュされた物体検出(COD)は、自然界に隠れている物体を識別することを目的としている。
本稿では,コンテキスト認識型クロスレベル統合ネットワーク(C2F-Net)を提案する。
C2F-Netは効果的なCODモデルであり、最先端(SOTA)モデルよりも優れています。
論文 参考訳(メタデータ) (2022-07-27T08:34:16Z) - Robust Partial-to-Partial Point Cloud Registration in a Full Range [12.86951061306046]
本稿では,全方向1の部分対部分点クラウド登録(PPR)のためのポーズ不変対応を推定するグラフマッチング・コンセンサス・ネットワーク(GMCNet)を提案する。
GMCNetは、個別に各点クラウドのポイント記述子を、クロスコンテクスト情報や、トレーニングのための接地真理対応を使わずに符号化する。
論文 参考訳(メタデータ) (2021-11-30T17:56:24Z) - Similarity-Aware Fusion Network for 3D Semantic Segmentation [87.51314162700315]
本研究では,3次元セマンティックセグメンテーションのための2次元画像と3次元点雲を適応的に融合する類似性認識融合ネットワーク(SAFNet)を提案する。
我々は、入力とバックプロジェクションされた(2Dピクセルから)点雲の間の幾何学的および文脈的類似性を初めて学習する、後期融合戦略を採用している。
SAFNetは、様々なデータ完全性にまたがって、既存の最先端の核融合ベースのアプローチを著しく上回っている。
論文 参考訳(メタデータ) (2021-07-04T09:28:18Z) - High-Order Information Matters: Learning Relation and Topology for
Occluded Person Re-Identification [84.43394420267794]
本稿では,高次関係とトポロジ情報を識別的特徴とロバストなアライメントのために学習し,新しい枠組みを提案する。
我々のフレームワークはOccluded-Dukeデータセットで最先端の6.5%mAPスコアを大幅に上回っている。
論文 参考訳(メタデータ) (2020-03-18T12:18:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。