論文の概要: PointCloud-Text Matching: Benchmark Datasets and a Baseline
- arxiv url: http://arxiv.org/abs/2403.19386v1
- Date: Thu, 28 Mar 2024 12:51:15 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-29 16:24:00.664160
- Title: PointCloud-Text Matching: Benchmark Datasets and a Baseline
- Title(参考訳): PointCloud-Text Matching:ベンチマークデータセットとベースライン
- Authors: Yanglin Feng, Yang Qin, Dezhong Peng, Hongyuan Zhu, Xi Peng, Peng Hu,
- Abstract要約: PointCloud-Text Matchingは、指定されたポイントクラウドクエリやテキストクエリにマッチする正確なクロスモーダルインスタンスを見つけることを目的としている。
3D2T-SR, 3D2T-NR, 3D2T-QAという3つの新しいベンチマークデータセットを構築した。
これらの課題に対処するため,Robost PointCloud-Text Matching Method (RoMa) というPTMベースラインを提案する。
- 参考スコア(独自算出の注目度): 32.03710715584587
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we present and study a new instance-level retrieval task: PointCloud-Text Matching~(PTM), which aims to find the exact cross-modal instance that matches a given point-cloud query or text query. PTM could be applied to various scenarios, such as indoor/urban-canyon localization and scene retrieval. However, there exists no suitable and targeted dataset for PTM in practice. Therefore, we construct three new PTM benchmark datasets, namely 3D2T-SR, 3D2T-NR, and 3D2T-QA. We observe that the data is challenging and with noisy correspondence due to the sparsity, noise, or disorder of point clouds and the ambiguity, vagueness, or incompleteness of texts, which make existing cross-modal matching methods ineffective for PTM. To tackle these challenges, we propose a PTM baseline, named Robust PointCloud-Text Matching method (RoMa). RoMa consists of two modules: a Dual Attention Perception module (DAP) and a Robust Negative Contrastive Learning module (RNCL). Specifically, DAP leverages token-level and feature-level attention to adaptively focus on useful local and global features, and aggregate them into common representations, thereby reducing the adverse impact of noise and ambiguity. To handle noisy correspondence, RNCL divides negative pairs, which are much less error-prone than positive pairs, into clean and noisy subsets, and assigns them forward and reverse optimization directions respectively, thus enhancing robustness against noisy correspondence. We conduct extensive experiments on our benchmarks and demonstrate the superiority of our RoMa.
- Abstract(参考訳): 本稿では、与えられたポイントクラウドクエリやテキストクエリと一致する正確なクロスモーダルなインスタンスを見つけることを目的として、新しいインスタンスレベルの検索タスクであるPointCloud-Text Matching~(PTM)を提示、研究する。
PTMは屋内/都市キャニオンのローカライゼーションやシーン検索といった様々なシナリオに適用できる。
しかし、実際にPTMに適したターゲットデータセットは存在しない。
そこで我々は,3D2T-SR,3D2T-NR,3D2T-QAという3つの新しいベンチマークデータセットを構築した。
本研究は, テキストのあいまいさ, 曖昧さ, 不完全さなどにより, PTMにおいて既存のクロスモーダルマッチング手法が有効でないため, データの難易度, ノイズ, ノイズ, 障害等により, ノイズ対応が困難であることを示す。
これらの課題に対処するため,Robost PointCloud-Text Matching Method (RoMa) というPTMベースラインを提案する。
RoMaはDAP(Dual Attention Perception Module)とRNCL(Robust Negative Contrastive Learning Module)の2つのモジュールで構成されている。
特に、DAPはトークンレベルと特徴レベルの注意を生かして、有用な局所的・グローバル的特徴に適応的に焦点を合わせ、それらを共通の表現に集約することで、ノイズやあいまいさの悪影響を低減する。
雑音対応を扱うため、RNCLは正のペアよりもはるかに誤差の少ない負のペアを清浄なサブセットと雑音の多いサブセットに分割し、それぞれ前方と逆の最適化方向を割り当て、ノイズ対応に対する堅牢性を高める。
ベンチマークで広範な実験を行い、RoMaの優位性を実証する。
関連論文リスト
- D3Former: Jointly Learning Repeatable Dense Detectors and
Feature-enhanced Descriptors via Saliency-guided Transformer [14.056531181678467]
我々は、リピータブルなtextbfDetector と機能強化された textbfDescriptors の合同学習を必要とする textitD3Former と呼ばれるサリエンシ誘導型 Transtextbfformer を導入する。
提案手法は,常に最先端のクラウドマッチング手法より優れている。
論文 参考訳(メタデータ) (2023-12-20T12:19:17Z) - Dynamic Weighted Combiner for Mixed-Modal Image Retrieval [8.683144453481328]
フレキシブル検索パラダイムとしてのMixed-Modal Image Retrieval (MMIR) が注目されている。
以前のアプローチは常に2つの重要な要因のため、限られたパフォーマンスを達成する。
以上の課題に対処するための動的重み付け結合器(DWC)を提案する。
論文 参考訳(メタデータ) (2023-12-11T07:36:45Z) - Noisy-Correspondence Learning for Text-to-Image Person Re-identification [50.07634676709067]
本稿では,雑音対応においても頑健な視覚関係を学習するための新しいロバスト二重埋め込み法(RDE)を提案する。
提案手法は,3つのデータセット上での合成ノイズ対応と非合成ノイズ対応を両立させる。
論文 参考訳(メタデータ) (2023-08-19T05:34:13Z) - Dense Affinity Matching for Few-Shot Segmentation [83.65203917246745]
Few-Shot (FSS) は、新しいクラスイメージをいくつかのサンプルで分割することを目的としている。
本稿では,サポートクエリ間の相互作用を生かした密接な親和性マッチングフレームワークを提案する。
我々のフレームワークは0.68万のパラメータしか持たない異なる設定で非常に競争力のある性能を示す。
論文 参考訳(メタデータ) (2023-07-17T12:27:15Z) - Semi-DETR: Semi-Supervised Object Detection with Detection Transformers [105.45018934087076]
半教師付き物体検出(SSOD)におけるDETRに基づくフレームワークの解析
本報告では,第1次変圧器を用いたエンド・ツー・エンド半教師対象検出器であるSemi-DETRについて述べる。
我々の手法は、最先端の手法をクリアマージンで上回る。
論文 参考訳(メタデータ) (2023-07-16T16:32:14Z) - HD2Reg: Hierarchical Descriptors and Detectors for Point Cloud
Registration [5.906656006176128]
フィーチャーディスクリプタとインタクタは、機能ベースのポイントクラウド登録の2つの主要コンポーネントである。
本稿では,デュアルレベルディスクリプタと検出器を明示的に抽出し,粗大なマッチングを行うフレームワークを提案する。
提案手法は,ロバストで高精度なクラウド登録を実現し,最近のキーポイント方式よりも優れている。
論文 参考訳(メタデータ) (2023-05-05T12:57:04Z) - Exploring Active 3D Object Detection from a Generalization Perspective [58.597942380989245]
不確実性に基づくアクティブな学習ポリシーは、ポイントクラウドの情報性とボックスレベルのアノテーションコストの間のトレードオフのバランスを取れません。
冗長な3次元境界ボックスラベルの点群を階層的にフィルタリングするtextscCrbを提案する。
実験により,提案手法が既存のアクティブラーニング戦略より優れていることが示された。
論文 参考訳(メタデータ) (2023-01-23T02:43:03Z) - 3DMODT: Attention-Guided Affinities for Joint Detection & Tracking in 3D
Point Clouds [95.54285993019843]
本稿では,3次元点雲における複数物体の同時検出と追跡手法を提案する。
本モデルでは,複数のフレームを用いた時間情報を利用してオブジェクトを検出し,一つのネットワーク上で追跡する。
論文 参考訳(メタデータ) (2022-11-01T20:59:38Z) - Implicit and Efficient Point Cloud Completion for 3D Single Object
Tracking [9.372859423951349]
適応リファイン予測(ARP)とターゲット知識伝達(TKT)の2つの新しいモジュールを紹介する。
本モデルでは,より少ない計算量を維持しながら,最先端の性能を実現する。
論文 参考訳(メタデータ) (2022-09-01T15:11:06Z) - DFC: Deep Feature Consistency for Robust Point Cloud Registration [0.4724825031148411]
複雑なアライメントシーンのための学習に基づくアライメントネットワークを提案する。
我々は,3DMatchデータセットとKITTIオドメトリデータセットに対するアプローチを検証する。
論文 参考訳(メタデータ) (2021-11-15T08:27:21Z) - RPM-Net: Robust Point Matching using Learned Features [79.52112840465558]
RPM-Netは、より敏感で、より堅牢なディープラーニングベースのアプローチである。
既存の方法とは異なり、我々のRPM-Netは、部分的な可視性を備えた対応や点雲の欠如を処理します。
論文 参考訳(メタデータ) (2020-03-30T13:45:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。