論文の概要: PointCloud-Text Matching: Benchmark Datasets and a Baseline
- arxiv url: http://arxiv.org/abs/2403.19386v2
- Date: Thu, 5 Sep 2024 03:18:11 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-07 03:32:18.988808
- Title: PointCloud-Text Matching: Benchmark Datasets and a Baseline
- Title(参考訳): PointCloud-Text Matching:ベンチマークデータセットとベースライン
- Authors: Yanglin Feng, Yang Qin, Dezhong Peng, Hongyuan Zhu, Xi Peng, Peng Hu,
- Abstract要約: PointCloud-Text Matchingは、指定されたポイントクラウドクエリやテキストクエリにマッチする正確なクロスモーダルインスタンスを見つけることを目的としている。
3D2T-SR, 3D2T-NR, 3D2T-QAという3つの新しいベンチマークデータセットを構築した。
これらの課題に対処するため,Robost PointCloud-Text Matching Method (RoMa) というPTMベースラインを提案する。
- 参考スコア(独自算出の注目度): 32.03710715584587
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we present and study a new instance-level retrieval task: PointCloud-Text Matching~(PTM), which aims to find the exact cross-modal instance that matches a given point-cloud query or text query. PTM could be applied to various scenarios, such as indoor/urban-canyon localization and scene retrieval. However, there exists no suitable and targeted dataset for PTM in practice. Therefore, we construct three new PTM benchmark datasets, namely 3D2T-SR, 3D2T-NR, and 3D2T-QA. We observe that the data is challenging and with noisy correspondence due to the sparsity, noise, or disorder of point clouds and the ambiguity, vagueness, or incompleteness of texts, which make existing cross-modal matching methods ineffective for PTM. To tackle these challenges, we propose a PTM baseline, named Robust PointCloud-Text Matching method (RoMa). RoMa consists of two modules: a Dual Attention Perception module (DAP) and a Robust Negative Contrastive Learning module (RNCL). Specifically, DAP leverages token-level and feature-level attention to adaptively focus on useful local and global features, and aggregate them into common representations, thereby reducing the adverse impact of noise and ambiguity. To handle noisy correspondence, RNCL divides negative pairs, which are much less error-prone than positive pairs, into clean and noisy subsets, and assigns them forward and reverse optimization directions respectively, thus enhancing robustness against noisy correspondence. We conduct extensive experiments on our benchmarks and demonstrate the superiority of our RoMa.
- Abstract(参考訳): 本稿では、与えられたポイントクラウドクエリやテキストクエリと一致する正確なクロスモーダルなインスタンスを見つけることを目的として、新しいインスタンスレベルの検索タスクであるPointCloud-Text Matching~(PTM)を提示、研究する。
PTMは屋内/都市キャニオンのローカライゼーションやシーン検索といった様々なシナリオに適用できる。
しかし、実際にPTMに適したターゲットデータセットは存在しない。
そこで我々は,3D2T-SR,3D2T-NR,3D2T-QAという3つの新しいベンチマークデータセットを構築した。
本研究は, テキストのあいまいさ, 曖昧さ, 不完全さなどにより, PTMにおいて既存のクロスモーダルマッチング手法が有効でないため, データの難易度, ノイズ, ノイズ, 障害等により, ノイズ対応が困難であることを示す。
これらの課題に対処するため,Robost PointCloud-Text Matching Method (RoMa) というPTMベースラインを提案する。
RoMaはDAP(Dual Attention Perception Module)とRNCL(Robust Negative Contrastive Learning Module)の2つのモジュールで構成されている。
特に、DAPはトークンレベルと特徴レベルの注意を生かして、有用な局所的・グローバル的特徴に適応的に焦点を合わせ、それらを共通の表現に集約することで、ノイズやあいまいさの悪影響を低減する。
雑音対応を扱うため、RNCLは正のペアよりもはるかに誤差の少ない負のペアを清浄なサブセットと雑音の多いサブセットに分割し、それぞれ前方と逆の最適化方向を割り当て、ノイズ対応に対する堅牢性を高める。
ベンチマークで広範な実験を行い、RoMaの優位性を実証する。
関連論文リスト
- BiEquiFormer: Bi-Equivariant Representations for Global Point Cloud Registration [28.75341781515012]
本研究の目的は,グローバルポイントクラウド登録(PCR)の問題,すなわち,ポイントクラウド間の最適なアライメントを見つけることにある。
本研究では,現在最先端のディープラーニング手法が,任意の点の雲を空間に配置した場合に,大きな性能劣化に悩まされていることを示す。
論文 参考訳(メタデータ) (2024-07-11T17:58:10Z) - Beat: Bi-directional One-to-Many Embedding Alignment for Text-based Person Retrieval [66.61856014573742]
テキストベースの人物検索(TPR)は、テキスト記述に基づいて特定の個人を検索する難題である。
これまでは、テキストと画像のサンプルをモーダルシェード空間で整列させようと試みてきた。
本稿では,各サンプルに対して明確な最適化方向を提供する,効果的な双方向一対多埋め込みパラダイムを提案する。
論文 参考訳(メタデータ) (2024-06-09T03:06:55Z) - D3Former: Jointly Learning Repeatable Dense Detectors and
Feature-enhanced Descriptors via Saliency-guided Transformer [14.056531181678467]
我々は、リピータブルなtextbfDetector と機能強化された textbfDescriptors の合同学習を必要とする textitD3Former と呼ばれるサリエンシ誘導型 Transtextbfformer を導入する。
提案手法は,常に最先端のクラウドマッチング手法より優れている。
論文 参考訳(メタデータ) (2023-12-20T12:19:17Z) - Dynamic Weighted Combiner for Mixed-Modal Image Retrieval [8.683144453481328]
フレキシブル検索パラダイムとしてのMixed-Modal Image Retrieval (MMIR) が注目されている。
以前のアプローチは常に2つの重要な要因のため、限られたパフォーマンスを達成する。
以上の課題に対処するための動的重み付け結合器(DWC)を提案する。
論文 参考訳(メタデータ) (2023-12-11T07:36:45Z) - Noisy-Correspondence Learning for Text-to-Image Person Re-identification [50.07634676709067]
本稿では,雑音対応においても頑健な視覚関係を学習するための新しいロバスト二重埋め込み法(RDE)を提案する。
提案手法は,3つのデータセット上での合成ノイズ対応と非合成ノイズ対応を両立させる。
論文 参考訳(メタデータ) (2023-08-19T05:34:13Z) - Semi-DETR: Semi-Supervised Object Detection with Detection Transformers [105.45018934087076]
半教師付き物体検出(SSOD)におけるDETRに基づくフレームワークの解析
本報告では,第1次変圧器を用いたエンド・ツー・エンド半教師対象検出器であるSemi-DETRについて述べる。
我々の手法は、最先端の手法をクリアマージンで上回る。
論文 参考訳(メタデータ) (2023-07-16T16:32:14Z) - Exploring Active 3D Object Detection from a Generalization Perspective [58.597942380989245]
不確実性に基づくアクティブな学習ポリシーは、ポイントクラウドの情報性とボックスレベルのアノテーションコストの間のトレードオフのバランスを取れません。
冗長な3次元境界ボックスラベルの点群を階層的にフィルタリングするtextscCrbを提案する。
実験により,提案手法が既存のアクティブラーニング戦略より優れていることが示された。
論文 参考訳(メタデータ) (2023-01-23T02:43:03Z) - 3DMODT: Attention-Guided Affinities for Joint Detection & Tracking in 3D
Point Clouds [95.54285993019843]
本稿では,3次元点雲における複数物体の同時検出と追跡手法を提案する。
本モデルでは,複数のフレームを用いた時間情報を利用してオブジェクトを検出し,一つのネットワーク上で追跡する。
論文 参考訳(メタデータ) (2022-11-01T20:59:38Z) - Implicit and Efficient Point Cloud Completion for 3D Single Object
Tracking [9.372859423951349]
適応リファイン予測(ARP)とターゲット知識伝達(TKT)の2つの新しいモジュールを紹介する。
本モデルでは,より少ない計算量を維持しながら,最先端の性能を実現する。
論文 参考訳(メタデータ) (2022-09-01T15:11:06Z) - DFC: Deep Feature Consistency for Robust Point Cloud Registration [0.4724825031148411]
複雑なアライメントシーンのための学習に基づくアライメントネットワークを提案する。
我々は,3DMatchデータセットとKITTIオドメトリデータセットに対するアプローチを検証する。
論文 参考訳(メタデータ) (2021-11-15T08:27:21Z) - RPM-Net: Robust Point Matching using Learned Features [79.52112840465558]
RPM-Netは、より敏感で、より堅牢なディープラーニングベースのアプローチである。
既存の方法とは異なり、我々のRPM-Netは、部分的な可視性を備えた対応や点雲の欠如を処理します。
論文 参考訳(メタデータ) (2020-03-30T13:45:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。