論文の概要: PointCloud-Text Matching: Benchmark Datasets and a Baseline
- arxiv url: http://arxiv.org/abs/2403.19386v3
- Date: Tue, 03 Jun 2025 07:51:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 01:42:08.846828
- Title: PointCloud-Text Matching: Benchmark Datasets and a Baseline
- Title(参考訳): PointCloud-Text Matching:ベンチマークデータセットとベースライン
- Authors: Yanglin Feng, Yang Qin, Dezhong Peng, Hongyuan Zhu, Xi Peng, Peng Hu,
- Abstract要約: PointCloud-Text Matching (PTM)は、指定されたポイントクラウドクエリやテキストクエリにマッチする正確なクロスモーダルインスタンスを特定することを目的としている。
PTMは、屋内/都市キャニオンのローカライゼーションやシーン検索など、様々なシナリオに応用できる可能性がある。
我々は、新しいPTMベンチマークデータセット、すなわちSceneDepict-3D2Tを提案する。
- 参考スコア(独自算出の注目度): 32.03710715584587
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we present and study a new instance-level retrieval task: PointCloud-Text Matching (PTM), which aims to identify the exact cross-modal instance that matches a given point-cloud query or text query. PTM has potential applications in various scenarios, such as indoor/urban-canyon localization and scene retrieval. However, there is a lack of suitable and targeted datasets for PTM in practice. To address this issue, we present a new PTM benchmark dataset, namely SceneDepict-3D2T. We observe that the data poses significant challenges due to its inherent characteristics, such as the sparsity, noise, or disorder of point clouds and the ambiguity, vagueness, or incompleteness of texts, which render existing cross-modal matching methods ineffective for PTM. To overcome these challenges, we propose a PTM baseline, named Robust PointCloud-Text Matching method (RoMa). RoMa consists of two key modules: a Dual Attention Perception module (DAP) and a Robust Negative Contrastive Learning module (RNCL). Specifically, DAP leverages token-level and feature-level attention mechanisms to adaptively focus on useful local and global features, and aggregate them into common representations, thereby reducing the adverse impact of noise and ambiguity. To handle noisy correspondence, RNCL enhances robustness against mismatching by dividing negative pairs into clean and noisy subsets and assigning them forward and reverse optimization directions, respectively. We conduct extensive experiments on our benchmarks and demonstrate the superiority of our RoMa.
- Abstract(参考訳): 本稿では,与えられたポイントクラウドクエリやテキストクエリと一致する正確なクロスモーダルなインスタンスを特定することを目的とした,新しいインスタンスレベルの検索タスクであるPointCloud-Text Matching(PTM)を提示し,研究する。
PTMは、屋内/都市キャニオンのローカライゼーションやシーン検索など、様々なシナリオに応用できる可能性がある。
しかし、実際にPTMに適したターゲットデータセットが存在しない。
この問題に対処するため、新しいPTMベンチマークデータセット、すなわちSceneDepict-3D2Tを提案する。
このデータには, 点雲の空間性, ノイズ, 障害, 曖昧性, 曖昧性, 不完全性などの特徴があり, 既存のクロスモーダルマッチング手法はPTMでは有効ではない。
これらの課題を克服するために,Robost PointCloud-Text Matching Method (RoMa) というPTMベースラインを提案する。
RoMaは、DAP(Dual Attention Perception Module)とRNCL(Robust Negative Contrastive Learning Module)の2つの主要なモジュールで構成されている。
具体的には、トークンレベルと特徴レベルの注意機構を活用して、有用な局所的特徴とグローバル的特徴に適応的に焦点を合わせ、それらを共通の表現に集約することで、ノイズやあいまいさの悪影響を低減する。
雑音対応に対処するため、RNCLは、負のペアをクリーンなサブセットとノイズの多いサブセットに分割し、それぞれ前方と逆の最適化方向を割り当てることで、ミスマッチに対する堅牢性を高める。
ベンチマークで広範な実験を行い、RoMaの優位性を実証する。
関連論文リスト
- OFFSET: Segmentation-based Focus Shift Revision for Composed Image Retrieval [59.377821673653436]
Composed Image Retrieval (CIR)は、ユーザの複雑な検索要求を柔軟に表現することができる。
1) 視覚データにおける支配的部分とノイズ的部分の不均一性は無視され、クエリー特徴が劣化する。
本研究は、主部分分割と二重焦点写像という2つのモジュールからなる集中写像に基づく特徴抽出器を提案する。
論文 参考訳(メタデータ) (2025-07-08T03:27:46Z) - Dynamic Uncertainty Learning with Noisy Correspondence for Text-Based Person Search [2.3099448395832956]
大規模テキストイメージデータセットは、オンラインの共起物から作成される。
既存の手法は、しばしばノイズを増幅する負のサンプルに焦点を当てる。
キー特徴セレクタ(KFS)と新しい損失関数であるDSH-Loss(Dynamic Softmax Hinge Loss)を備える動的不確実性とアライメントフレームワークを提案する。
実験により,本手法は耐雑音性が高く,低雑音・高雑音両シナリオの検索性能が向上することが示された。
論文 参考訳(メタデータ) (2025-05-10T08:35:36Z) - iEBAKER: Improved Remote Sensing Image-Text Retrieval Framework via Eliminate Before Align and Keyword Explicit Reasoning [80.44805667907612]
iEBAKERは、弱い相関のサンプルペアをフィルタリングする革新的な戦略である。
SAR(Sort After Reversed Retrieval)戦略の代替として,SAR(Sort After Retrieval)戦略を導入する。
キーワード明示型推論(KER)モジュールを組み込んで、微妙なキー概念の区別による有益な影響を促進する。
論文 参考訳(メタデータ) (2025-04-08T03:40:19Z) - CS-Net:Contribution-based Sampling Network for Point Cloud Simplification [50.55658910053004]
ポイントクラウドサンプリングは、様々なビジョンタスクの計算コストとストレージ要求を減らす上で重要な役割を果たす。
最遠点サンプリングのような従来のサンプリング手法では、タスク固有の情報が欠落している。
提案手法では, サンプル処理をTop-k操作として定式化したCS-Netを提案する。
論文 参考訳(メタデータ) (2025-01-18T14:56:09Z) - Divide-and-Conquer: Confluent Triple-Flow Network for RGB-T Salient Object Detection [70.84835546732738]
RGB-Thermal Salient Object Detectionは、目視と熱赤外画像のペア内の目立つ物体をピンポイントすることを目的としている。
従来のエンコーダ・デコーダアーキテクチャは、欠陥モードから生じるノイズに対する頑健さを十分に考慮していなかったかもしれない。
本稿では,Divide-and-Conquer戦略を用いた,堅牢なConfluent Triple-Flow NetworkであるConTriNetを提案する。
論文 参考訳(メタデータ) (2024-12-02T14:44:39Z) - Joint-Optimized Unsupervised Adversarial Domain Adaptation in Remote Sensing Segmentation with Prompted Foundation Model [32.03242732902217]
本稿では、ソースドメインデータに基づいてトレーニングされたモデルをターゲットドメインサンプルに適用するという課題に対処する。
SAM(Segment Anything Model)とSAM-JOANet(SAM-JOANet)を併用した協調最適化対向ネットワークを提案する。
論文 参考訳(メタデータ) (2024-11-08T02:15:20Z) - BiEquiFormer: Bi-Equivariant Representations for Global Point Cloud Registration [28.75341781515012]
本研究の目的は,グローバルポイントクラウド登録(PCR)の問題,すなわち,ポイントクラウド間の最適なアライメントを見つけることにある。
本研究では,現在最先端のディープラーニング手法が,任意の点の雲を空間に配置した場合に,大きな性能劣化に悩まされていることを示す。
論文 参考訳(メタデータ) (2024-07-11T17:58:10Z) - Beat: Bi-directional One-to-Many Embedding Alignment for Text-based Person Retrieval [66.61856014573742]
テキストベースの人物検索(TPR)は、テキスト記述に基づいて特定の個人を検索する難題である。
これまでは、テキストと画像のサンプルをモーダルシェード空間で整列させようと試みてきた。
本稿では,各サンプルに対して明確な最適化方向を提供する,効果的な双方向一対多埋め込みパラダイムを提案する。
論文 参考訳(メタデータ) (2024-06-09T03:06:55Z) - Weak Supervision with Arbitrary Single Frame for Micro- and Macro-expression Spotting [22.04975008531069]
本稿では,各表現を1つのランダムフレーム(すなわち1点)でアノテートする必要がある点レベルの弱教師付き表現スポッティングフレームワークを提案する。
我々は,MPLGがクラス固有の確率,注意スコア,融合特徴,点レベルのラベルを融合することにより,より信頼性の高い擬似ラベルを生成することを示す。
CAS(ME)2、CAS(ME)3、SAMM-LVデータセットの実験は、PWESが最近の完全教師付き手法に匹敵する有望な性能を達成することを示す。
論文 参考訳(メタデータ) (2024-03-21T09:01:21Z) - D3Former: Jointly Learning Repeatable Dense Detectors and
Feature-enhanced Descriptors via Saliency-guided Transformer [14.056531181678467]
我々は、リピータブルなtextbfDetector と機能強化された textbfDescriptors の合同学習を必要とする textitD3Former と呼ばれるサリエンシ誘導型 Transtextbfformer を導入する。
提案手法は,常に最先端のクラウドマッチング手法より優れている。
論文 参考訳(メタデータ) (2023-12-20T12:19:17Z) - Dynamic Weighted Combiner for Mixed-Modal Image Retrieval [8.683144453481328]
フレキシブル検索パラダイムとしてのMixed-Modal Image Retrieval (MMIR) が注目されている。
以前のアプローチは常に2つの重要な要因のため、限られたパフォーマンスを達成する。
以上の課題に対処するための動的重み付け結合器(DWC)を提案する。
論文 参考訳(メタデータ) (2023-12-11T07:36:45Z) - Noisy-Correspondence Learning for Text-to-Image Person Re-identification [50.07634676709067]
本稿では,雑音対応においても頑健な視覚関係を学習するための新しいロバスト二重埋め込み法(RDE)を提案する。
提案手法は,3つのデータセット上での合成ノイズ対応と非合成ノイズ対応を両立させる。
論文 参考訳(メタデータ) (2023-08-19T05:34:13Z) - Semi-DETR: Semi-Supervised Object Detection with Detection Transformers [105.45018934087076]
半教師付き物体検出(SSOD)におけるDETRに基づくフレームワークの解析
本報告では,第1次変圧器を用いたエンド・ツー・エンド半教師対象検出器であるSemi-DETRについて述べる。
我々の手法は、最先端の手法をクリアマージンで上回る。
論文 参考訳(メタデータ) (2023-07-16T16:32:14Z) - Exploring Active 3D Object Detection from a Generalization Perspective [58.597942380989245]
不確実性に基づくアクティブな学習ポリシーは、ポイントクラウドの情報性とボックスレベルのアノテーションコストの間のトレードオフのバランスを取れません。
冗長な3次元境界ボックスラベルの点群を階層的にフィルタリングするtextscCrbを提案する。
実験により,提案手法が既存のアクティブラーニング戦略より優れていることが示された。
論文 参考訳(メタデータ) (2023-01-23T02:43:03Z) - 3DMODT: Attention-Guided Affinities for Joint Detection & Tracking in 3D
Point Clouds [95.54285993019843]
本稿では,3次元点雲における複数物体の同時検出と追跡手法を提案する。
本モデルでは,複数のフレームを用いた時間情報を利用してオブジェクトを検出し,一つのネットワーク上で追跡する。
論文 参考訳(メタデータ) (2022-11-01T20:59:38Z) - Boosting Few-shot Fine-grained Recognition with Background Suppression
and Foreground Alignment [53.401889855278704]
FS-FGR (Few-shot Fine-fine Recognition) は、限られたサンプルの助けを借りて、新しいきめ細かなカテゴリを認識することを目的としている。
本研究では,背景アクティベーション抑制 (BAS) モジュール,フォアグラウンドオブジェクトアライメント (FOA) モジュール,および局所的局所的(L2L) 類似度測定器からなる2段階の背景アライメントとフォアグラウンドアライメントフレームワークを提案する。
複数のベンチマークで行った実験により,提案手法は既存の最先端技術よりも大きなマージンで優れていることが示された。
論文 参考訳(メタデータ) (2022-10-04T07:54:40Z) - Implicit and Efficient Point Cloud Completion for 3D Single Object
Tracking [9.372859423951349]
適応リファイン予測(ARP)とターゲット知識伝達(TKT)の2つの新しいモジュールを紹介する。
本モデルでは,より少ない計算量を維持しながら,最先端の性能を実現する。
論文 参考訳(メタデータ) (2022-09-01T15:11:06Z) - DFC: Deep Feature Consistency for Robust Point Cloud Registration [0.4724825031148411]
複雑なアライメントシーンのための学習に基づくアライメントネットワークを提案する。
我々は,3DMatchデータセットとKITTIオドメトリデータセットに対するアプローチを検証する。
論文 参考訳(メタデータ) (2021-11-15T08:27:21Z) - WSSOD: A New Pipeline for Weakly- and Semi-Supervised Object Detection [75.80075054706079]
弱機能および半教師付きオブジェクト検出フレームワーク(WSSOD)を提案する。
エージェント検出器は、まず関節データセット上でトレーニングされ、弱注釈画像上で擬似境界ボックスを予測するために使用される。
提案フレームワークはPASCAL-VOC と MSCOCO のベンチマークで顕著な性能を示し,完全教師付き環境で得られたものと同等の性能を達成している。
論文 参考訳(メタデータ) (2021-05-21T11:58:50Z) - RPM-Net: Robust Point Matching using Learned Features [79.52112840465558]
RPM-Netは、より敏感で、より堅牢なディープラーニングベースのアプローチである。
既存の方法とは異なり、我々のRPM-Netは、部分的な可視性を備えた対応や点雲の欠如を処理します。
論文 参考訳(メタデータ) (2020-03-30T13:45:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。