論文の概要: ProxyTransformation: Preshaping Point Cloud Manifold With Proxy Attention For 3D Visual Grounding
- arxiv url: http://arxiv.org/abs/2502.19247v1
- Date: Wed, 26 Feb 2025 15:53:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-27 14:57:26.402062
- Title: ProxyTransformation: Preshaping Point Cloud Manifold With Proxy Attention For 3D Visual Grounding
- Title(参考訳): ProxyTransformation:3Dビジュアルグラウンドのためのプロクシーアテンション付きポイントクラウドマニフォールド
- Authors: Qihang Peng, Henry Zheng, Gao Huang,
- Abstract要約: エージェントは言語命令に基づいてリアルタイムで3D環境と対話する必要がある。
既存の点雲拡大法は、しばしば多様体を改善するために退屈なプロセスを必要とする。
本稿では,マルチモーダルタスクに適したプロキシ変換を提案し,ポイントクラウド多様体を効率的に改善する。
- 参考スコア(独自算出の注目度): 47.927810413168345
- License:
- Abstract: Embodied intelligence requires agents to interact with 3D environments in real time based on language instructions. A foundational task in this domain is ego-centric 3D visual grounding. However, the point clouds rendered from RGB-D images retain a large amount of redundant background data and inherent noise, both of which can interfere with the manifold structure of the target regions. Existing point cloud enhancement methods often require a tedious process to improve the manifold, which is not suitable for real-time tasks. We propose Proxy Transformation suitable for multimodal task to efficiently improve the point cloud manifold. Our method first leverages Deformable Point Clustering to identify the point cloud sub-manifolds in target regions. Then, we propose a Proxy Attention module that utilizes multimodal proxies to guide point cloud transformation. Built upon Proxy Attention, we design a submanifold transformation generation module where textual information globally guides translation vectors for different submanifolds, optimizing relative spatial relationships of target regions. Simultaneously, image information guides linear transformations within each submanifold, refining the local point cloud manifold of target regions. Extensive experiments demonstrate that Proxy Transformation significantly outperforms all existing methods, achieving an impressive improvement of 7.49% on easy targets and 4.60% on hard targets, while reducing the computational overhead of attention blocks by 40.6%. These results establish a new SOTA in ego-centric 3D visual grounding, showcasing the effectiveness and robustness of our approach.
- Abstract(参考訳): エージェントは言語命令に基づいてリアルタイムで3D環境と対話する必要がある。
この領域の基本的なタスクは、エゴ中心の3D視覚グラウンドである。
しかし、RGB-D画像から得られる点雲は大量の冗長な背景データと固有ノイズを保持しており、どちらも対象領域の多様体構造に干渉することができる。
既存の点クラウド拡張法は、しばしば、リアルタイムタスクには適さない多様体を改善するための面倒なプロセスを必要とする。
本稿では,マルチモーダルタスクに適したプロキシ変換を提案し,ポイントクラウド多様体を効率的に改善する。
提案手法は,まずデフォルマブル・ポイント・クラスタリングを利用して,対象領域における点雲のサブマニフォールドを同定する。
そこで本研究では,マルチモーダルプロキシを用いてポイントクラウド変換をガイドするProxy Attentionモジュールを提案する。
Proxy Attentionをベースとして,テキスト情報によって異なるサブ多様体の変換ベクトルを導出し,対象領域の相対空間関係を最適化するサブ多様体変換生成モジュールを設計する。
同時に、画像情報は各サブ多様体内の線形変換をガイドし、対象領域の局所点雲多様体を精製する。
広範囲な実験により、プロキシ変換は既存のすべての手法を著しく上回り、容易に目標に7.49%、ハードターゲットに4.60%を達成し、注意ブロックの計算オーバーヘッドを40.6%削減した。
これらの結果は,エゴ中心の3次元視覚グラウンドティングにおいて新たなSOTAを確立し,我々のアプローチの有効性とロバスト性を示す。
関連論文リスト
- Boosting Cross-Domain Point Classification via Distilling Relational Priors from 2D Transformers [59.0181939916084]
従来の3Dネットワークは主に局所幾何学的詳細に焦点を当て、局所幾何学間の位相構造を無視する。
そこで本稿では,大規模画像上においてよく訓練されたトランスフォーマーから前駆体を抽出する,新しい先駆体蒸留法を提案する。
PointDA-10とSim-to-Realデータセットの実験は、提案手法が点クラウド分類におけるUDAの最先端性能を一貫して達成していることを検証する。
論文 参考訳(メタデータ) (2024-07-26T06:29:09Z) - FASTC: A Fast Attentional Framework for Semantic Traversability Classification Using Point Cloud [7.711666704468952]
点雲を用いたトラバーサビリティ評価の問題に対処する。
本稿では,垂直に配置された点雲から特徴を捉えるために PointNet を利用した柱状特徴抽出モジュールを提案する。
次に、LIDAR点雲の密度問題に適切に対応できる多フレーム情報を融合する新しい時間的アテンションモジュールを提案する。
論文 参考訳(メタデータ) (2024-06-24T12:01:55Z) - Multiway Point Cloud Mosaicking with Diffusion and Global Optimization [74.3802812773891]
マルチウェイポイントクラウドモザイクのための新しいフレームワーク(水曜日)を紹介する。
我々のアプローチの核心は、重複を識別し、注意点を洗練する学習されたペアワイズ登録アルゴリズムODINである。
4つの多種多様な大規模データセットを用いて、我々の手法は、全てのベンチマークにおいて大きなマージンで、最先端のペアとローテーションの登録結果を比較した。
論文 参考訳(メタデータ) (2024-03-30T17:29:13Z) - TransPose: 6D Object Pose Estimation with Geometry-Aware Transformer [16.674933679692728]
TransPoseは、Transformerをジオメトリ対応モジュールで活用して、ポイントクラウドの特徴表現の学習を改善する、新しい6Dポーズフレームワークである。
TransPoseは3つのベンチマークデータセットで競合する結果を達成する。
論文 参考訳(メタデータ) (2023-10-25T01:24:12Z) - AdaPoinTr: Diverse Point Cloud Completion with Adaptive Geometry-Aware
Transformers [94.11915008006483]
本稿では,ポイントクラウドの完了をセット・ツー・セットの翻訳問題として再定義する手法を提案する。
我々は、ポイントクラウド補完のためにTransformerエンコーダデコーダアーキテクチャを採用したPoinTrと呼ばれる新しいモデルを設計する。
本手法は,PCNで6.53 CD,ShapeNet-55で0.81 CD,現実世界のKITTIで0.392 MMDを実現する。
論文 参考訳(メタデータ) (2023-01-11T16:14:12Z) - DV-ConvNet: Fully Convolutional Deep Learning on Point Clouds with
Dynamic Voxelization and 3D Group Convolution [0.7340017786387767]
3次元点雲の解釈は、成分点のランダム性と空間性のために難しい課題である。
本研究では,効率的な3Dポイントクラウド解釈に向けて,標準的な3Dコンボリューションに注意を向ける。
我々のネットワークは、非常に高速に動作し、収束することができるが、いくつかのベンチマークデータセットの最先端の手法と比較して、オンパーまたはさらにパフォーマンスが向上する。
論文 参考訳(メタデータ) (2020-09-07T07:45:05Z) - SoftPoolNet: Shape Descriptor for Point Cloud Completion and
Classification [93.54286830844134]
本稿では,点雲に基づく3次元オブジェクトの補完と分類手法を提案する。
デコーダの段階では,グローバルな活性化エントロピーの最大化を目的とした新しい演算子である地域畳み込みを提案する。
我々は,オブジェクトの完成度や分類,最先端の精度の達成など,異なる3次元タスクに対するアプローチを評価する。
論文 参考訳(メタデータ) (2020-08-17T14:32:35Z) - Pseudo-LiDAR Point Cloud Interpolation Based on 3D Motion Representation
and Spatial Supervision [68.35777836993212]
我々はPseudo-LiDAR点雲ネットワークを提案し、時間的および空間的に高品質な点雲列を生成する。
点雲間のシーンフローを活用することにより,提案ネットワークは3次元空間運動関係のより正確な表現を学習することができる。
論文 参考訳(メタデータ) (2020-06-20T03:11:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。