論文の概要: TSDASeg: A Two-Stage Model with Direct Alignment for Interactive Point Cloud Segmentation
- arxiv url: http://arxiv.org/abs/2506.20991v1
- Date: Thu, 26 Jun 2025 04:10:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-27 19:53:09.971731
- Title: TSDASeg: A Two-Stage Model with Direct Alignment for Interactive Point Cloud Segmentation
- Title(参考訳): TSDASeg: インタラクティブなポイントクラウドセグメンテーションのためのダイレクトアライメントを備えた2段階モデル
- Authors: Chade Li, Pengju Zhang, Yihong Wu,
- Abstract要約: 本稿では,双方向アライメントモジュールとメモリモジュールを組み合わせた2段階モデルであるTSDASegを提案する。
直交アライメントモジュールを導入し、3次元点雲とテキスト/2次元画像データとの明確なアライメントを確立する。
メモリモジュール内では、複数の専用メモリバンクを使用して、テキストの特徴、視覚的特徴、およびそれらの相互モーダル対応マッピングを別々に格納する。
- 参考スコア(独自算出の注目度): 3.615396917221689
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rapid advancement of 3D vision-language models (VLMs) has spurred significant interest in interactive point cloud processing tasks, particularly for real-world applications. However, existing methods often underperform in point-level tasks, such as segmentation, due to missing direct 3D-text alignment, limiting their ability to link local 3D features with textual context. To solve this problem, we propose TSDASeg, a Two-Stage model coupled with a Direct cross-modal Alignment module and memory module for interactive point cloud Segmentation. We introduce the direct cross-modal alignment module to establish explicit alignment between 3D point clouds and textual/2D image data. Within the memory module, we employ multiple dedicated memory banks to separately store text features, visual features, and their cross-modal correspondence mappings. These memory banks are dynamically leveraged through self-attention and cross-attention mechanisms to update scene-specific features based on prior stored data, effectively addressing inconsistencies in interactive segmentation results across diverse scenarios. Experiments conducted on multiple 3D instruction, reference, and semantic segmentation datasets demonstrate that the proposed method achieves state-of-the-art performance.
- Abstract(参考訳): 3Dビジョン言語モデル(VLM)の急速な進歩は、特に現実世界のアプリケーションにおいて、インタラクティブなポイントクラウド処理タスクに大きな関心を惹き付けている。
しかし、既存の手法は、直接3Dテキストアライメントが欠如し、局所的な3D機能をテキストコンテキストにリンクする能力に制限があるため、セグメンテーションのようなポイントレベルのタスクでは性能が劣ることが多い。
そこで本研究では,双方向アライメントモジュールとメモリモジュールを組み合わせた2段階モデルであるTSDASegを提案する。
直交アライメントモジュールを導入し、3次元点雲とテキスト/2次元画像データとの明確なアライメントを確立する。
メモリモジュール内では、複数の専用メモリバンクを使用して、テキストの特徴、視覚的特徴、およびそれらの相互モーダル対応マッピングを別々に格納する。
これらのメモリバンクは、自己アテンションとクロスアテンション機構を通じて動的に活用され、予め格納されたデータに基づいてシーン固有の機能を更新し、さまざまなシナリオにわたるインタラクティブセグメンテーション結果の不整合に効果的に対処する。
複数の3Dインストラクション、参照、セマンティックセグメンテーションデータセットを用いて実験を行い、提案手法が最先端の性能を達成することを示す。
関連論文リスト
- Relation3D: Enhancing Relation Modeling for Point Cloud Instance Segmentation [4.476845464695504]
3Dインスタンスセグメンテーションは、シーン内のオブジェクトインスタンスのセットを予測し、対応するセマンティックラベルを持つバイナリフォアグラウンドマスクとして表現することを目的としている。
textbfRelation3D: Enhancing Relation Modeling for Point Instance, 具体的には、適応的なスーパーポイントアグリゲーションモジュールと対照的な学習誘導型スーパーポイントリファインメントモジュールを導入し、スーパーポイント機能(シーン機能)をより良く表現する。
我々の関係認識型自己アテンション機構は、位置関係と幾何学的関係を自己アテンション機構に組み込むことで、クエリ間の関係をモデル化する能力を高める。
論文 参考訳(メタデータ) (2025-06-22T03:48:19Z) - Unified Representation Space for 3D Visual Grounding [18.652577474202015]
3Dビジュアルグラウンドは、テキスト記述に基づいて3Dシーン内のオブジェクトを識別することを目的としている。
既存の方法は、個別に訓練された視覚とテキストエンコーダに依存しており、2つのモードの間に大きなギャップがある。
本稿では,3DVGの統一表現空間を革新的に導入するUniSpace-3Dを提案する。
論文 参考訳(メタデータ) (2025-06-17T06:53:15Z) - EgoSplat: Open-Vocabulary Egocentric Scene Understanding with Language Embedded 3D Gaussian Splatting [108.15136508964011]
EgoSplatは、オープン・ボキャブラリ・エゴセントリック・シーン理解のための3Dガウス・スプレイティング・フレームワークである。
EgoSplatは2つのデータセット上のローカライゼーションタスクとセグメンテーションタスクの両方において、最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-03-14T12:21:26Z) - CrossOver: 3D Scene Cross-Modal Alignment [78.3057713547313]
CrossOverは、クロスモーダルな3Dシーン理解のための新しいフレームワークである。
モダリティを整列させることにより、シーンの統一的でモダリティに依存しない埋め込み空間を学ぶ。
堅牢なシーン検索とオブジェクトのローカライゼーションをサポートする。
論文 参考訳(メタデータ) (2025-02-20T20:05:30Z) - LESS: Label-Efficient and Single-Stage Referring 3D Segmentation [55.06002976797879]
参照3Dは、クエリの文で記述された3Dポイントクラウドから、指定されたオブジェクトのすべてのポイントをセグメントする視覚言語タスクである。
本稿では,LESSと呼ばれるレファレンス3次元パイプラインを提案する。
ScanReferデータセット上での最先端のパフォーマンスは、バイナリラベルのみを使用して、以前の3.7% mIoUの手法を上回ります。
論文 参考訳(メタデータ) (2024-10-17T07:47:41Z) - Modeling Continuous Motion for 3D Point Cloud Object Tracking [54.48716096286417]
本稿では,各トラックレットを連続ストリームとみなす新しいアプローチを提案する。
各タイムスタンプでは、現在のフレームだけがネットワークに送られ、メモリバンクに格納された複数フレームの履歴機能と相互作用する。
頑健な追跡のためのマルチフレーム機能の利用性を高めるために,コントラッシブシーケンス強化戦略を提案する。
論文 参考訳(メタデータ) (2023-03-14T02:58:27Z) - LiDAR-based Recurrent 3D Semantic Segmentation with Temporal Memory
Alignment [0.0]
本稿では,単一範囲の画像フレームを入力とする再帰セグメンテーションアーキテクチャ(RNN)を提案する。
私たちがテンポラルメモリアライメントと呼ぶアライメント戦略は、エゴモーションを使用して、フィーチャースペース内の連続フレーム間のメモリをテンポラリアライメントします。
2つの大規模データセットに対する提案手法の利点を実証し,いくつかの最先端手法と比較する。
論文 参考訳(メタデータ) (2021-03-03T09:01:45Z) - Weakly Supervised Semantic Segmentation in 3D Graph-Structured Point
Clouds of Wild Scenes [36.07733308424772]
3Dセグメンテーションラベルの欠如は、効率的な点雲セグメンテーションの主な障害の1つである。
本稿では,2D のみを監督する点群における大規模セマンティックシーンセグメンテーションのための,新しいディープグラフ畳み込みネットワークフレームワークを提案する。
論文 参考訳(メタデータ) (2020-04-26T23:02:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。