Fugu-MT 論文翻訳(概要): 3D-STMN: Dependency-Driven Superpoint-Text Matching Network for End-to-End 3D Referring Expression Segmentation

論文の概要: 3D-STMN: Dependency-Driven Superpoint-Text Matching Network for End-to-End 3D Referring Expression Segmentation

arxiv url: http://arxiv.org/abs/2308.16632v1
Date: Thu, 31 Aug 2023 11:00:03 GMT
ステータス: 翻訳完了
システム内更新日: 2023-09-01 14:42:23.143468
Title: 3D-STMN: Dependency-Driven Superpoint-Text Matching Network for End-to-End 3D Referring Expression Segmentation
Title（参考訳）: 3D-STMN: end-to-End 3D Referring Expression Segmentation のための依存性駆動型スーパーポイントテキストマッチングネットワーク
Authors: Changli Wu, Yiwei Ma, Qi Chen, Haowei Wang, Gen Luo, Jiayi Ji, Xiaoshuai Sun
Abstract要約: 3D参照式(3D-RES)では、従来のアプローチは2段階のパラダイムを採用し、セグメンテーション提案を抽出し、参照式とマッチングする。本稿では,依存性駆動の洞察に富む,革新的なエンドツーエンドのSuperpoint-Text Matching Network(3D-STMN)を提案する。我々のモデルは新しい性能基準を設定し、mIoUゲインの11.7ポイントを登録するだけでなく、従来の手法を95.7倍に越え、推論速度の驚異的な向上も達成している。
参考スコア（独自算出の注目度）: 33.20461146674787
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In 3D Referring Expression Segmentation (3D-RES), the earlier approach adopts a two-stage paradigm, extracting segmentation proposals and then matching them with referring expressions. However, this conventional paradigm encounters significant challenges, most notably in terms of the generation of lackluster initial proposals and a pronounced deceleration in inference speed. Recognizing these limitations, we introduce an innovative end-to-end Superpoint-Text Matching Network (3D-STMN) that is enriched by dependency-driven insights. One of the keystones of our model is the Superpoint-Text Matching (STM) mechanism. Unlike traditional methods that navigate through instance proposals, STM directly correlates linguistic indications with their respective superpoints, clusters of semantically related points. This architectural decision empowers our model to efficiently harness cross-modal semantic relationships, primarily leveraging densely annotated superpoint-text pairs, as opposed to the more sparse instance-text pairs. In pursuit of enhancing the role of text in guiding the segmentation process, we further incorporate the Dependency-Driven Interaction (DDI) module to deepen the network's semantic comprehension of referring expressions. Using the dependency trees as a beacon, this module discerns the intricate relationships between primary terms and their associated descriptors in expressions, thereby elevating both the localization and segmentation capacities of our model. Comprehensive experiments on the ScanRefer benchmark reveal that our model not only set new performance standards, registering an mIoU gain of 11.7 points but also achieve a staggering enhancement in inference speed, surpassing traditional methods by 95.7 times. The code and models are available at https://github.com/sosppxo/3D-STMN.
Abstract（参考訳）: 3d参照式セグメンテーション(3d-res)では、以前のアプローチは2段階のパラダイムを採用し、セグメンテーションの提案を抽出し、それらを参照表現とマッチングする。しかし、この従来のパラダイムは大きな課題に直面する。特に、未成熟な初期提案の生成と推論速度の顕著な減速についてである。これらの制約を認識し、依存関係駆動の洞察に富む革新的なエンドツーエンドのSuperpoint-Text Matching Network(3D-STMN)を導入する。私たちのモデルのキーストーンのひとつは、Superpoint-Text Matching(STM)メカニズムです。インスタンスの提案をナビゲートする従来の方法とは異なり、STMは言語指示をそれぞれのスーパーポイント、意味論的に関連付けられた点のクラスタと直接関連付ける。このアーキテクチャ上の決定は、よりスパースなインスタンス-テキストペアとは対照的に、主に密に注釈されたスーパーポイント-テキストペアを活用することで、クロスモーダルなセマンティクス関係を効率的に活用するモデルに力を与えます。セグメンテーションプロセスの誘導におけるテキストの役割の強化を追求するため,我々はさらに依存性駆動インタラクション(ddi)モジュールを組み込んで,ネットワークの参照表現の意味理解を深める。このモジュールは、依存木をビーコンとして使用し、表現における一次項とその関連記述子間の複雑な関係を識別し、モデルの局在性とセグメンテーション能力を高める。総合的なscanreferベンチマーク実験の結果,miouゲインが11.7ポイントの新たな性能基準を設定できるだけでなく,従来の手法を95.7倍も上回って,推論速度が大幅に向上していることが明らかとなった。コードとモデルはhttps://github.com/sosppxo/3d-stmnで入手できる。

関連論文リスト

Text-guided Visual Prompt DINO for Generic Segmentation [31.33676182634522]
テキスト誘導型ビジュアルプロンプトDINOフレームワークであるPrompt-DINOを提案する。まず、テキスト/視覚的プロンプトとバックボーン機能を統一する早期融合機構を導入する。第二に、DreTRアーキテクチャの順序整合クエリ選択を設計する。第3に,PR(Prompting, Prompting, Prompting, RAP)モデルによる認識情報を利用した生成データエンジンを開発する。
論文参考訳（メタデータ） (2025-08-08T09:09:30Z)
Relation3D: Enhancing Relation Modeling for Point Cloud Instance Segmentation [4.476845464695504]
3Dインスタンスセグメンテーションは、シーン内のオブジェクトインスタンスのセットを予測し、対応するセマンティックラベルを持つバイナリフォアグラウンドマスクとして表現することを目的としている。 textbfRelation3D: Enhancing Relation Modeling for Point Instance, 具体的には、適応的なスーパーポイントアグリゲーションモジュールと対照的な学習誘導型スーパーポイントリファインメントモジュールを導入し、スーパーポイント機能(シーン機能)をより良く表現する。我々の関係認識型自己アテンション機構は、位置関係と幾何学的関係を自己アテンション機構に組み込むことで、クエリ間の関係をモデル化する能力を高める。
論文参考訳（メタデータ） (2025-06-22T03:48:19Z)
BFANet: Revisiting 3D Semantic Segmentation with Boundary Feature Analysis [33.53327976669034]
より粒度の細かいレンズを通して3Dセマンティックセマンティックセグメンテーションを再考し、より広範なパフォーマンス指標によって隠蔽される微妙な複雑さに光を当てます。本稿では,BFANetと呼ばれる3次元セマンティックセマンティック・セマンティック・ネットワークを導入し,セマンティック・バウンダリの特徴を詳細に分析する。
論文参考訳（メタデータ） (2025-03-16T15:13:11Z)
RG-SAN: Rule-Guided Spatial Awareness Network for End-to-End 3D Referring Expression Segmentation [72.95147072227998]
3D参照式は、参照式と点雲を関連付けて3Dオブジェクトをセグメントすることを目的としている。従来のアプローチでは、インスタンスの空間情報に重点が置かれていないため、過剰なセグメンテーションや誤ったセグメンテーションといった問題に頻繁に遭遇する。本稿では,ルールガイド型空間認識ネットワーク(RG-SAN)を導入する。
論文参考訳（メタデータ） (2024-12-03T11:50:16Z)
LESS: Label-Efficient and Single-Stage Referring 3D Segmentation [55.06002976797879]
参照3Dは、クエリの文で記述された3Dポイントクラウドから、指定されたオブジェクトのすべてのポイントをセグメントする視覚言語タスクである。本稿では,LESSと呼ばれるレファレンス3次元パイプラインを提案する。 ScanReferデータセット上での最先端のパフォーマンスは、バイナリラベルのみを使用して、以前の3.7% mIoUの手法を上回ります。
論文参考訳（メタデータ） (2024-10-17T07:47:41Z)
SegPoint: Segment Any Point Cloud via Large Language Model [62.69797122055389]
我々は,多種多様なタスクにまたがるポイントワイドセグメンテーションマスクを生成するSegPointと呼ばれるモデルを提案する。 SegPointは、単一のフレームワーク内でさまざまなセグメンテーションタスクに対処する最初のモデルである。
論文参考訳（メタデータ） (2024-07-18T17:58:03Z)
SeCG: Semantic-Enhanced 3D Visual Grounding via Cross-modal Graph Attention [19.23636231942245]
設計したメモリグラフアテンション層を用いたグラフネットワークに基づくセマンティック・エンハンスド・リレーショナル学習モデルを提案する。本手法は,従来の言語に依存しないエンコーディングを,視覚解析におけるクロスモーダルエンコーディングに置き換える。 ReferIt3D と ScanRefer のベンチマーク実験の結果,提案手法は既存の最先端手法よりも優れていた。
論文参考訳（メタデータ） (2024-03-13T02:11:04Z)
SAI3D: Segment Any Instance in 3D Scenes [68.57002591841034]
新規なゼロショット3Dインスタンスセグメンテーション手法であるSAI3Dを紹介する。我々の手法は3Dシーンを幾何学的プリミティブに分割し、段階的に3Dインスタンスセグメンテーションにマージする。 ScanNet、Matterport3D、さらに難しいScanNet++データセットに関する実証的な評価は、我々のアプローチの優位性を示している。
論文参考訳（メタデータ） (2023-12-17T09:05:47Z)
Coherent Entity Disambiguation via Modeling Topic and Categorical Dependency [87.16283281290053]
従来のエンティティ曖昧化(ED)メソッドは、参照コンテキストと候補エンティティの一致するスコアに基づいて予測を行う、識別パラダイムを採用している。本稿では,エンティティ予測のコヒーレンス向上を目的とした新しいデザインを備えたEDシステムであるCoherentedを提案する。我々は、人気EDベンチマークにおいて、平均1.3F1ポイントの改善により、最先端の新たな結果を得る。
論文参考訳（メタデータ） (2023-11-06T16:40:13Z)
IDRNet: Intervention-Driven Relation Network for Semantic Segmentation [34.09179171102469]
同時進行の視覚パターンは、画素関係モデリングが密接な予測タスクを促進することを示唆している。印象的な結果にもかかわらず、既存のパラダイムは、しばしば不適切または効果的な文脈情報集約に悩まされる。我々は,textbfIntervention-textbfDriven textbfRelation textbfNetworkを提案する。
論文参考訳（メタデータ） (2023-10-16T18:37:33Z)
Spatial-Temporal Graph Enhanced DETR Towards Multi-Frame 3D Object Detection [54.041049052843604]
STEMDは,多フレーム3Dオブジェクト検出のためのDETRのようなパラダイムを改良した,新しいエンドツーエンドフレームワークである。まず、オブジェクト間の空間的相互作用と複雑な時間的依存をモデル化するために、空間的時間的グラフアテンションネットワークを導入する。最後に、ネットワークが正のクエリと、ベストマッチしない他の非常に類似したクエリを区別することが課題となる。
論文参考訳（メタデータ） (2023-07-01T13:53:14Z)
Superpoint Transformer for 3D Scene Instance Segmentation [7.07321040534471]
本稿では,SPFormer という名称の Superpoint Transformer に基づく,エンドツーエンドの3Dインスタンス分割手法を提案する。ポイントクラウドからスーパーポイントに潜在的な機能をグループ化し、クエリベクタを通じてインスタンスを直接予測する。これは、mAPの点でScanNetv2の隠れテストセットを4.3%上回り、高速な推論速度(フレーム当たり247ms)を同時に維持する。
論文参考訳（メタデータ） (2022-11-28T20:52:53Z)
3D-QueryIS: A Query-based Framework for 3D Instance Segmentation [74.6998931386331]
従来の3Dインスタンスセグメンテーションの方法は、しばしばタスク間の依存関係と堅牢性の欠如の傾向を維持する。本稿では,3D-QueryISと呼ばれる新しい問合せ方式を提案する。私たちの3D-QueryISは、タスク間の依存関係による累積エラーから解放されています。
論文参考訳（メタデータ） (2022-11-17T07:04:53Z)
Detecting Human-Object Interactions with Object-Guided Cross-Modal Calibrated Semantics [6.678312249123534]
我々は,オブジェクト指向の統計モデルを用いて,エンドツーエンドのモデルを強化することを目指している。本稿では,Verb Semantic Model (VSM) とセマンティックアグリゲーション(セマンティックアグリゲーション)を用いて,このオブジェクト誘導階層から利益を得る方法を提案する。上記のモジュールの組み合わせは、オブジェクト指向クロスモーダルネットワーク(OCN)を構成する。
論文参考訳（メタデータ） (2022-02-01T07:39:04Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。