論文の概要: 3D-STMN: Dependency-Driven Superpoint-Text Matching Network for
End-to-End 3D Referring Expression Segmentation
- arxiv url: http://arxiv.org/abs/2308.16632v1
- Date: Thu, 31 Aug 2023 11:00:03 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-01 14:42:23.143468
- Title: 3D-STMN: Dependency-Driven Superpoint-Text Matching Network for
End-to-End 3D Referring Expression Segmentation
- Title(参考訳): 3D-STMN: end-to-End 3D Referring Expression Segmentation のための依存性駆動型スーパーポイントテキストマッチングネットワーク
- Authors: Changli Wu, Yiwei Ma, Qi Chen, Haowei Wang, Gen Luo, Jiayi Ji,
Xiaoshuai Sun
- Abstract要約: 3D参照式(3D-RES)では、従来のアプローチは2段階のパラダイムを採用し、セグメンテーション提案を抽出し、参照式とマッチングする。
本稿では,依存性駆動の洞察に富む,革新的なエンドツーエンドのSuperpoint-Text Matching Network(3D-STMN)を提案する。
我々のモデルは新しい性能基準を設定し、mIoUゲインの11.7ポイントを登録するだけでなく、従来の手法を95.7倍に越え、推論速度の驚異的な向上も達成している。
- 参考スコア(独自算出の注目度): 33.20461146674787
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In 3D Referring Expression Segmentation (3D-RES), the earlier approach adopts
a two-stage paradigm, extracting segmentation proposals and then matching them
with referring expressions. However, this conventional paradigm encounters
significant challenges, most notably in terms of the generation of lackluster
initial proposals and a pronounced deceleration in inference speed. Recognizing
these limitations, we introduce an innovative end-to-end Superpoint-Text
Matching Network (3D-STMN) that is enriched by dependency-driven insights. One
of the keystones of our model is the Superpoint-Text Matching (STM) mechanism.
Unlike traditional methods that navigate through instance proposals, STM
directly correlates linguistic indications with their respective superpoints,
clusters of semantically related points. This architectural decision empowers
our model to efficiently harness cross-modal semantic relationships, primarily
leveraging densely annotated superpoint-text pairs, as opposed to the more
sparse instance-text pairs. In pursuit of enhancing the role of text in guiding
the segmentation process, we further incorporate the Dependency-Driven
Interaction (DDI) module to deepen the network's semantic comprehension of
referring expressions. Using the dependency trees as a beacon, this module
discerns the intricate relationships between primary terms and their associated
descriptors in expressions, thereby elevating both the localization and
segmentation capacities of our model. Comprehensive experiments on the
ScanRefer benchmark reveal that our model not only set new performance
standards, registering an mIoU gain of 11.7 points but also achieve a
staggering enhancement in inference speed, surpassing traditional methods by
95.7 times. The code and models are available at
https://github.com/sosppxo/3D-STMN.
- Abstract(参考訳): 3d参照式セグメンテーション(3d-res)では、以前のアプローチは2段階のパラダイムを採用し、セグメンテーションの提案を抽出し、それらを参照表現とマッチングする。
しかし、この従来のパラダイムは大きな課題に直面する。特に、未成熟な初期提案の生成と推論速度の顕著な減速についてである。
これらの制約を認識し、依存関係駆動の洞察に富む革新的なエンドツーエンドのSuperpoint-Text Matching Network(3D-STMN)を導入する。
私たちのモデルのキーストーンのひとつは、Superpoint-Text Matching(STM)メカニズムです。
インスタンスの提案をナビゲートする従来の方法とは異なり、STMは言語指示をそれぞれのスーパーポイント、意味論的に関連付けられた点のクラスタと直接関連付ける。
このアーキテクチャ上の決定は、よりスパースなインスタンス-テキストペアとは対照的に、主に密に注釈されたスーパーポイント-テキストペアを活用することで、クロスモーダルなセマンティクス関係を効率的に活用するモデルに力を与えます。
セグメンテーションプロセスの誘導におけるテキストの役割の強化を追求するため,我々はさらに依存性駆動インタラクション(ddi)モジュールを組み込んで,ネットワークの参照表現の意味理解を深める。
このモジュールは、依存木をビーコンとして使用し、表現における一次項とその関連記述子間の複雑な関係を識別し、モデルの局在性とセグメンテーション能力を高める。
総合的なscanreferベンチマーク実験の結果,miouゲインが11.7ポイントの新たな性能基準を設定できるだけでなく,従来の手法を95.7倍も上回って,推論速度が大幅に向上していることが明らかとなった。
コードとモデルはhttps://github.com/sosppxo/3d-stmnで入手できる。
関連論文リスト
- LESS: Label-Efficient and Single-Stage Referring 3D Segmentation [55.06002976797879]
参照3Dは、クエリの文で記述された3Dポイントクラウドから、指定されたオブジェクトのすべてのポイントをセグメントする視覚言語タスクである。
本稿では,LESSと呼ばれるレファレンス3次元パイプラインを提案する。
ScanReferデータセット上での最先端のパフォーマンスは、バイナリラベルのみを使用して、以前の3.7% mIoUの手法を上回ります。
論文 参考訳(メタデータ) (2024-10-17T07:47:41Z) - SegPoint: Segment Any Point Cloud via Large Language Model [62.69797122055389]
我々は,多種多様なタスクにまたがるポイントワイドセグメンテーションマスクを生成するSegPointと呼ばれるモデルを提案する。
SegPointは、単一のフレームワーク内でさまざまなセグメンテーションタスクに対処する最初のモデルである。
論文 参考訳(メタデータ) (2024-07-18T17:58:03Z) - SeCG: Semantic-Enhanced 3D Visual Grounding via Cross-modal Graph
Attention [19.23636231942245]
設計したメモリグラフアテンション層を用いたグラフネットワークに基づくセマンティック・エンハンスド・リレーショナル学習モデルを提案する。
本手法は,従来の言語に依存しないエンコーディングを,視覚解析におけるクロスモーダルエンコーディングに置き換える。
ReferIt3D と ScanRefer のベンチマーク実験の結果,提案手法は既存の最先端手法よりも優れていた。
論文 参考訳(メタデータ) (2024-03-13T02:11:04Z) - SAI3D: Segment Any Instance in 3D Scenes [68.57002591841034]
新規なゼロショット3Dインスタンスセグメンテーション手法であるSAI3Dを紹介する。
我々の手法は3Dシーンを幾何学的プリミティブに分割し、段階的に3Dインスタンスセグメンテーションにマージする。
ScanNet、Matterport3D、さらに難しいScanNet++データセットに関する実証的な評価は、我々のアプローチの優位性を示している。
論文 参考訳(メタデータ) (2023-12-17T09:05:47Z) - Coherent Entity Disambiguation via Modeling Topic and Categorical
Dependency [87.16283281290053]
従来のエンティティ曖昧化(ED)メソッドは、参照コンテキストと候補エンティティの一致するスコアに基づいて予測を行う、識別パラダイムを採用している。
本稿では,エンティティ予測のコヒーレンス向上を目的とした新しいデザインを備えたEDシステムであるCoherentedを提案する。
我々は、人気EDベンチマークにおいて、平均1.3F1ポイントの改善により、最先端の新たな結果を得る。
論文 参考訳(メタデータ) (2023-11-06T16:40:13Z) - IDRNet: Intervention-Driven Relation Network for Semantic Segmentation [34.09179171102469]
同時進行の視覚パターンは、画素関係モデリングが密接な予測タスクを促進することを示唆している。
印象的な結果にもかかわらず、既存のパラダイムは、しばしば不適切または効果的な文脈情報集約に悩まされる。
我々は,textbfIntervention-textbfDriven textbfRelation textbfNetworkを提案する。
論文 参考訳(メタデータ) (2023-10-16T18:37:33Z) - Spatial-Temporal Graph Enhanced DETR Towards Multi-Frame 3D Object Detection [54.041049052843604]
STEMDは,多フレーム3Dオブジェクト検出のためのDETRのようなパラダイムを改良した,新しいエンドツーエンドフレームワークである。
まず、オブジェクト間の空間的相互作用と複雑な時間的依存をモデル化するために、空間的時間的グラフアテンションネットワークを導入する。
最後に、ネットワークが正のクエリと、ベストマッチしない他の非常に類似したクエリを区別することが課題となる。
論文 参考訳(メタデータ) (2023-07-01T13:53:14Z) - Superpoint Transformer for 3D Scene Instance Segmentation [7.07321040534471]
本稿では,SPFormer という名称の Superpoint Transformer に基づく,エンドツーエンドの3Dインスタンス分割手法を提案する。
ポイントクラウドからスーパーポイントに潜在的な機能をグループ化し、クエリベクタを通じてインスタンスを直接予測する。
これは、mAPの点でScanNetv2の隠れテストセットを4.3%上回り、高速な推論速度(フレーム当たり247ms)を同時に維持する。
論文 参考訳(メタデータ) (2022-11-28T20:52:53Z) - 3D-QueryIS: A Query-based Framework for 3D Instance Segmentation [74.6998931386331]
従来の3Dインスタンスセグメンテーションの方法は、しばしばタスク間の依存関係と堅牢性の欠如の傾向を維持する。
本稿では,3D-QueryISと呼ばれる新しい問合せ方式を提案する。
私たちの3D-QueryISは、タスク間の依存関係による累積エラーから解放されています。
論文 参考訳(メタデータ) (2022-11-17T07:04:53Z) - Detecting Human-Object Interactions with Object-Guided Cross-Modal
Calibrated Semantics [6.678312249123534]
我々は,オブジェクト指向の統計モデルを用いて,エンドツーエンドのモデルを強化することを目指している。
本稿では,Verb Semantic Model (VSM) とセマンティックアグリゲーション(セマンティックアグリゲーション)を用いて,このオブジェクト誘導階層から利益を得る方法を提案する。
上記のモジュールの組み合わせは、オブジェクト指向クロスモーダルネットワーク(OCN)を構成する。
論文 参考訳(メタデータ) (2022-02-01T07:39:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。