論文の概要: RG-SAN: Rule-Guided Spatial Awareness Network for End-to-End 3D Referring Expression Segmentation
- arxiv url: http://arxiv.org/abs/2412.02402v2
- Date: Sun, 22 Dec 2024 10:51:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-24 19:20:56.309297
- Title: RG-SAN: Rule-Guided Spatial Awareness Network for End-to-End 3D Referring Expression Segmentation
- Title(参考訳): RG-SAN: エンドツーエンド3次元参照表現セグメンテーションのためのルールガイド型空間認識ネットワーク
- Authors: Changli Wu, Qi Chen, Jiayi Ji, Haowei Wang, Yiwei Ma, You Huang, Gen Luo, Hao Fei, Xiaoshuai Sun, Rongrong Ji,
- Abstract要約: 3D参照式は、参照式と点雲を関連付けて3Dオブジェクトをセグメントすることを目的としている。
従来のアプローチでは、インスタンスの空間情報に重点が置かれていないため、過剰なセグメンテーションや誤ったセグメンテーションといった問題に頻繁に遭遇する。
本稿では,ルールガイド型空間認識ネットワーク(RG-SAN)を導入する。
- 参考スコア(独自算出の注目度): 72.95147072227998
- License:
- Abstract: 3D Referring Expression Segmentation (3D-RES) aims to segment 3D objects by correlating referring expressions with point clouds. However, traditional approaches frequently encounter issues like over-segmentation or mis-segmentation, due to insufficient emphasis on spatial information of instances. In this paper, we introduce a Rule-Guided Spatial Awareness Network (RG-SAN) by utilizing solely the spatial information of the target instance for supervision. This approach enables the network to accurately depict the spatial relationships among all entities described in the text, thus enhancing the reasoning capabilities. The RG-SAN consists of the Text-driven Localization Module (TLM) and the Rule-guided Weak Supervision (RWS) strategy. The TLM initially locates all mentioned instances and iteratively refines their positional information. The RWS strategy, acknowledging that only target objects have supervised positional information, employs dependency tree rules to precisely guide the core instance's positioning. Extensive testing on the ScanRefer benchmark has shown that RG-SAN not only establishes new performance benchmarks, with an mIoU increase of 5.1 points, but also exhibits significant improvements in robustness when processing descriptions with spatial ambiguity. All codes are available at https://github.com/sosppxo/RG-SAN.
- Abstract(参考訳): 3D参照式セグメンテーション(3D-RES)は,3Dオブジェクトを点雲に関連付けてセグメント化することを目的としている。
しかし、従来のアプローチでは、インスタンスの空間的情報に重点が置かれていないため、過剰なセグメンテーションやミスセグメンテーションといった問題に頻繁に遭遇する。
本稿では,ルールガイド型空間認識ネットワーク(RG-SAN)を提案する。
このアプローチにより、ネットワークはテキストに記述されたすべてのエンティティ間の空間的関係を正確に表現し、推論能力を高めることができる。
RG-SANはテキスト駆動型ローカライゼーションモジュール(TLM)とルール誘導弱視(RWS)戦略で構成されている。
TLMは、最初に言及されているすべてのインスタンスを特定し、その位置情報を反復的に洗練する。
RWS戦略は、ターゲットオブジェクトだけが位置情報を管理していることを認め、コアインスタンスの位置決めを正確に導くために依存性ツリールールを採用している。
ScanReferベンチマークの大規模なテストでは、RG-SANは新しいパフォーマンスベンチマークを確立するだけでなく、mIoUが5.1ポイント増加した。
すべてのコードはhttps://github.com/sosppxo/RG-SANで入手できる。
関連論文リスト
- Open-Vocabulary Octree-Graph for 3D Scene Understanding [54.11828083068082]
Octree-Graphはオープンな3Dシーン理解のための新しいシーン表現である。
セマンティクスを記憶し、その形状に応じてオブジェクトの占有度を調節するアダプティブ・オクツリー構造を開発する。
論文 参考訳(メタデータ) (2024-11-25T10:14:10Z) - Boosting Weakly-Supervised Referring Image Segmentation via Progressive Comprehension [40.21084218601082]
本稿では、画像とテキストのペアから直接ターゲットのローカライゼーションを学習する、困難な設定に焦点を当てる。
そこで本研究では,対象対象対象の局所化にターゲット関連テキストキューを活用する新しいプログレッシブネットワーク(PCNet)を提案する。
本手法は3つのベンチマークでSOTA法より優れている。
論文 参考訳(メタデータ) (2024-10-02T13:30:32Z) - Salient Object Detection in Optical Remote Sensing Images Driven by
Transformer [69.22039680783124]
光リモートセンシング画像(ORSI-SOD)のためのGlobal extract Local Exploration Network(GeleNet)を提案する。
具体的には、GeleNetはまずトランスフォーマーバックボーンを採用し、グローバルな長距離依存関係を持つ4レベルの機能埋め込みを生成する。
3つの公開データセットに関する大規模な実験は、提案されたGeleNetが関連する最先端メソッドより優れていることを示している。
論文 参考訳(メタデータ) (2023-09-15T07:14:43Z) - 3D-STMN: Dependency-Driven Superpoint-Text Matching Network for
End-to-End 3D Referring Expression Segmentation [33.20461146674787]
3D参照式(3D-RES)では、従来のアプローチは2段階のパラダイムを採用し、セグメンテーション提案を抽出し、参照式とマッチングする。
本稿では,依存性駆動の洞察に富む,革新的なエンドツーエンドのSuperpoint-Text Matching Network(3D-STMN)を提案する。
我々のモデルは新しい性能基準を設定し、mIoUゲインの11.7ポイントを登録するだけでなく、従来の手法を95.7倍に越え、推論速度の驚異的な向上も達成している。
論文 参考訳(メタデータ) (2023-08-31T11:00:03Z) - GP-S3Net: Graph-based Panoptic Sparse Semantic Segmentation Network [1.9949920338542213]
GP-S3Netは提案なしのアプローチであり、オブジェクトを識別するためにオブジェクトの提案は必要ない。
私たちの新しいデザインは、セマンティックな結果を処理する新しいインスタンスレベルのネットワークで構成されています。
GP-S3Netは現在の最先端のアプローチよりも優れていた。
論文 参考訳(メタデータ) (2021-08-18T21:49:58Z) - 3D Spatial Recognition without Spatially Labeled 3D [127.6254240158249]
Weakly-supervised framework for Point cloud Recognitionを紹介する。
We show that WyPR can detected and segment objects in point cloud data without access any space labels at training time。
論文 参考訳(メタデータ) (2021-05-13T17:58:07Z) - S3Net: 3D LiDAR Sparse Semantic Segmentation Network [1.330528227599978]
S3NetはLiDARポイントクラウドセマンティックセグメンテーションのための新しい畳み込みニューラルネットワークである。
sparse intra-channel attention module (sintraam)とsparse inter-channel attention module (sinteram)で構成されるエンコーダ-デコーダバックボーンを採用する。
論文 参考訳(メタデータ) (2021-03-15T22:15:24Z) - PC-RGNN: Point Cloud Completion and Graph Neural Network for 3D Object
Detection [57.49788100647103]
LiDARベースの3Dオブジェクト検出は、自動運転にとって重要なタスクです。
現在のアプローチでは、遠方および閉ざされた物体の偏りと部分的な点雲に苦しむ。
本稿では,この課題を2つの解決法で解決する新しい二段階アプローチ,pc-rgnnを提案する。
論文 参考訳(メタデータ) (2020-12-18T18:06:43Z) - LiDAR-based Panoptic Segmentation via Dynamic Shifting Network [56.71765153629892]
LiDARベースのパノプティカルセグメンテーションは、オブジェクトとシーンを統一的に解析することを目的としている。
本稿では,ポイントクラウド領域における効果的な単視分割フレームワークとして機能する動的シフトネットワーク(DS-Net)を提案する。
提案するDS-Netは,現在の最先端手法よりも優れた精度を実現する。
論文 参考訳(メタデータ) (2020-11-24T08:44:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。