論文の概要: Beyond the Final Layer: Hierarchical Query Fusion Transformer with Agent-Interpolation Initialization for 3D Instance Segmentation
- arxiv url: http://arxiv.org/abs/2502.04139v1
- Date: Thu, 06 Feb 2025 15:19:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-07 14:32:32.308126
- Title: Beyond the Final Layer: Hierarchical Query Fusion Transformer with Agent-Interpolation Initialization for 3D Instance Segmentation
- Title(参考訳): 最終層を超えて: 3次元インスタンスセグメンテーションのためのエージェント補間初期化を用いた階層型クエリフュージョン変換器
- Authors: Jiahao Lu, Jiacheng Deng, Tianzhu Zhang,
- Abstract要約: 3Dインスタンスセグメンテーションは、シーン内のオブジェクトインスタンスのセットを予測し、対応するセマンティックラベルを持つバイナリフォアグラウンドマスクとして表現することを目的としている。
トランスをベースとした手法は、エレガントなパイプライン、幾何学的特性のマニュアル選択の削減、性能の向上などにより、注目を集めている。
- 参考スコア(独自算出の注目度): 33.58208166717537
- License:
- Abstract: 3D instance segmentation aims to predict a set of object instances in a scene and represent them as binary foreground masks with corresponding semantic labels. Currently, transformer-based methods are gaining increasing attention due to their elegant pipelines, reduced manual selection of geometric properties, and superior performance. However, transformer-based methods fail to simultaneously maintain strong position and content information during query initialization. Additionally, due to supervision at each decoder layer, there exists a phenomenon of object disappearance with the deepening of layers. To overcome these hurdles, we introduce Beyond the Final Layer: Hierarchical Query Fusion Transformer with Agent-Interpolation Initialization for 3D Instance Segmentation (BFL). Specifically, an Agent-Interpolation Initialization Module is designed to generate resilient queries capable of achieving a balance between foreground coverage and content learning. Additionally, a Hierarchical Query Fusion Decoder is designed to retain low overlap queries, mitigating the decrease in recall with the deepening of layers. Extensive experiments on ScanNetV2, ScanNet200, ScanNet++ and S3DIS datasets demonstrate the superior performance of BFL.
- Abstract(参考訳): 3Dインスタンスセグメンテーションは、シーン内のオブジェクトインスタンスのセットを予測し、対応するセマンティックラベルを持つバイナリフォアグラウンドマスクとして表現することを目的としている。
現在、トランスを用いた手法は、エレガントなパイプライン、幾何学的特性のマニュアル選択の削減、優れた性能のために注目が集まっている。
しかし、トランスフォーマーベースの手法は、クエリ初期化時に、強い位置とコンテンツ情報を同時に維持することができない。
さらに、デコーダの各レイヤの監視のため、レイヤの深化に伴うオブジェクトの消失という現象がある。
これらのハードルを克服するために、3Dインスタンスセグメンテーション(BFL)のためのエージェント補間初期化を備えた階層型クエリフュージョン変換器(Hierarchical Query Fusion Transformer)を紹介する。
具体的には、エージェント補間初期化モジュールは、前景のカバレッジとコンテンツ学習のバランスをとれる回復力のあるクエリを生成するように設計されている。
さらに階層型クエリFusion Decoderは、重複の少ないクエリを保持するように設計されており、レイヤの深化に伴うリコールの減少を軽減している。
ScanNetV2、ScanNet200、ScanNet++、S3DISデータセットに関する大規模な実験は、BFLの優れた性能を示している。
関連論文リスト
- SGIFormer: Semantic-guided and Geometric-enhanced Interleaving Transformer for 3D Instance Segmentation [14.214197948110115]
本稿では,SGIFormerという3次元インスタンスセグメンテーションのための新しい手法を提案する。
Semantic-Guided Mix Query (SMQ)とGeometric-enhanced Interleaving Transformer (GIT)デコーダで構成されている。
ScanNet V2、ScanNet200、そして挑戦的な高忠実度ScanNet++ベンチマークで最先端のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2024-07-16T10:17:28Z) - Mask-Attention-Free Transformer for 3D Instance Segmentation [68.29828726317723]
トランスフォーマーベースの手法は、マスクの注意が一般的に関与する3Dインスタンスセグメンテーションを支配している。
我々は、低リコール問題を克服し、位置対応を前提としたクロスアテンションを実現するために、一連の位置認識設計を開発する。
実験の結果,既存の作業よりも4倍早く収束し,ScanNetv2 3Dインスタンスセグメンテーションベンチマークに新たな技術状態を設定し,さまざまなデータセットで優れたパフォーマンスを示す。
論文 参考訳(メタデータ) (2023-09-04T16:09:28Z) - Spatial-Temporal Graph Enhanced DETR Towards Multi-Frame 3D Object Detection [54.041049052843604]
STEMDは,多フレーム3Dオブジェクト検出のためのDETRのようなパラダイムを改良した,新しいエンドツーエンドフレームワークである。
まず、オブジェクト間の空間的相互作用と複雑な時間的依存をモデル化するために、空間的時間的グラフアテンションネットワークを導入する。
最後に、ネットワークが正のクエリと、ベストマッチしない他の非常に類似したクエリを区別することが課題となる。
論文 参考訳(メタデータ) (2023-07-01T13:53:14Z) - OcTr: Octree-based Transformer for 3D Object Detection [30.335788698814444]
LiDARベースの3Dオブジェクト検出の重要な課題は、大規模な3Dシーンから十分な特徴をキャプチャすることだ。
我々はこの問題に対処するためにOcTrというOcreeベースのトランスフォーマーを提案する。
本研究では,前景の知覚性を高めるために,セマンティック・アウェアな位置埋め込みとアテンションマスクを組み合わせたハイブリッドな位置埋め込みを提案する。
論文 参考訳(メタデータ) (2023-03-22T15:01:20Z) - Segmenting Moving Objects via an Object-Centric Layered Representation [100.26138772664811]
深層表現を用いたオブジェクト中心セグメンテーションモデルを提案する。
複数のオブジェクトで合成トレーニングデータを生成するスケーラブルなパイプラインを導入する。
標準的なビデオセグメンテーションベンチマークでモデルを評価する。
論文 参考訳(メタデータ) (2022-07-05T17:59:43Z) - Learning Local Displacements for Point Cloud Completion [93.54286830844134]
本稿では,3次元点雲として表現された部分的スキャンからオブジェクトとセマンティックシーンを補完する手法を提案する。
アーキテクチャはエンコーダ-デコーダ構造内で連続的に使用される3つの新しいレイヤに依存している。
オブジェクトと屋内の両方のシーン完了タスクにおけるアーキテクチャの評価を行い、最先端の性能を実現する。
論文 参考訳(メタデータ) (2022-03-30T18:31:37Z) - TriTransNet: RGB-D Salient Object Detection with a Triplet Transformer
Embedding Network [18.910883028990998]
マルチレベル機能を強化するために,三重変圧器の組込みモジュールを提案する。
マルチレベル機能を強化するために、共有重みを持つ3つのトランスフォーマーエンコーダを使った最初のものである。
提案する三重変圧器埋込ネットワーク(TriTransNet)は,RGB-Dサリアンオブジェクト検出における最先端性能を実現する。
論文 参考訳(メタデータ) (2021-08-09T12:42:56Z) - Unifying Global-Local Representations in Salient Object Detection with Transformer [55.23033277636774]
我々は、視覚変換器という新しいアテンションベースのエンコーダを有能な物体検出に導入する。
非常に浅い層でのグローバルビューでは、トランスフォーマーエンコーダはより局所的な表現を保持する。
提案手法は,5つのベンチマークにおいて,他のFCN法およびトランスフォーマー法よりも優れていた。
論文 参考訳(メタデータ) (2021-08-05T17:51:32Z) - DyCo3D: Robust Instance Segmentation of 3D Point Clouds through Dynamic
Convolution [136.7261709896713]
本稿では,インスタンスの性質に応じて適切な畳み込みカーネルを生成するデータ駆動型アプローチを提案する。
提案手法はScanetNetV2とS3DISの両方で有望な結果が得られる。
また、現在の最先端よりも推論速度を25%以上向上させる。
論文 参考訳(メタデータ) (2020-11-26T14:56:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。