論文の概要: PSFormer: Point Transformer for 3D Salient Object Detection
- arxiv url: http://arxiv.org/abs/2210.15933v1
- Date: Fri, 28 Oct 2022 06:34:28 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-31 16:26:17.922367
- Title: PSFormer: Point Transformer for 3D Salient Object Detection
- Title(参考訳): psformer:3dサルエント物体検出のためのポイントトランスフォーマ
- Authors: Baian Chen, Lipeng Gu, Xin Zhuang, Yiyang Shen, Weiming Wang,
Mingqiang Wei
- Abstract要約: PSFormerはエンコーダとデコーダのネットワークであり、コンテクスト情報をモデル化するためにトランスフォーマーを最大限に活用する。
エンコーダではポイントコンテキスト変換器(PCT)モジュールを開発し、ポイントレベルでの領域コンテキストの特徴をキャプチャする。
デコーダでは,シーンレベルでコンテキスト表現を学習するためのSCT (Scene Context Transformer) モジュールを開発した。
- 参考スコア(独自算出の注目度): 8.621996554264275
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose PSFormer, an effective point transformer model for 3D salient
object detection. PSFormer is an encoder-decoder network that takes full
advantage of transformers to model the contextual information in both
multi-scale point- and scene-wise manners. In the encoder, we develop a Point
Context Transformer (PCT) module to capture region contextual features at the
point level; PCT contains two different transformers to excavate the
relationship among points. In the decoder, we develop a Scene Context
Transformer (SCT) module to learn context representations at the scene level;
SCT contains both Upsampling-and-Transformer blocks and Multi-context
Aggregation units to integrate the global semantic and multi-level features
from the encoder into the global scene context. Experiments show clear
improvements of PSFormer over its competitors and validate that PSFormer is
more robust to challenging cases such as small objects, multiple objects, and
objects with complex structures.
- Abstract(参考訳): 本稿では,3次元サルエント物体検出のための効果的な点変換モデルpsformerを提案する。
PSFormerはエンコーダ・デコーダネットワークであり、トランスフォーマーの利点をフル活用して、マルチスケールのポイントワイドとシーンワイドの両方でコンテキスト情報をモデル化する。
エンコーダでは、ポイントレベルにおける領域的文脈特徴をキャプチャするポイントコンテキストトランスフォーマ(pct)モジュールを開発し、pctはポイント間の関係を掘り下げるために2つの異なるトランスフォーマを含んでいる。
このデコーダでは、シーンレベルでコンテキスト表現を学習するScene Context Transformer (SCT) モジュールを開発し、SCTには、エンコーダからグローバルなセマンティクスとマルチレベルの機能をグローバルなシーンコンテキストに統合するためのupsampling-and-TransformerブロックとMulti-context Aggregationユニットの両方が含まれている。
実験の結果、PSFormerは競合製品よりも明らかに改善されており、PSFormerは、小さなオブジェクト、複数のオブジェクト、複雑な構造を持つオブジェクトといった課題に対してより堅牢であることを示す。
関連論文リスト
- Isomer: Isomerous Transformer for Zero-shot Video Object Segmentation [59.91357714415056]
コンテクスト共有変換器(CST)とセマンティックガザリング散乱変換器(SGST)の2つの変種を提案する。
CSTは、軽量な計算により、画像フレーム内のグローバル共有コンテキスト情報を学習し、SGSTは、前景と背景のセマンティック相関を別々にモデル化する。
多段核融合にバニラ変換器を使用するベースラインと比較して,我々は13倍の速度向上を実現し,新しい最先端ZVOS性能を実現する。
論文 参考訳(メタデータ) (2023-08-13T06:12:00Z) - PSVT: End-to-End Multi-person 3D Pose and Shape Estimation with
Progressive Video Transformers [71.72888202522644]
本稿では,プログレッシブ・ビデオ・トランスフォーマーを用いたエンドツーエンドのマルチパーソン3D・形状推定フレームワークを提案する。
PSVTでは、時空間エンコーダ(PGA)は空間オブジェクト間のグローバルな特徴依存性をキャプチャする。
時間の経過とともにオブジェクトの分散を処理するために、プログレッシブデコーディングの新しいスキームが使用される。
論文 参考訳(メタデータ) (2023-03-16T09:55:43Z) - Pix4Point: Image Pretrained Standard Transformers for 3D Point Cloud
Understanding [62.502694656615496]
本稿では、プログレッシブ・ポイント・パッチ・エンベディングと、PViTと呼ばれる新しいポイント・クラウド・トランスフォーマーモデルを提案する。
PViTはTransformerと同じバックボーンを共有しているが、データに対して空腹が少ないことが示されており、Transformerは最先端技術に匹敵するパフォーマンスを実現することができる。
我々は、イメージ領域で事前訓練されたトランスフォーマーを活用して、下流のクラウド理解を強化する、シンプルで効果的なパイプライン「Pix4Point」を定式化します。
論文 参考訳(メタデータ) (2022-08-25T17:59:29Z) - EDTER: Edge Detection with Transformer [71.83960813880843]
本研究では,新しいトランスを用いたエッジ検出器であるemphEdge Detection TransformER (EDTER)を提案し,透明でクリップなオブジェクト境界と有意義なエッジを抽出する。
EDTERは画像コンテキスト情報と詳細なローカルキューを同時に利用する。
BSDS500、NYUDv2、Multicueの実験は、最先端技術と比較してEDTERの優位性を実証している。
論文 参考訳(メタデータ) (2022-03-16T11:55:55Z) - 6D-ViT: Category-Level 6D Object Pose Estimation via Transformer-based
Instance Representation Learning [0.0]
6D-ViTはトランスフォーマーベースのインスタンス表現学習ネットワークである。
RGB-D画像の高精度なカテゴリレベルのオブジェクトポーズ推定に適している。
論文 参考訳(メタデータ) (2021-10-10T13:34:16Z) - PnP-DETR: Towards Efficient Visual Analysis with Transformers [146.55679348493587]
近年、DeTRはトランスフォーマーを用いたソリューションビジョンタスクの先駆者であり、画像特徴マップを直接オブジェクト結果に変換する。
最近の変圧器を用いた画像認識モデルとTTは、一貫した効率向上を示す。
論文 参考訳(メタデータ) (2021-09-15T01:10:30Z) - Fully Transformer Networks for Semantic ImageSegmentation [26.037770622551882]
エンコーダデコーダをベースとしたFully Transformer Networks (FTN) を用いた意味的イメージセグメンテーションのための新しいフレームワークについて検討する。
階層的特徴を段階的に学習するエンコーダとして、標準視覚変換器(ViT)の計算複雑性を低減しつつ、ピラミッド群変換器(PGT)を提案する。
次に,セマンティックイメージセグメンテーションのためのPGTエンコーダの複数レベルから意味レベルと空間レベル情報を融合する特徴ピラミッドトランス (FPT) を提案する。
論文 参考訳(メタデータ) (2021-06-08T05:15:28Z) - Point Cloud Learning with Transformer [2.3204178451683264]
我々は,マルチレベルマルチスケールポイントトランスフォーマ(mlmspt)と呼ばれる新しいフレームワークを提案する。
具体的には、点ピラミッド変換器を用いて、多様な分解能やスケールを持つ特徴をモデル化する。
マルチレベルトランスモジュールは、各スケールの異なるレベルからコンテキスト情報を集約し、それらの相互作用を強化するように設計されている。
論文 参考訳(メタデータ) (2021-04-28T08:39:21Z) - 3D Object Detection with Pointformer [29.935891419574602]
本稿では,3dポイントクラウドのためのトランスフォーマーバックボーンであるpointformerを提案する。
ローカルトランスフォーマーモジュールは、オブジェクトレベルでコンテキスト依存の領域特徴を学習するローカル領域のポイント間の相互作用をモデル化するために使用される。
Global Transformerは、シーンレベルでコンテキスト対応の表現を学ぶように設計されている。
論文 参考訳(メタデータ) (2020-12-21T15:12:54Z) - Feature Pyramid Transformer [121.50066435635118]
我々は、FPT(Feature Pyramid Transformer)と呼ばれる、空間とスケールの双方で完全にアクティブな特徴相互作用を提案する。
FPTは任意の特徴ピラミッドを同じ大きさの他の特徴ピラミッドに変換するが、よりリッチなコンテキストを持つ。
我々は、インスタンスレベル(オブジェクト検出とインスタンスセグメンテーション)とピクセルレベルのセグメンテーションタスクの両方で広範な実験を行う。
論文 参考訳(メタデータ) (2020-07-18T15:16:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。