論文の概要: GroupTransNet: Group Transformer Network for RGB-D Salient Object
Detection
- arxiv url: http://arxiv.org/abs/2203.10785v1
- Date: Mon, 21 Mar 2022 08:00:16 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-22 17:31:02.857628
- Title: GroupTransNet: Group Transformer Network for RGB-D Salient Object
Detection
- Title(参考訳): GroupTransNet: RGB-D Salient Object Detectionのためのグループトランスフォーマネットワーク
- Authors: Xian Fang, Jinshao Zhu, Xiuli Shao, Hongpeng Wang
- Abstract要約: 本稿では,RGB-D有向物体検出のためのグループトランスフォーマーネットワーク(GroupTransNet)を提案する。
GroupTransNetは、クロスレイヤ機能の長距離依存関係を学ぶのが得意です。
実験により、GroupTransNetは比較モデルより優れていることが示された。
- 参考スコア(独自算出の注目度): 5.876499671899904
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Salient object detection on RGB-D images is an active topic in computer
vision. Although the existing methods have achieved appreciable performance,
there are still some challenges. The locality of convolutional neural network
requires that the model has a sufficiently deep global receptive field, which
always leads to the loss of local details. To address the challenge, we propose
a novel Group Transformer Network (GroupTransNet) for RGB-D salient object
detection. This method is good at learning the long-range dependencies of cross
layer features to promote more perfect feature expression. At the beginning,
the features of the slightly higher classes of the middle three levels and the
latter three levels are soft grouped to absorb the advantages of the high-level
features. The input features are repeatedly purified and enhanced by the
attention mechanism to purify the cross modal features of color modal and depth
modal. The features of the intermediate process are first fused by the features
of different layers, and then processed by several transformers in multiple
groups, which not only makes the size of the features of each scale unified and
interrelated, but also achieves the effect of sharing the weight of the
features within the group. The output features in different groups complete the
clustering staggered by two owing to the level difference, and combine with the
low-level features. Extensive experiments demonstrate that GroupTransNet
outperforms the comparison models and achieves the new state-of-the-art
performance.
- Abstract(参考訳): RGB-D画像上の有能な物体検出はコンピュータビジョンにおいて活発なトピックである。
既存の手法は高い性能を達成したが、まだいくつかの課題がある。
畳み込みニューラルネットワークの局所性は、モデルが十分な大域的受容野を持つことを必要とし、常に局所的な詳細が失われる。
そこで本研究では,rgb-dサルエント物体検出のためのグループトランスフォーマーネットワーク(grouptransnet)を提案する。
この手法は, クロスレイヤ機能の長距離依存性を学習して, より完璧な特徴表現を促進するのに有効である。
はじめに、中間3段階と後半3段階のわずかに高いクラスの特徴はソフトグループ化され、上位3段階の特徴の利点を吸収する。
色モードと深さモードのクロスモーダル特徴を純化するために注意機構により、入力特徴を反復的に純化・強化する。
中間プロセスの特徴は、まず異なる層の特徴によって融合され、次に複数のグループの変換器によって処理される。これは各スケールの特徴のサイズを統一し、相互に関連付けるだけでなく、グループ内の特徴の重みを共有する効果も達成する。
異なるグループにおける出力特徴は、レベル差によって2つにスタガーされたクラスタリングを完了させ、低レベル特徴を組み合わせる。
大規模な実験により、GroupTransNetは比較モデルより優れ、新しい最先端のパフォーマンスを達成することが示された。
関連論文リスト
- Salient Object Detection in Optical Remote Sensing Images Driven by
Transformer [69.22039680783124]
光リモートセンシング画像(ORSI-SOD)のためのGlobal extract Local Exploration Network(GeleNet)を提案する。
具体的には、GeleNetはまずトランスフォーマーバックボーンを採用し、グローバルな長距離依存関係を持つ4レベルの機能埋め込みを生成する。
3つの公開データセットに関する大規模な実験は、提案されたGeleNetが関連する最先端メソッドより優れていることを示している。
論文 参考訳(メタデータ) (2023-09-15T07:14:43Z) - Part-guided Relational Transformers for Fine-grained Visual Recognition [59.20531172172135]
識別的特徴を学習し,特徴変換モジュールとの相関関係を探索するフレームワークを提案する。
提案手法は,3-of-the-levelオブジェクト認識において,部分ブランチの追加に頼らず,最先端の性能に達する。
論文 参考訳(メタデータ) (2022-12-28T03:45:56Z) - Semantic Labeling of High Resolution Images Using EfficientUNets and
Transformers [5.177947445379688]
畳み込みニューラルネットワークとディープトランスを組み合わせた新しいセグメンテーションモデルを提案する。
提案手法は,最先端技術と比較してセグメント化精度が向上することを示す。
論文 参考訳(メタデータ) (2022-06-20T12:03:54Z) - Dual Swin-Transformer based Mutual Interactive Network for RGB-D Salient
Object Detection [67.33924278729903]
本研究では,Dual Swin-Transformerを用いたMutual Interactive Networkを提案する。
視覚入力における長距離依存をモデル化するために,RGBと奥行きモードの両方の機能抽出器としてSwin-Transformerを採用している。
5つの標準RGB-D SODベンチマークデータセットに関する総合的な実験は、提案手法の優位性を実証している。
論文 参考訳(メタデータ) (2022-06-07T08:35:41Z) - SwinNet: Swin Transformer drives edge-aware RGB-D and RGB-T salient
object detection [12.126413875108993]
本稿では,RGB-D と RGB-T の有向物体検出のための相互モード融合モデル SwinNet を提案する。
提案モデルは,RGB-DデータセットとRGB-Tデータセットの最先端モデルより優れている。
論文 参考訳(メタデータ) (2022-04-12T07:37:39Z) - Multi-scale and Cross-scale Contrastive Learning for Semantic
Segmentation [5.281694565226513]
セグメンテーションネットワークによって抽出されたマルチスケール特徴の識別能力を高めるために,コントラスト学習を適用した。
まず、エンコーダのマルチスケール表現を共通の特徴空間にマッピングすることにより、教師付き局所言語制約の新しい形式をインスタンス化する。
論文 参考訳(メタデータ) (2022-03-25T01:24:24Z) - TriTransNet: RGB-D Salient Object Detection with a Triplet Transformer
Embedding Network [18.910883028990998]
マルチレベル機能を強化するために,三重変圧器の組込みモジュールを提案する。
マルチレベル機能を強化するために、共有重みを持つ3つのトランスフォーマーエンコーダを使った最初のものである。
提案する三重変圧器埋込ネットワーク(TriTransNet)は,RGB-Dサリアンオブジェクト検出における最先端性能を実現する。
論文 参考訳(メタデータ) (2021-08-09T12:42:56Z) - Conformer: Local Features Coupling Global Representations for Visual
Recognition [72.9550481476101]
本稿では,畳み込み操作と自己アテンション機構を利用した表現学習のためのハイブリッドネットワーク構造,conformerを提案する。
実験では、コンフォーマーが同等のパラメータ複雑性の下で視覚変換器(DeiT-B)を2.3%上回ることが示されている。
論文 参考訳(メタデータ) (2021-05-09T10:00:03Z) - Multi-scale Interactive Network for Salient Object Detection [91.43066633305662]
本稿では,隣接レベルからの機能を統合するためのアグリゲート・インタラクション・モジュールを提案する。
より効率的なマルチスケール機能を得るために、各デコーダユニットに自己相互作用モジュールを埋め込む。
5つのベンチマークデータセットによる実験結果から,提案手法は後処理を一切行わず,23の最先端手法に対して良好に動作することが示された。
論文 参考訳(メタデータ) (2020-07-17T15:41:37Z) - Bifurcated backbone strategy for RGB-D salient object detection [168.19708737906618]
我々は、RGB-Dの高次物体検出に固有のマルチモーダル・マルチレベルの性質を活用して、新しいカスケードリファインメントネットワークを考案する。
アーキテクチャは Bifurcated Backbone Strategy Network (BBS-Net) と呼ばれ、シンプルで効率的でバックボーンに依存しない。
論文 参考訳(メタデータ) (2020-07-06T13:01:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。