論文の概要: DepthFormer: Multimodal Positional Encodings and Cross-Input Attention
for Transformer-Based Segmentation Networks
- arxiv url: http://arxiv.org/abs/2211.04188v2
- Date: Mon, 27 Mar 2023 12:54:49 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-29 01:59:03.344316
- Title: DepthFormer: Multimodal Positional Encodings and Cross-Input Attention
for Transformer-Based Segmentation Networks
- Title(参考訳): depthformer : トランスフォーマリンセグメンテーションネットワークにおけるマルチモーダル位置符号化とクロス入力注意
- Authors: Francesco Barbato, Giulia Rizzoli, Pietro Zanuttigh
- Abstract要約: セグメンテーションタスクで最先端のパフォーマンスを達成したトランスフォーマーベースのディープラーニングアーキテクチャに焦点をあてる。
位置エンコーディングに埋め込んで深度情報を活用することを提案する。
私たちのアプローチは、Cityscapesベンチマークのパフォーマンスを継続的に改善します。
- 参考スコア(独自算出の注目度): 13.858051019755283
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Most approaches for semantic segmentation use only information from color
cameras to parse the scenes, yet recent advancements show that using depth data
allows to further improve performances. In this work, we focus on
transformer-based deep learning architectures, that have achieved
state-of-the-art performances on the segmentation task, and we propose to
employ depth information by embedding it in the positional encoding.
Effectively, we extend the network to multimodal data without adding any
parameters and in a natural way that makes use of the strength of transformers'
self-attention modules. We also investigate the idea of performing
cross-modality operations inside the attention module, swapping the key inputs
between the depth and color branches. Our approach consistently improves
performances on the Cityscapes benchmark.
- Abstract(参考訳): セマンティックセグメンテーションのアプローチのほとんどは、シーンを解析するためにカラーカメラの情報のみを使用するが、最近の進歩は、深度データを使用することによってパフォーマンスがさらに向上することを示している。
本研究では,このセグメンテーションタスクにおける最先端性能を実現したトランスフォーマーに基づくディープラーニングアーキテクチャに着目し,位置エンコーディングに組み込んで深度情報を活用することを提案する。
効率的にネットワークをマルチモーダルデータに拡張し,パラメータを付加することなく,トランスフォーマーの自己アテンションモジュールの強みを生かした自然な手法で拡張する。
また,アテンションモジュール内でクロスモダリティ操作を行い,奥行きとカラーブランチ間のキー入力を交換する考え方についても検討した。
私たちのアプローチは、Cityscapesベンチマークのパフォーマンスを継続的に改善します。
関連論文リスト
- SDformer: Efficient End-to-End Transformer for Depth Completion [5.864200786548098]
深度完了は、深度センサからの疎度測定で深度マップを予測することを目的としている。
現在、畳み込みニューラルネットワーク(CNN)ベースのモデルは、深度補完タスクに適用される最も一般的な手法である。
CNNの欠点を克服するため、適応型自己アテンション設定シーケンス・ツー・シーケンスモデルである、より効果的で強力な手法が提案されている。
論文 参考訳(メタデータ) (2024-09-12T15:52:08Z) - ParaTransCNN: Parallelized TransCNN Encoder for Medical Image
Segmentation [7.955518153976858]
本稿では,畳み込みニューラルネットワークとトランスフォーマーアーキテクチャを組み合わせた2次元特徴抽出手法を提案する。
特に小臓器では, セグメンテーションの精度が向上した。
論文 参考訳(メタデータ) (2024-01-27T05:58:36Z) - Optimizing rgb-d semantic segmentation through multi-modal interaction
and pooling attention [5.518612382697244]
マルチモーダルインタラクションとプールアテンションネットワーク(MIPANet)は,RGBと奥行きモダリティの相互相乗効果を利用するように設計されている。
エンコーダの様々な段階でプール注意モジュール(PAM)を導入する。
このモジュールは、ネットワークによって抽出された機能を増幅し、モジュールの出力をデコーダに統合する。
論文 参考訳(メタデータ) (2023-11-19T12:25:59Z) - Source-Free Domain Adaptation for RGB-D Semantic Segmentation with
Vision Transformers [11.13182313760599]
MultImodal Source-Free Information fusion Transformer - ソースフリーセマンティックセマンティックセグメンテーションのための奥行き認識フレームワーク。
我々のフレームワークは、RGB-D視覚変換器をソースフリーセマンティックセグメンテーションに利用する最初のアプローチであり、顕著な性能向上を示している。
論文 参考訳(メタデータ) (2023-05-23T17:20:47Z) - Dual Swin-Transformer based Mutual Interactive Network for RGB-D Salient
Object Detection [67.33924278729903]
本研究では,Dual Swin-Transformerを用いたMutual Interactive Networkを提案する。
視覚入力における長距離依存をモデル化するために,RGBと奥行きモードの両方の機能抽出器としてSwin-Transformerを採用している。
5つの標準RGB-D SODベンチマークデータセットに関する総合的な実験は、提案手法の優位性を実証している。
論文 参考訳(メタデータ) (2022-06-07T08:35:41Z) - SeMask: Semantically Masked Transformers for Semantic Segmentation [10.15763397352378]
SeMaskは、セマンティックアテンション操作の助けを借りて、セマンティック情報をエンコーダに組み込むフレームワークである。
我々のフレームワークはADE20Kデータセットで58.22% mIoUの新たな最先端を実現し、CityscapesデータセットではmIoUメトリックで3%以上の改善を実現している。
論文 参考訳(メタデータ) (2021-12-23T18:56:02Z) - LAVT: Language-Aware Vision Transformer for Referring Image Segmentation [80.54244087314025]
視覚トランスフォーマーエンコーダネットワークにおいて,言語的特徴と視覚的特徴を早期に融合することにより,より優れたモーダルアライメントを実現することができることを示す。
提案手法は,RefCOCO,RefCO+,G-Refの従来の最先端手法を大きなマージンで上回っている。
論文 参考訳(メタデータ) (2021-12-04T04:53:35Z) - Less is More: Pay Less Attention in Vision Transformers [61.05787583247392]
注意の少ないvIsion Transformerは、畳み込み、完全接続層、自己アテンションが、画像パッチシーケンスを処理するためにほぼ同等な数学的表現を持つという事実に基づいている。
提案したLITは、画像分類、オブジェクト検出、インスタンス分割を含む画像認識タスクにおいて有望な性能を達成する。
論文 参考訳(メタデータ) (2021-05-29T05:26:07Z) - Segmenter: Transformer for Semantic Segmentation [79.9887988699159]
セマンティックセグメンテーションのためのトランスフォーマーモデルであるSegmenterを紹介します。
最近のViT(Vision Transformer)上に構築し,セマンティックセグメンテーションに拡張する。
これは、挑戦的なADE20Kデータセット上でのアートの状態を上回り、Pascal ContextとCityscapesでオンパーを実行する。
論文 参考訳(メタデータ) (2021-05-12T13:01:44Z) - Encoder Fusion Network with Co-Attention Embedding for Referring Image
Segmentation [87.01669173673288]
本稿では,視覚的エンコーダをマルチモーダルな特徴学習ネットワークに変換するエンコーダ融合ネットワーク(EFN)を提案する。
EFNには、マルチモーダル機能の並列更新を実現するコアテンションメカニズムが組み込まれている。
4つのベンチマークデータセットによる実験結果から,提案手法がポストプロセッシングを伴わずに最先端の性能を実現することを示す。
論文 参考訳(メタデータ) (2021-05-05T02:27:25Z) - Beyond Single Stage Encoder-Decoder Networks: Deep Decoders for Semantic
Image Segmentation [56.44853893149365]
セマンティックセグメンテーションのための単一エンコーダ-デコーダ手法は、セマンティックセグメンテーションの品質とレイヤー数あたりの効率の観点からピークに達している。
そこで本研究では,より多くの情報コンテンツを取得するために,浅層ネットワークの集合を用いたデコーダに基づく新しいアーキテクチャを提案する。
アーキテクチャをさらに改善するために,ネットワークの注目度を高めるために,クラスの再バランスを目的とした重み関数を導入する。
論文 参考訳(メタデータ) (2020-07-19T18:44:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。