論文の概要: A Convolutional Vision Transformer for Semantic Segmentation of
Side-Scan Sonar Data
- arxiv url: http://arxiv.org/abs/2302.12416v1
- Date: Fri, 24 Feb 2023 02:44:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-27 14:52:43.366143
- Title: A Convolutional Vision Transformer for Semantic Segmentation of
Side-Scan Sonar Data
- Title(参考訳): サイドスキャンソナーデータのセマンティックセグメンテーションのための畳み込み視覚変換器
- Authors: Hayat Rajani and Nuno Gracias and Rafael Garcia
- Abstract要約: エンコーダ・デコーダ・フレームワークにおける視覚変換器(ViT)を応用した新しいアーキテクチャを提案する。
CNNのような誘導バイアスの欠如を克服するため,新しい特徴抽出モジュールを提案する。
我々は最先端の計算結果を達成し、リアルタイムの計算要求を満たす。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Distinguishing among different marine benthic habitat characteristics is of
key importance in a wide set of seabed operations ranging from installations of
oil rigs to laying networks of cables and monitoring the impact of humans on
marine ecosystems. The Side-Scan Sonar (SSS) is a widely used imaging sensor in
this regard. It produces high-resolution seafloor maps by logging the
intensities of sound waves reflected back from the seafloor. In this work, we
leverage these acoustic intensity maps to produce pixel-wise categorization of
different seafloor types. We propose a novel architecture adapted from the
Vision Transformer (ViT) in an encoder-decoder framework. Further, in doing so,
the applicability of ViTs is evaluated on smaller datasets. To overcome the
lack of CNN-like inductive biases, thereby making ViTs more conducive to
applications in low data regimes, we propose a novel feature extraction module
to replace the Multi-layer Perceptron (MLP) block within transformer layers and
a novel module to extract multiscale patch embeddings. A lightweight decoder is
also proposed to complement this design in order to further boost multiscale
feature extraction. With the modified architecture, we achieve state-of-the-art
results and also meet real-time computational requirements. We make our code
available at ~\url{https://github.com/hayatrajani/s3seg-vit
- Abstract(参考訳): 異なる海洋底生生物の生息地の特徴を区別することは、石油掘削装置の設置からケーブルの敷設、海洋生態系への影響の監視まで幅広い海底操作において重要な意味を持つ。
Side-Scan Sonar (SSS)は、この点において広く使われている画像センサである。
海底から反射する音波の強度を検層し、高解像度の海底地図を生成する。
本研究では,これらの音響強度マップを利用して,異なる海底タイプの画素ワイド分類を行う。
エンコーダ・デコーダ・フレームワークにおける視覚変換器(ViT)を応用した新しいアーキテクチャを提案する。
さらに、より小さなデータセットに対して、ViTsの適用性を評価する。
cnnライクなインダクティブバイアスの欠如を克服し、低データ環境におけるアプリケーションへのvitsの誘導性を高めるために、トランスフォーマレイヤ内のマルチレイヤ・パーセプトロン(mlp)ブロックを置き換えるための新しい特徴抽出モジュールと、マルチスケール・パッチ埋め込みを抽出する新しいモジュールを提案する。
マルチスケール特徴抽出をさらに促進するために、この設計を補完する軽量デコーダも提案されている。
アーキテクチャの変更により、最先端の結果が得られ、リアルタイムの計算要求を満たす。
コードは~\url{https://github.com/hayatrajani/s3seg-vitで利用可能です。
関連論文リスト
- On Vision Transformers for Classification Tasks in Side-Scan Sonar Imagery [0.0]
サイドスキャンソナー (SSS) 画像は海底の人工物体の分類においてユニークな課題を呈している。
本稿では、SSS画像のバイナリ分類タスクによく使用されるCNNアーキテクチャとともに、VTモデルの性能を厳格に比較する。
ViTベースのモデルは、f1スコア、精度、リコール、精度の指標で優れた分類性能を示す。
論文 参考訳(メタデータ) (2024-09-18T14:36:50Z) - A Hybrid Transformer-Mamba Network for Single Image Deraining [70.64069487982916]
既存のデラリング変換器では、固定レンジウィンドウやチャネル次元に沿って自己アテンション機構を採用している。
本稿では,多分岐型トランスフォーマー・マンバネットワーク(Transformer-Mamba Network,TransMamba Network,Transformer-Mamba Network)を提案する。
論文 参考訳(メタデータ) (2024-08-31T10:03:19Z) - CT-MVSNet: Efficient Multi-View Stereo with Cross-scale Transformer [8.962657021133925]
クロススケールトランス(CT)プロセスは、追加計算なしで異なる段階の表現を特徴付ける。
複数のスケールで異なる対話型アテンションの組み合わせを利用する適応型マッチング認識変換器(AMT)を導入する。
また、より細かなコストボリューム構成に大まかにグローバルな意味情報を埋め込む2機能ガイドアグリゲーション(DFGA)も提案する。
論文 参考訳(メタデータ) (2023-12-14T01:33:18Z) - Minimalist and High-Performance Semantic Segmentation with Plain Vision
Transformers [10.72362704573323]
トランス層に加えて,3$Times$3の畳み込みのみで構成されるモデルであるPlainSegを導入する。
また,階層的特徴の活用を可能にするPlainSeg-Hierを提案する。
論文 参考訳(メタデータ) (2023-10-19T14:01:40Z) - Feature Shrinkage Pyramid for Camouflaged Object Detection with
Transformers [34.42710399235461]
視覚変換器は、最近、擬似的オブジェクト検出において、強いグローバルなコンテキストモデリング能力を示した。
ローカリティモデリングの効率の低下とデコーダの機能集約の不足という2つの大きな制限に悩まされている。
本研究では, 局所性向上した隣接する変圧器の特徴を階層的に復号化することを目的とした, 変圧器をベースとしたFSPNet(Feature Shrinkage Pyramid Network)を提案する。
論文 参考訳(メタデータ) (2023-03-26T20:50:58Z) - Dynamic Grained Encoder for Vision Transformers [150.02797954201424]
本稿では,自然画像の空間的冗長性を生かした視覚変換器のスパースクエリを提案する。
本研究では,各空間領域に適切なクエリ数を適応的に割り当てる動的変換器を提案する。
我々のエンコーダにより、最先端のビジョン変換器は、画像分類において同等の性能を維持しながら、計算複雑性を40%から60%削減できる。
論文 参考訳(メタデータ) (2023-01-10T07:55:29Z) - Depthformer : Multiscale Vision Transformer For Monocular Depth
Estimation With Local Global Information Fusion [6.491470878214977]
本稿では,屋内のNYUV2データセットと屋外のKITTIデータセットの深度推定のためのトランスフォーマーベースモデルをベンチマークする。
単眼深度推定のための新しいアテンションベースアーキテクチャDepthformerを提案する。
提案手法は,屋根平均正方形誤差(RMSE)でそれぞれ3.3%,3.3%改善する。
論文 参考訳(メタデータ) (2022-07-10T20:49:11Z) - PnP-DETR: Towards Efficient Visual Analysis with Transformers [146.55679348493587]
近年、DeTRはトランスフォーマーを用いたソリューションビジョンタスクの先駆者であり、画像特徴マップを直接オブジェクト結果に変換する。
最近の変圧器を用いた画像認識モデルとTTは、一貫した効率向上を示す。
論文 参考訳(メタデータ) (2021-09-15T01:10:30Z) - Unifying Global-Local Representations in Salient Object Detection with Transformer [55.23033277636774]
我々は、視覚変換器という新しいアテンションベースのエンコーダを有能な物体検出に導入する。
非常に浅い層でのグローバルビューでは、トランスフォーマーエンコーダはより局所的な表現を保持する。
提案手法は,5つのベンチマークにおいて,他のFCN法およびトランスフォーマー法よりも優れていた。
論文 参考訳(メタデータ) (2021-08-05T17:51:32Z) - Multiscale Vision Transformers [79.76412415996892]
本稿では,マルチスケール特徴階層をトランスフォーマモデルに結びつけることで,映像・画像認識のためのマルチスケールビジョントランス (MViT) を提案する。
我々は,視覚信号の密集性を様々な映像認識タスクでモデル化するために,この基本アーキテクチャの事前評価を行う。
論文 参考訳(メタデータ) (2021-04-22T17:59:45Z) - Transformers Solve the Limited Receptive Field for Monocular Depth
Prediction [82.90445525977904]
畳み込みニューラルネットワークとトランスの両方の恩恵を受けるアーキテクチャであるTransDepthを提案します。
連続ラベルを含む画素単位での予測問題にトランスフォーマーを適用する最初の論文である。
論文 参考訳(メタデータ) (2021-03-22T18:00:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。