論文の概要: VST++: Efficient and Stronger Visual Saliency Transformer
- arxiv url: http://arxiv.org/abs/2310.11725v2
- Date: Thu, 11 Apr 2024 08:11:20 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-12 19:08:26.508131
- Title: VST++: Efficient and Stronger Visual Saliency Transformer
- Title(参考訳): VST++: 効率的で強力なビジュアルサリエンシ変換器
- Authors: Nian Liu, Ziyang Luo, Ni Zhang, Junwei Han,
- Abstract要約: 我々は,グローバルな長距離依存関係を探索する,効率的で強力なVST++モデルを開発した。
我々は、RGB、RGB-D、RGB-T SODベンチマークデータセット上で、トランスフォーマーベースのバックボーンにまたがってモデルを評価した。
- 参考スコア(独自算出の注目度): 74.26078624363274
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While previous CNN-based models have exhibited promising results for salient object detection (SOD), their ability to explore global long-range dependencies is restricted. Our previous work, the Visual Saliency Transformer (VST), addressed this constraint from a transformer-based sequence-to-sequence perspective, to unify RGB and RGB-D SOD. In VST, we developed a multi-task transformer decoder that concurrently predicts saliency and boundary outcomes in a pure transformer architecture. Moreover, we introduced a novel token upsampling method called reverse T2T for predicting a high-resolution saliency map effortlessly within transformer-based structures. Building upon the VST model, we further propose an efficient and stronger VST version in this work, i.e. VST++. To mitigate the computational costs of the VST model, we propose a Select-Integrate Attention (SIA) module, partitioning foreground into fine-grained segments and aggregating background information into a single coarse-grained token. To incorporate 3D depth information with low cost, we design a novel depth position encoding method tailored for depth maps. Furthermore, we introduce a token-supervised prediction loss to provide straightforward guidance for the task-related tokens. We evaluate our VST++ model across various transformer-based backbones on RGB, RGB-D, and RGB-T SOD benchmark datasets. Experimental results show that our model outperforms existing methods while achieving a 25% reduction in computational costs without significant performance compromise. The demonstrated strong ability for generalization, enhanced performance, and heightened efficiency of our VST++ model highlight its potential.
- Abstract(参考訳): 従来のCNNベースのモデルでは、サルエントオブジェクト検出(SOD)の有望な結果を示しているが、グローバルな長距離依存関係を探索する能力は制限されている。
我々の以前の研究であるVisual Saliency Transformer (VST)は、RGBとRGB-D SODを統合するために、トランスフォーマに基づくシーケンス・ツー・シーケンスの観点からこの制約に対処した。
VSTでは、純粋なトランスアーキテクチャにおいて、サリエンシとバウンダリ結果の同時予測を行うマルチタスクトランスフォーマーデコーダを開発した。
さらに, 逆T2Tと呼ばれる新しいトークンアップサンプリング手法を導入し, トランスフォーマー構造内における高分解能サリエンシマップの予測を行った。
VSTモデルに基づいて、この作業においてより効率的で強力なVSTバージョン、すなわちVST++を提案する。
VSTモデルの計算コストを軽減するため,Select-Integrate Attention (SIA)モジュールを提案し,前景を細かなセグメントに分割し,背景情報を粗いトークンに集約する。
低コストで3次元深度情報を組み込むために,深度マップに適した新しい深度位置符号化法を設計する。
さらに,タスク関連トークンの簡単なガイダンスを提供するために,トークン管理による予測損失を導入する。
我々は、RGB、RGB-D、RGB-T SODベンチマークデータセット上で、様々なトランスフォーマーベースのバックボーン間でVST++モデルを評価する。
実験結果から,提案手法は計算コストの25%削減を達成しつつ,性能を著しく損なうことなく,既存手法よりも優れていたことが示唆された。
一般化の強力な能力、性能の向上、VST++モデルの効率向上などが、その可能性を浮き彫りにしている。
関連論文リスト
- Visual Fourier Prompt Tuning [63.66866445034855]
本稿では,大規模なトランスフォーマーモデルに適用するための汎用的で効果的な方法として,Visual Fourier Prompt Tuning (VFPT)法を提案する。
提案手法では,高速フーリエ変換を即時埋め込みに取り入れ,空間領域情報と周波数領域情報の両方を調和的に検討する。
提案手法は,2つのベンチマークにおいて,現状のベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2024-11-02T18:18:35Z) - Denoising Vision Transformers [43.03068202384091]
本稿では、DVT(Denoising Vision Transformers)と呼ばれる2段階のDenoisingアプローチを提案する。
第1段階では、画像ごとのニューラルネットワークとの横断的な特徴整合を強制することにより、位置的アーティファクトによって汚染されたものからクリーンな特徴を分離する。
第2段階では、クリーンな特徴を生のViT出力から予測するために軽量なトランスフォーマーブロックを訓練し、クリーンな特徴の導出推定を監督として活用する。
論文 参考訳(メタデータ) (2024-01-05T18:59:52Z) - FactoFormer: Factorized Hyperspectral Transformers with Self-Supervised
Pretraining [36.44039681893334]
ハイパースペクトル画像(HSI)は、豊富なスペクトルと空間情報を含む。
現在の最先端ハイパースペクトル変換器は、入力されたHSIサンプルをスペクトル次元に沿ってトークン化するのみである。
本稿では、自己教師付き事前学習手順を取り入れた新しい分解スペクトル空間変換器を提案する。
論文 参考訳(メタデータ) (2023-09-18T02:05:52Z) - An Empirical Study of Training End-to-End Vision-and-Language
Transformers [50.23532518166621]
我々はMETER(textbfMultimodal textbfEnd-to-end textbfTransformtextbfER)を提案する。
具体的には、視覚エンコーダ(例えば、CLIP-ViT、Swin変換器)、テキストエンコーダ(例えば、RoBERTa、DeBERTa)、マルチモーダルフュージョン(例えば、マージアテンション対共振器)である。
論文 参考訳(メタデータ) (2021-11-03T17:55:36Z) - PnP-DETR: Towards Efficient Visual Analysis with Transformers [146.55679348493587]
近年、DeTRはトランスフォーマーを用いたソリューションビジョンタスクの先駆者であり、画像特徴マップを直接オブジェクト結果に変換する。
最近の変圧器を用いた画像認識モデルとTTは、一貫した効率向上を示す。
論文 参考訳(メタデータ) (2021-09-15T01:10:30Z) - Vision Transformers are Robust Learners [65.91359312429147]
ビジョントランスフォーマー(ViT)の一般的な腐敗や摂動、分布シフト、自然逆転例に対する堅牢性について検討します。
ViTsが実際により堅牢な学習者である理由を説明するために、定量的および定性的な指標を提供する分析を提示します。
論文 参考訳(メタデータ) (2021-05-17T02:39:22Z) - Visual Saliency Transformer [127.33678448761599]
RGBとRGB-Dの液状物体検出(SOD)のための、純粋な変圧器であるVST(Visual Saliency Transformer)に基づく新しい統一モデルを開発しました。
イメージパッチを入力として取り、トランスフォーマーを利用してイメージパッチ間のグローバルコンテキストを伝搬する。
実験結果から,RGBとRGB-D SODのベンチマークデータセットにおいて,本モデルが既存の最新結果を上回っていることが示された。
論文 参考訳(メタデータ) (2021-04-25T08:24:06Z) - Transformer Transforms Salient Object Detection and Camouflaged Object
Detection [43.79585695098729]
本研究は, トランスネットワークを用いたサルエント物体検出(SOD)に関する研究である。
具体的には、フル教師付きRGBイメージベースSOD、RGB-DイメージペアベースSOD、スクリブル監視による弱い教師付きSODに対して、高密度トランスフォーマーバックボーンを採用する。
拡張として、カモフラージュオブジェクトセグメンテーションのためのカモフラージオブジェクト検出(COD)タスクにも完全に監視されたモデルを適用します。
論文 参考訳(メタデータ) (2021-04-20T17:12:51Z) - Toward Transformer-Based Object Detection [12.704056181392415]
ビジョントランスフォーマーは、共通の検出タスクヘッドによってバックボーンとして使用することができ、競合するCOCO結果を生成する。
vit-frcnnは、大きな事前訓練能力と高速微調整性能を含むトランスフォーマーに関連するいくつかの既知の特性を示す。
ViT-FRCNNは、オブジェクト検出などの複雑な視覚タスクの純粋なトランスフォーマーソリューションへの重要なステップストーンであると考えています。
論文 参考訳(メタデータ) (2020-12-17T22:33:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。