論文の概要: External Prompt Features Enhanced Parameter-efficient Fine-tuning for Salient Object Detection
- arxiv url: http://arxiv.org/abs/2404.15008v2
- Date: Sat, 24 Aug 2024 09:17:23 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-27 23:46:51.212063
- Title: External Prompt Features Enhanced Parameter-efficient Fine-tuning for Salient Object Detection
- Title(参考訳): 能動物体検出のためのパラメータ効率向上のための外部プロンプト特性
- Authors: Wen Liang, Peipei Ran, Mengchao Bai, Xiao Liu, P. Bilha Githinji, Wei Zhao, Peiwu Qin,
- Abstract要約: Salient Object Detection (SOD) は、画像中の最も健全なオブジェクトを見つけ、ピクセルレベルのバイナリマスクを出力することを目的としている。
トランスフォーマーに基づく手法は,グローバルなセマンティック理解により,有望な性能を実現する。
そこで本研究では,トレーニングパラメータ数の削減を目的とした,パラメータ効率の高いファインチューニング手法を提案する。
- 参考スコア(独自算出の注目度): 6.5971464769307495
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Salient object detection (SOD) aims at finding the most salient objects in images and outputs pixel-level binary masks. Transformer-based methods achieve promising performance due to their global semantic understanding, crucial for identifying salient objects. However, these models tend to be large and require numerous training parameters. To better harness the potential of transformers for SOD, we propose a novel parameter-efficient fine-tuning method aimed at reducing the number of training parameters while enhancing the salient object detection capability. Our model, termed EXternal Prompt features Enhanced adapteR Tuning (ExPert), features an encoder-decoder structure with adapters and injectors interspersed between the layers of a frozen transformer encoder. The adapter modules adapt the pretrained backbone to SOD while the injector modules incorporate external prompt features to enhance the awareness of salient objects. Comprehensive experiments demonstrate the superiority of our method. Surpassing former state-of-the-art (SOTA) models across five SOD datasets, ExPert achieves 0.215 mean absolute error (MAE) in the ECSSD dataset with 80.2M trained parameters, 21% better than SelfReformer and 47% better than EGNet.
- Abstract(参考訳): Salient Object Detection (SOD) は、画像中の最も健全なオブジェクトを見つけ、ピクセルレベルのバイナリマスクを出力することを目的としている。
トランスフォーマーに基づく手法は,グローバルなセマンティック理解によって有望な性能を達成する。
しかし、これらのモデルは大規模であり、多くの訓練パラメータを必要とする傾向にある。
そこで本研究では,SOD用変圧器のポテンシャルをよりよく活用するために,学習パラメータの削減を目的としたパラメータ効率の高い微調整手法を提案する。
ExPert(AdaptedR Tuning)と呼ばれる我々のモデルでは、冷凍トランスエンコーダの層間にアダプタとインジェクタが分散したエンコーダ・デコーダ構造が特徴的である。
アダプタモジュールは事前訓練されたバックボーンをSODに適合させ、インジェクタモジュールは外部のプロンプト機能を組み込んで、正常なオブジェクトの認識を高める。
総合的な実験により,本手法の優位性を実証した。
従来の最先端(SOTA)モデルを5つのSODデータセットに渡すことで、ExPertは80.2Mのトレーニングパラメータを持つECSSDデータセットで0.215の平均絶対誤差(MAE)を達成し、SelfReformerより21%、EGNetより47%向上した。
関連論文リスト
- MoE-FFD: Mixture of Experts for Generalized and Parameter-Efficient Face Forgery Detection [54.545054873239295]
ディープフェイクは、最近、国民の間で重大な信頼問題とセキュリティ上の懸念を提起した。
ViT法はトランスの表現性を生かし,優れた検出性能を実現する。
この研究は、汎用的でパラメータ効率のよいViTベースのアプローチであるFace Forgery Detection (MoE-FFD)のためのMixture-of-Expertsモジュールを導入する。
論文 参考訳(メタデータ) (2024-04-12T13:02:08Z) - Dynamic Adapter Meets Prompt Tuning: Parameter-Efficient Transfer Learning for Point Cloud Analysis [51.14136878142034]
ポイントクラウド分析は、事前訓練されたモデルのポイントクラウドの転送によって、優れたパフォーマンスを実現している。
モデル適応のための既存の方法は通常、高い計算コストに依存するため、非効率な全てのモデルパラメータを更新する。
本稿では,タスク性能とパラメータ効率のトレードオフを考慮した,ポイントクラウド解析のためのパラメータ効率変換学習を提案する。
論文 参考訳(メタデータ) (2024-03-03T08:25:04Z) - Low-Rank Representations Meets Deep Unfolding: A Generalized and
Interpretable Network for Hyperspectral Anomaly Detection [41.50904949744355]
現在のハイパースペクトル異常検出(HAD)ベンチマークデータセットは、低解像度、単純なバックグラウンド、検出データの小さなサイズに悩まされている。
これらの要因は、ロバスト性の観点からよく知られた低ランク表現(LRR)モデルの性能も制限する。
我々は、複雑なシナリオにおけるHADアルゴリズムの堅牢性を改善するために、新しいHADベンチマークデータセットであるAIR-HADを構築した。
論文 参考訳(メタデータ) (2024-02-23T14:15:58Z) - Sensitivity-Aware Visual Parameter-Efficient Fine-Tuning [91.5113227694443]
私たちは新しいビジュアルを提案します。
Sensuous-Aware Fine-Tuning (SPT) スキーム。
SPTはタスク固有の重要な位置にトレーニング可能なパラメータを割り当てる。
ダウンストリーム認識タスクの幅広い実験により,SPTは既存のPEFT法と相補的であることが示された。
論文 参考訳(メタデータ) (2023-03-15T12:34:24Z) - Efficient Decoder-free Object Detection with Transformers [75.00499377197475]
視覚変換器(ViT)は、物体検出アプローチのランドスケープを変化させている。
本稿では,デコーダフリー完全トランス(DFFT)オブジェクト検出器を提案する。
DFFT_SMALLは、トレーニングおよび推論段階で高い効率を達成する。
論文 参考訳(メタデータ) (2022-06-14T13:22:19Z) - An Extendable, Efficient and Effective Transformer-based Object Detector [95.06044204961009]
我々は、視覚・検出変換器(ViDT)を統合し、効果的で効率的な物体検出装置を構築する。
ViDTは、最近のSwin Transformerをスタンドアロンのオブジェクト検出器に拡張するために、再構成されたアテンションモジュールを導入した。
オブジェクト検出とインスタンスセグメンテーションのための共同タスク学習をサポートするために、ViDT+に拡張する。
論文 参考訳(メタデータ) (2022-04-17T09:27:45Z) - ViDT: An Efficient and Effective Fully Transformer-based Object Detector [97.71746903042968]
検出変換器は、オブジェクト検出のための最初のエンドツーエンド学習システムである。
視覚変換器は、画像分類のための最初の完全変換器ベースのアーキテクチャである。
本稿では、視覚・検出変換器(ViDT)を統合し、効果的で効率的な物体検出装置を構築する。
論文 参考訳(メタデータ) (2021-10-08T06:32:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。