Fugu-MT 論文翻訳(概要): External Prompt Features Enhanced Parameter-efficient Fine-tuning for Salient Object Detection

論文の概要: External Prompt Features Enhanced Parameter-efficient Fine-tuning for Salient Object Detection

arxiv url: http://arxiv.org/abs/2404.15008v1
Date: Tue, 23 Apr 2024 13:15:07 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-24 14:01:50.105031
Title: External Prompt Features Enhanced Parameter-efficient Fine-tuning for Salient Object Detection
Title（参考訳）: 能動物体検出のためのパラメータ効率向上のための外部プロンプト特性
Authors: Wen Liang, Peipei Ran, Mengchao Bai, Xiao Liu, P. Bilha Githinji, Wei Zhao, Peiwu Qin,
Abstract要約: Salient Object Detection (SOD) は、画像中の最も健全なオブジェクトを見つけ、ピクセルレベルのバイナリマスクを出力することを目的としている。トランスフォーマーに基づく手法は,グローバルなセマンティック理解により,有望な性能を実現する。そこで本研究では,トレーニングパラメータ数の削減を目的とした,パラメータ効率の高いファインチューニング手法を提案する。
参考スコア（独自算出の注目度）: 6.5971464769307495
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Salient object detection (SOD) aims at finding the most salient objects in images and outputs pixel-level binary masks. Transformer-based methods achieve promising performance due to their global semantic understanding, crucial for identifying salient objects. However, these models tend to be large and require numerous training parameters. To better harness the potential of transformers for SOD, we propose a novel parameter-efficient fine-tuning method aimed at reducing the number of training parameters while enhancing the salient object detection capability. Our model, termed EXternal Prompt features Enhanced adapteR Tuning (ExPert), features an encoder-decoder structure with adapters and injectors interspersed between the layers of a frozen transformer encoder. The adapter modules adapt the pre-trained backbone to SOD while the injector modules incorporate external prompt features to enhance the awareness of salient objects. Comprehensive experiments demonstrate the superiority of our method. Surpassing former state-of-the-art (SOTA) models across five SOD datasets, ExPert achieves 0.215 mean absolute error (MAE) in ECSSD dataset with 80.2M trained parameters, 21% better than transformer-based SOTA model and 47% better than CNN-based SOTA model.
Abstract（参考訳）: Salient Object Detection (SOD) は、画像中の最も健全なオブジェクトを見つけ、ピクセルレベルのバイナリマスクを出力することを目的としている。トランスフォーマーに基づく手法は,グローバルなセマンティック理解によって有望な性能を達成する。しかし、これらのモデルは大規模であり、多くの訓練パラメータを必要とする傾向にある。そこで本研究では,SOD用変圧器のポテンシャルをよりよく活用するために,学習パラメータの削減を目的としたパラメータ効率の高い微調整手法を提案する。 ExPert(AdaptedR Tuning)と呼ばれる我々のモデルでは、冷凍トランスエンコーダの層間にアダプタとインジェクタが分散したエンコーダ・デコーダ構造が特徴的である。アダプタモジュールはトレーニング済みのバックボーンをSODに適合させ、インジェクタモジュールは外部のプロンプト機能を組み込んでサルエントオブジェクトの認識を高める。総合的な実験により,本手法の優位性を実証した。従来の最先端(SOTA)モデルを5つのSODデータセットに渡すことで、ExPertは80.2Mのトレーニングパラメータを持つECSSDデータセットで0.215の平均絶対誤差(MAE)を達成し、トランスフォーマーベースのSOTAモデルより21%、CNNベースのSOTAモデルより47%向上した。

関連論文リスト

Small but Mighty: Dynamic Wavelet Expert-Guided Fine-Tuning of Large-Scale Models for Optical Remote Sensing Object Segmentation [17.208704391815285]
本稿では,WEFTと呼ばれるトレーニング可能なパラメータの少ない動的ウェーブレットエキスパート誘導ファインチューニングパラダイムを提案する。我々のWEFTは、3つのORSIデータセット上で21の最先端(SOTA)メソッドより優れているだけでなく、カモフラージュ、自然、医療シナリオにおいて最適な結果が得られる。
論文参考訳（メタデータ） (2026-01-14T03:11:50Z)
Beyond Weight Adaptation: Feature-Space Domain Injection for Cross-Modal Ship Re-Identification [3.6907522136316975]
CMS Re-ID(Cross-Modality Ship Re-Identification)は、全天候の海上目標追跡を実現するために重要である。モダリティギャップのブリッジ化におけるビジョン・ファンデーション・モデル(VFM)の可能性を探る。ドメイン表現注入(Domain Representation Injection, DRI)と呼ばれる新しいPEFT戦略を提案する。
論文参考訳（メタデータ） (2025-12-24T02:30:23Z)
Continual Adaptation: Environment-Conditional Parameter Generation for Object Detection in Dynamic Scenarios [54.58186816693791]
環境は時間と空間によって常に変化し、クローズドセットの仮定に基づいて訓練された物体検出器にとって重要な課題となる。そこで本研究では,微調整過程をパラメータ生成に変換する機構を提案する。特に,2経路LoRAベースのドメイン認識アダプタを最初に設計し,特徴をドメイン不変およびドメイン固有コンポーネントに分解する。
論文参考訳（メタデータ） (2025-06-30T17:14:12Z)
Lightweight RGB-D Salient Object Detection from a Speed-Accuracy Tradeoff Perspective [54.91271106816616]
現在のRGB-D法は通常、大規模なバックボーンを利用して精度を向上させるが効率を犠牲にする。本稿では,軽量RGB-D SODのためのSATNet(Speed-Accuracy Tradeoff Network)を提案する。深度について,高品質の深度マップを生成するための深度任意のモデルを導入する。モダリティ融合において,モダリティ間の整合性を検討するために,DAM(Decoupled Attention Module)を提案する。特徴表現のために,双方向の反転フレームワークを用いたDIRM (Dual Information Representation Module) を開発した。
論文参考訳（メタデータ） (2025-05-07T19:37:20Z)
Efficient Oriented Object Detection with Enhanced Small Object Recognition in Aerial Images [2.9138705529771123]
本稿では,オブジェクト指向物体検出タスクに適したYOLOv8モデルを新たに拡張する。本モデルでは,ASFP(Adaptive Scale Feature Pyramid)モジュールと,P2層の詳細を利用したウェーブレット変換に基づくC2fモジュールを特徴とする。我々のアプローチは233万のパラメータを持つDecoupleNetよりも効率的なアーキテクチャ設計を提供し、検出精度を維持しています。
論文参考訳（メタデータ） (2024-12-17T05:45:48Z)
MoE-FFD: Mixture of Experts for Generalized and Parameter-Efficient Face Forgery Detection [54.545054873239295]
ディープフェイクは、最近、国民の間で重大な信頼問題とセキュリティ上の懸念を提起した。 ViT法はトランスの表現性を生かし,優れた検出性能を実現する。この研究は、汎用的でパラメータ効率のよいViTベースのアプローチであるFace Forgery Detection (MoE-FFD)のためのMixture-of-Expertsモジュールを導入する。
論文参考訳（メタデータ） (2024-04-12T13:02:08Z)
Dynamic Adapter Meets Prompt Tuning: Parameter-Efficient Transfer Learning for Point Cloud Analysis [51.14136878142034]
ポイントクラウド分析は、事前訓練されたモデルのポイントクラウドの転送によって、優れたパフォーマンスを実現している。モデル適応のための既存の方法は通常、高い計算コストに依存するため、非効率な全てのモデルパラメータを更新する。本稿では,タスク性能とパラメータ効率のトレードオフを考慮した,ポイントクラウド解析のためのパラメータ効率変換学習を提案する。
論文参考訳（メタデータ） (2024-03-03T08:25:04Z)
Low-Rank Representations Meets Deep Unfolding: A Generalized and Interpretable Network for Hyperspectral Anomaly Detection [41.50904949744355]
現在のハイパースペクトル異常検出(HAD)ベンチマークデータセットは、低解像度、単純なバックグラウンド、検出データの小さなサイズに悩まされている。これらの要因は、ロバスト性の観点からよく知られた低ランク表現(LRR)モデルの性能も制限する。我々は、複雑なシナリオにおけるHADアルゴリズムの堅牢性を改善するために、新しいHADベンチマークデータセットであるAIR-HADを構築した。
論文参考訳（メタデータ） (2024-02-23T14:15:58Z)
Sensitivity-Aware Visual Parameter-Efficient Fine-Tuning [91.5113227694443]
私たちは新しいビジュアルを提案します。 Sensuous-Aware Fine-Tuning (SPT) スキーム。 SPTはタスク固有の重要な位置にトレーニング可能なパラメータを割り当てる。ダウンストリーム認識タスクの幅広い実験により,SPTは既存のPEFT法と相補的であることが示された。
論文参考訳（メタデータ） (2023-03-15T12:34:24Z)
Efficient Decoder-free Object Detection with Transformers [75.00499377197475]
視覚変換器(ViT)は、物体検出アプローチのランドスケープを変化させている。本稿では,デコーダフリー完全トランス(DFFT)オブジェクト検出器を提案する。 DFFT_SMALLは、トレーニングおよび推論段階で高い効率を達成する。
論文参考訳（メタデータ） (2022-06-14T13:22:19Z)
An Extendable, Efficient and Effective Transformer-based Object Detector [95.06044204961009]
我々は、視覚・検出変換器(ViDT)を統合し、効果的で効率的な物体検出装置を構築する。 ViDTは、最近のSwin Transformerをスタンドアロンのオブジェクト検出器に拡張するために、再構成されたアテンションモジュールを導入した。オブジェクト検出とインスタンスセグメンテーションのための共同タスク学習をサポートするために、ViDT+に拡張する。
論文参考訳（メタデータ） (2022-04-17T09:27:45Z)
ViDT: An Efficient and Effective Fully Transformer-based Object Detector [97.71746903042968]
検出変換器は、オブジェクト検出のための最初のエンドツーエンド学習システムである。視覚変換器は、画像分類のための最初の完全変換器ベースのアーキテクチャである。本稿では、視覚・検出変換器(ViDT)を統合し、効果的で効率的な物体検出装置を構築する。
論文参考訳（メタデータ） (2021-10-08T06:32:05Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。