論文の概要: Explicit Visual Prompting for Universal Foreground Segmentations
- arxiv url: http://arxiv.org/abs/2305.18476v1
- Date: Mon, 29 May 2023 11:05:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-31 20:24:07.149934
- Title: Explicit Visual Prompting for Universal Foreground Segmentations
- Title(参考訳): ユニバーサルフォアグラウンドセグメンテーションのための明示的ビジュアルプロンプティング
- Authors: Weihuang Liu, Xi Shen, Chi-Man Pun, Xiaodong Cun
- Abstract要約: 我々は,タスク固有の設計を伴わずに,複数の前景セグメンテーションタスクを統一したフレームワークを提案する。
我々は、広く使われている事前学習からインスピレーションを得て、NLPのチューニングプロトコルを高速化する。
本手法は,事前学習したモデルを凍結し,いくつかのパラメータを用いてタスク固有の知識を学習する。
- 参考スコア(独自算出の注目度): 55.51869354956533
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Foreground segmentation is a fundamental problem in computer vision, which
includes salient object detection, forgery detection, defocus blur detection,
shadow detection, and camouflage object detection. Previous works have
typically relied on domain-specific solutions to address accuracy and
robustness issues in those applications. In this paper, we present a unified
framework for a number of foreground segmentation tasks without any
task-specific designs. We take inspiration from the widely-used pre-training
and then prompt tuning protocols in NLP and propose a new visual prompting
model, named Explicit Visual Prompting (EVP). Different from the previous
visual prompting which is typically a dataset-level implicit embedding, our key
insight is to enforce the tunable parameters focusing on the explicit visual
content from each individual image, i.e., the features from frozen patch
embeddings and high-frequency components. Our method freezes a pre-trained
model and then learns task-specific knowledge using a few extra parameters.
Despite introducing only a small number of tunable parameters, EVP achieves
superior performance than full fine-tuning and other parameter-efficient
fine-tuning methods. Experiments in fourteen datasets across five tasks show
the proposed method outperforms other task-specific methods while being
considerably simple. The proposed method demonstrates the scalability in
different architectures, pre-trained weights, and tasks. The code is available
at: https://github.com/NiFangBaAGe/Explicit-Visual-Prompt.
- Abstract(参考訳): 前景のセグメンテーションはコンピュータビジョンの基本的な問題であり、有能な物体検出、偽造検出、デフォーカスのぼかし検出、影検出、迷彩物体検出を含む。
従来の作業は通常、これらのアプリケーションにおける正確性と堅牢性の問題に対処するために、ドメイン固有のソリューションに依存しています。
本稿では,タスク固有の設計を伴わずに,複数の前景セグメンテーションタスクを統一したフレームワークを提案する。
我々は、広く使われている事前学習からインスピレーションを得て、NLPのチューニングプロトコルをプロンプトし、Explicit Visual Prompting (EVP) という新しいビジュアルプロンプトモデルを提案する。
データセットレベルの暗黙的埋め込みである以前のビジュアルプロンプトとは異なり、私たちの重要な洞察は、個々のイメージからの明示的なビジュアルコンテンツ、すなわち凍結パッチ埋め込みと高周波コンポーネントの特徴に焦点を当てたチューニング可能なパラメータを強制することです。
本手法では,事前学習したモデルを凍結し,追加パラメータを用いてタスク固有の知識を学習する。
調整可能なパラメータは少ないが、EVPは完全な微調整や他のパラメータ効率の良い微調整方法よりも優れた性能を達成する。
5つのタスクにまたがる14のデータセットでの実験では、提案手法は他のタスク固有の手法よりもかなり単純である。
提案手法は,異なるアーキテクチャ,事前学習した重み,タスクのスケーラビリティを示す。
コードは、https://github.com/NiFangBaAGe/Explicit-Visual-Prompt.comで入手できる。
関連論文リスト
- Learning A Low-Level Vision Generalist via Visual Task Prompt [43.54563263106761]
本稿では,これらの課題を克服するために,視覚タスクプロンプトベース画像処理(VPIP)フレームワークを提案する。
VPIPは視覚的なタスクプロンプトを使用して、異なる入力ターゲットドメインでタスクを管理し、バックボーンネットワークの柔軟な選択を可能にする。
VPIPフレームワークに基づいて、30種類のタスクで低レベルのビジョンジェネラリストモデル、すなわちGenLVをトレーニングする。
論文 参考訳(メタデータ) (2024-08-16T08:37:56Z) - Task-Adapter: Task-specific Adaptation of Image Models for Few-shot Action Recognition [34.88916568947695]
簡単なタスク固有適応法(Task-Adapter)を提案する。
提案したTask-Adapterをバックボーンの最後のいくつかのレイヤに導入することで、フル微調整によるオーバーフィッティング問題を軽減します。
実験結果から,提案したタスクアダプタが標準の4つのアクション認識データセットに対して有効であることを示す。
論文 参考訳(メタデータ) (2024-08-01T03:06:56Z) - Aligning and Prompting Everything All at Once for Universal Visual
Perception [79.96124061108728]
APEは、さまざまなタスクを実行するために、すべてのことを一度に調整し、促す、普遍的な視覚知覚モデルである。
APEは、言語誘導接地をオープン語彙検出として再構成することで、検出と接地の収束を推し進める。
160以上のデータセットの実験では、APEが最先端のモデルより優れていることが示されている。
論文 参考訳(メタデータ) (2023-12-04T18:59:50Z) - ComPtr: Towards Diverse Bi-source Dense Prediction Tasks via A Simple
yet General Complementary Transformer [91.43066633305662]
本稿では,多種多様な二ソース密度予測タスクのためのアンダーラインComPlementaryアンダーライン変換器textbfComPtrを提案する。
ComPtrは異なる入力を等しく扱い、変換器上にシーケンス・ツー・シーケンスの形で効率的な密な相互作用モデルを構築する。
論文 参考訳(メタデータ) (2023-07-23T15:17:45Z) - A Dynamic Feature Interaction Framework for Multi-task Visual Perception [100.98434079696268]
複数の共通認識課題を解決するための効率的な統合フレームワークを考案する。
これらのタスクには、インスタンスセグメンテーション、セマンティックセグメンテーション、モノクル3D検出、深さ推定が含まれる。
提案するフレームワークはD2BNetと呼ばれ,マルチタスク認識のためのパラメータ効率予測に一意なアプローチを示す。
論文 参考訳(メタデータ) (2023-06-08T09:24:46Z) - Explicit Visual Prompting for Low-Level Structure Segmentations [55.51869354956533]
我々はExplicit Visual Prompting(EVP)という新しいビジュアルプロンプトモデルを提案する。
EVPは、同じ量のチューナブルパラメータの下で、他のパラメータ効率のチューニングプロトコルを著しく上回る。
EVPはまた、様々な低レベル構造セグメンテーションタスクにおける最先端のパフォーマンスも達成している。
論文 参考訳(メタデータ) (2023-03-20T06:01:53Z) - Disambiguation of One-Shot Visual Classification Tasks: A Simplex-Based
Approach [8.436437583394998]
本稿では,複数の物体の存在を検出するための戦略を提案する。
この戦略は、高次元空間における単純体の角を識別することに基づいている。
提案手法は,極端設定における精度をわずかながら統計的に向上させる能力を示す。
論文 参考訳(メタデータ) (2023-01-16T11:37:05Z) - Unsupervised Semantic Segmentation by Contrasting Object Mask Proposals [78.12377360145078]
画素埋め込みを学習するために、コントラスト最適化の目的として、予め決められた事前を取り入れた新しい2段階フレームワークを導入する。
これは、プロキシタスクやエンドツーエンドのクラスタリングに依存する既存の作業から大きく逸脱している。
特に、PASCALでラベル付き例の1%だけを用いて学習した表現を微調整すると、7.1% mIoUで教師付き ImageNet の事前トレーニングを上回ります。
論文 参考訳(メタデータ) (2021-02-11T18:54:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。