Fugu-MT 論文翻訳(概要): Explicit Visual Prompting for Universal Foreground Segmentations

論文の概要: Explicit Visual Prompting for Universal Foreground Segmentations

arxiv url: http://arxiv.org/abs/2305.18476v1
Date: Mon, 29 May 2023 11:05:01 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-31 20:24:07.149934
Title: Explicit Visual Prompting for Universal Foreground Segmentations
Title（参考訳）: ユニバーサルフォアグラウンドセグメンテーションのための明示的ビジュアルプロンプティング
Authors: Weihuang Liu, Xi Shen, Chi-Man Pun, Xiaodong Cun
Abstract要約: 我々は,タスク固有の設計を伴わずに,複数の前景セグメンテーションタスクを統一したフレームワークを提案する。我々は、広く使われている事前学習からインスピレーションを得て、NLPのチューニングプロトコルを高速化する。本手法は,事前学習したモデルを凍結し,いくつかのパラメータを用いてタスク固有の知識を学習する。
参考スコア（独自算出の注目度）: 55.51869354956533
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Foreground segmentation is a fundamental problem in computer vision, which includes salient object detection, forgery detection, defocus blur detection, shadow detection, and camouflage object detection. Previous works have typically relied on domain-specific solutions to address accuracy and robustness issues in those applications. In this paper, we present a unified framework for a number of foreground segmentation tasks without any task-specific designs. We take inspiration from the widely-used pre-training and then prompt tuning protocols in NLP and propose a new visual prompting model, named Explicit Visual Prompting (EVP). Different from the previous visual prompting which is typically a dataset-level implicit embedding, our key insight is to enforce the tunable parameters focusing on the explicit visual content from each individual image, i.e., the features from frozen patch embeddings and high-frequency components. Our method freezes a pre-trained model and then learns task-specific knowledge using a few extra parameters. Despite introducing only a small number of tunable parameters, EVP achieves superior performance than full fine-tuning and other parameter-efficient fine-tuning methods. Experiments in fourteen datasets across five tasks show the proposed method outperforms other task-specific methods while being considerably simple. The proposed method demonstrates the scalability in different architectures, pre-trained weights, and tasks. The code is available at: https://github.com/NiFangBaAGe/Explicit-Visual-Prompt.
Abstract（参考訳）: 前景のセグメンテーションはコンピュータビジョンの基本的な問題であり、有能な物体検出、偽造検出、デフォーカスのぼかし検出、影検出、迷彩物体検出を含む。従来の作業は通常、これらのアプリケーションにおける正確性と堅牢性の問題に対処するために、ドメイン固有のソリューションに依存しています。本稿では,タスク固有の設計を伴わずに,複数の前景セグメンテーションタスクを統一したフレームワークを提案する。我々は、広く使われている事前学習からインスピレーションを得て、NLPのチューニングプロトコルをプロンプトし、Explicit Visual Prompting (EVP) という新しいビジュアルプロンプトモデルを提案する。データセットレベルの暗黙的埋め込みである以前のビジュアルプロンプトとは異なり、私たちの重要な洞察は、個々のイメージからの明示的なビジュアルコンテンツ、すなわち凍結パッチ埋め込みと高周波コンポーネントの特徴に焦点を当てたチューニング可能なパラメータを強制することです。本手法では,事前学習したモデルを凍結し,追加パラメータを用いてタスク固有の知識を学習する。調整可能なパラメータは少ないが、EVPは完全な微調整や他のパラメータ効率の良い微調整方法よりも優れた性能を達成する。 5つのタスクにまたがる14のデータセットでの実験では、提案手法は他のタスク固有の手法よりもかなり単純である。提案手法は,異なるアーキテクチャ,事前学習した重み,タスクのスケーラビリティを示す。コードは、https://github.com/NiFangBaAGe/Explicit-Visual-Prompt.comで入手できる。

関連論文リスト

LoR-VP: Low-Rank Visual Prompting for Efficient Vision Model Adaptation [41.77434289193232]
視覚プロンプトのための低ランク行列乗算を導入した新しい視覚プロンプト設計法(LoR-VP)を提案する。 LoR-VPは、画像ピクセルの行と列をまたいだ共有およびパッチ固有の情報を可能にする。実験では、最先端の視覚的プロンプト法と比較して、性能と効率の両面で大きな改善が示されている。
論文参考訳（メタデータ） (2025-02-02T20:10:48Z)
Just a Few Glances: Open-Set Visual Perception with Image Prompt Paradigm [22.407887601771026]
Open-Set Object Detection (OSOD) と Open-Set Object (OSS) は研究者の関心を集めている。メインストリームのOSODとOSSメソッドは一般的にテキストをプロンプトとして利用し、優れたパフォーマンスを実現している。我々は,OSODとOSS,すなわち textbfImage Prompt Paradigm に新たなプロンプトパラダイムを提案する。このフレームワークでは、高品質な画像プロンプトが自動的に符号化され、選択され、融合され、単一のステージおよび非インタラクティブな推論が達成される。
論文参考訳（メタデータ） (2024-12-14T07:23:14Z)
Learning A Low-Level Vision Generalist via Visual Task Prompt [43.54563263106761]
本稿では,これらの課題を克服するために,視覚タスクプロンプトベース画像処理(VPIP)フレームワークを提案する。 VPIPは視覚的なタスクプロンプトを使用して、異なる入力ターゲットドメインでタスクを管理し、バックボーンネットワークの柔軟な選択を可能にする。 VPIPフレームワークに基づいて、30種類のタスクで低レベルのビジョンジェネラリストモデル、すなわちGenLVをトレーニングする。
論文参考訳（メタデータ） (2024-08-16T08:37:56Z)
Task-Adapter: Task-specific Adaptation of Image Models for Few-shot Action Recognition [34.88916568947695]
簡単なタスク固有適応法(Task-Adapter)を提案する。提案したTask-Adapterをバックボーンの最後のいくつかのレイヤに導入することで、フル微調整によるオーバーフィッティング問題を軽減します。実験結果から,提案したタスクアダプタが標準の4つのアクション認識データセットに対して有効であることを示す。
論文参考訳（メタデータ） (2024-08-01T03:06:56Z)
Aligning and Prompting Everything All at Once for Universal Visual Perception [79.96124061108728]
APEは、さまざまなタスクを実行するために、すべてのことを一度に調整し、促す、普遍的な視覚知覚モデルである。 APEは、言語誘導接地をオープン語彙検出として再構成することで、検出と接地の収束を推し進める。 160以上のデータセットの実験では、APEが最先端のモデルより優れていることが示されている。
論文参考訳（メタデータ） (2023-12-04T18:59:50Z)
ComPtr: Towards Diverse Bi-source Dense Prediction Tasks via A Simple yet General Complementary Transformer [91.43066633305662]
本稿では,多種多様な二ソース密度予測タスクのためのアンダーラインComPlementaryアンダーライン変換器textbfComPtrを提案する。 ComPtrは異なる入力を等しく扱い、変換器上にシーケンス・ツー・シーケンスの形で効率的な密な相互作用モデルを構築する。
論文参考訳（メタデータ） (2023-07-23T15:17:45Z)
A Dynamic Feature Interaction Framework for Multi-task Visual Perception [100.98434079696268]
複数の共通認識課題を解決するための効率的な統合フレームワークを考案する。これらのタスクには、インスタンスセグメンテーション、セマンティックセグメンテーション、モノクル3D検出、深さ推定が含まれる。提案するフレームワークはD2BNetと呼ばれ,マルチタスク認識のためのパラメータ効率予測に一意なアプローチを示す。
論文参考訳（メタデータ） (2023-06-08T09:24:46Z)
Explicit Visual Prompting for Low-Level Structure Segmentations [55.51869354956533]
我々はExplicit Visual Prompting(EVP)という新しいビジュアルプロンプトモデルを提案する。 EVPは、同じ量のチューナブルパラメータの下で、他のパラメータ効率のチューニングプロトコルを著しく上回る。 EVPはまた、様々な低レベル構造セグメンテーションタスクにおける最先端のパフォーマンスも達成している。
論文参考訳（メタデータ） (2023-03-20T06:01:53Z)
Disambiguation of One-Shot Visual Classification Tasks: A Simplex-Based Approach [8.436437583394998]
本稿では,複数の物体の存在を検出するための戦略を提案する。この戦略は、高次元空間における単純体の角を識別することに基づいている。提案手法は,極端設定における精度をわずかながら統計的に向上させる能力を示す。
論文参考訳（メタデータ） (2023-01-16T11:37:05Z)
Unsupervised Semantic Segmentation by Contrasting Object Mask Proposals [78.12377360145078]
画素埋め込みを学習するために、コントラスト最適化の目的として、予め決められた事前を取り入れた新しい2段階フレームワークを導入する。これは、プロキシタスクやエンドツーエンドのクラスタリングに依存する既存の作業から大きく逸脱している。特に、PASCALでラベル付き例の1%だけを用いて学習した表現を微調整すると、7.1% mIoUで教師付き ImageNet の事前トレーニングを上回ります。
論文参考訳（メタデータ） (2021-02-11T18:54:47Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。