Fugu-MT 論文翻訳(概要): Explicit Visual Prompting for Low-Level Structure Segmentations

論文の概要: Explicit Visual Prompting for Low-Level Structure Segmentations

arxiv url: http://arxiv.org/abs/2303.10883v2
Date: Tue, 21 Mar 2023 07:25:09 GMT
ステータス: 翻訳完了
システム内更新日: 2023-03-22 11:09:02.459459
Title: Explicit Visual Prompting for Low-Level Structure Segmentations
Title（参考訳）: 低レベル構造セグメンテーションのための明示的ビジュアルプロンプティング
Authors: Weihuang Liu, Xi Shen, Chi-Man Pun, Xiaodong Cun
Abstract要約: 我々はExplicit Visual Prompting(EVP)という新しいビジュアルプロンプトモデルを提案する。 EVPは、同じ量のチューナブルパラメータの下で、他のパラメータ効率のチューニングプロトコルを著しく上回る。 EVPはまた、様々な低レベル構造セグメンテーションタスクにおける最先端のパフォーマンスも達成している。
参考スコア（独自算出の注目度）: 55.51869354956533
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We consider the generic problem of detecting low-level structures in images, which includes segmenting the manipulated parts, identifying out-of-focus pixels, separating shadow regions, and detecting concealed objects. Whereas each such topic has been typically addressed with a domain-specific solution, we show that a unified approach performs well across all of them. We take inspiration from the widely-used pre-training and then prompt tuning protocols in NLP and propose a new visual prompting model, named Explicit Visual Prompting (EVP). Different from the previous visual prompting which is typically a dataset-level implicit embedding, our key insight is to enforce the tunable parameters focusing on the explicit visual content from each individual image, i.e., the features from frozen patch embeddings and the input's high-frequency components. The proposed EVP significantly outperforms other parameter-efficient tuning protocols under the same amount of tunable parameters (5.7% extra trainable parameters of each task). EVP also achieves state-of-the-art performances on diverse low-level structure segmentation tasks compared to task-specific solutions. Our code is available at: https://github.com/NiFangBaAGe/Explicit-Visual-Prompt.
Abstract（参考訳）: 画像中の低レベルな構造を検出する場合の一般的な問題として,操作された部分のセグメンテーション,フォーカス外の画素の識別,シャドー領域の分離,隠蔽されたオブジェクトの検出などが考えられる。このようなトピックは一般的にドメイン固有のソリューションで対処されているが、統一されたアプローチはそれらすべてでうまく機能していることを示す。我々は、広く使われている事前学習からインスピレーションを得て、NLPのチューニングプロトコルをプロンプトし、Explicit Visual Prompting (EVP) という新しいビジュアルプロンプトモデルを提案する。データセットレベルの暗黙的埋め込みである以前のビジュアルプロンプトとは異なり、私たちの重要な洞察は、個々のイメージからの明示的なビジュアルコンテンツ、すなわちフリーズパッチ埋め込みの特徴と入力の高周波コンポーネントに焦点を当てた調整可能なパラメータを強制することです。提案したEVPは、同じチューナブルパラメータ(各タスクの5.7%余分なトレーニング可能なパラメータ)で、他のパラメータ効率のチューニングプロトコルを著しく上回っている。 EVPはまた、タスク固有のソリューションと比較して、様々な低レベル構造セグメンテーションタスクにおける最先端のパフォーマンスを達成する。私たちのコードは、https://github.com/NiFangBaAGe/Explicit-Visual-Prompt.comで利用可能です。

関連論文リスト

Stepwise Decomposition and Dual-stream Focus: A Novel Approach for Training-free Camouflaged Object Segmentation [9.862714096455175]
我々は、textbfMultimodal textbfStepwise textbfDecomposition Chain of Thought (MSD-CoT) を介して textbfRegion-constrained textbfDual-stream textbfVisual textbfPrompting (RDVP) を相乗化する新しいトレーニングフリーなテスト時間適応フレームワークを提案する。 RDVPは、前景と背景点の視覚的プロンプトを視覚的および独立的にサンプリングする空間的制約を注入し、意味的相違を効果的に緩和する
論文参考訳（メタデータ） (2025-06-07T14:50:26Z)
LoR-VP: Low-Rank Visual Prompting for Efficient Vision Model Adaptation [41.77434289193232]
視覚プロンプトのための低ランク行列乗算を導入した新しい視覚プロンプト設計法(LoR-VP)を提案する。 LoR-VPは、画像ピクセルの行と列をまたいだ共有およびパッチ固有の情報を可能にする。実験では、最先端の視覚的プロンプト法と比較して、性能と効率の両面で大きな改善が示されている。
論文参考訳（メタデータ） (2025-02-02T20:10:48Z)
Test-Time Optimization for Domain Adaptive Open Vocabulary Segmentation [15.941958367737408]
Seg-TTOはゼロショットでオープンなセマンティックセグメンテーションのためのフレームワークである。このギャップに対処するために、セグメンテーション固有のテスト時間最適化にフォーカスします。 Seg-TTOは明確なパフォーマンス向上(いくつかのデータセットで最大27%のmIoU増加)を示し、新たな最先端の確立を実現している。
論文参考訳（メタデータ） (2025-01-08T18:58:24Z)
LESS: Label-Efficient and Single-Stage Referring 3D Segmentation [55.06002976797879]
参照3Dは、クエリの文で記述された3Dポイントクラウドから、指定されたオブジェクトのすべてのポイントをセグメントする視覚言語タスクである。本稿では,LESSと呼ばれるレファレンス3次元パイプラインを提案する。 ScanReferデータセット上での最先端のパフォーマンスは、バイナリラベルのみを使用して、以前の3.7% mIoUの手法を上回ります。
論文参考訳（メタデータ） (2024-10-17T07:47:41Z)
MROVSeg: Breaking the Resolution Curse of Vision-Language Models in Open-Vocabulary Semantic Segmentation [33.67313662538398]
オープン語彙セマンティックセマンティックセグメンテーションのためのマルチレゾリューション・トレーニング・フレームワークを提案する。 MROVSegはスライディングウィンドウを使用して高解像度の入力を均一なパッチにスライスし、それぞれがよく訓練されたイメージエンコーダの入力サイズと一致する。オープン語彙セマンティックセグメンテーションベンチマークにおけるMROVSegの優位性を実証する。
論文参考訳（メタデータ） (2024-08-27T04:45:53Z)
Optimal Transport Aggregation for Visual Place Recognition [9.192660643226372]
SALADは,NetVLADの局所的特徴のソフトアサインを最適な輸送問題としてクラスタに再配置する。 SALADでは,機能間クラスタ関係とクラスタ間クラスタ関係の両方を考慮するとともに,非形式的と考えられる特徴を選択的に破棄する'ダストビン'クラスタも導入する。我々のシングルステージ手法は、パブリックなVPRデータセットの単一ステージベースラインを超えるだけでなく、2段階の手法を超越し、コストを大幅に高めに再ランク付けする。
論文参考訳（メタデータ） (2023-11-27T15:46:19Z)
Visual In-Context Prompting [100.93587329049848]
本稿では,オープンセットのセグメンテーションや検出といった視覚的タスクのためのユニバーサルな視覚的インコンテキストプロンプトフレームワークを提案する。エンコーダ-デコーダアーキテクチャ上に構築し,ストロークやボックス,ポイントなど,さまざまなプロンプトをサポートする汎用的なプロンプトエンコーダを開発する。広範にわたる調査の結果,提案した視覚的インコンテクストは,異常参照と汎用セグメンテーション機能を引き起こすことが示された。
論文参考訳（メタデータ） (2023-11-22T18:59:48Z)
Exploring Part-Informed Visual-Language Learning for Person Re-Identification [52.92511980835272]
本稿では、ReIDタスクのための部分インフォームド言語監督機能により、きめ細かな視覚的特徴を高めるために、部分インフォームド・ビジュアル・ランゲージ・ラーニング(pi$-VL)を提案する。 $pi$-VLは、人間のパーシング誘導のプロンプトチューニング戦略と階層的な視覚言語アライメントパラダイムを導入し、内部機能のセマンティック一貫性を保証する。我々の$pi$-VLは、プラグアンドプレイで推論不要なソリューションとして、4つの一般的なReIDベンチマークの最先端メソッドに匹敵するパフォーマンスを達成する。
論文参考訳（メタデータ） (2023-08-04T23:13:49Z)
A Dynamic Feature Interaction Framework for Multi-task Visual Perception [100.98434079696268]
複数の共通認識課題を解決するための効率的な統合フレームワークを考案する。これらのタスクには、インスタンスセグメンテーション、セマンティックセグメンテーション、モノクル3D検出、深さ推定が含まれる。提案するフレームワークはD2BNetと呼ばれ,マルチタスク認識のためのパラメータ効率予測に一意なアプローチを示す。
論文参考訳（メタデータ） (2023-06-08T09:24:46Z)
Explicit Visual Prompting for Universal Foreground Segmentations [55.51869354956533]
我々は,タスク固有の設計を伴わずに,複数の前景セグメンテーションタスクを統一したフレームワークを提案する。我々は、広く使われている事前学習からインスピレーションを得て、NLPのチューニングプロトコルを高速化する。本手法は,事前学習したモデルを凍結し,いくつかのパラメータを用いてタスク固有の知識を学習する。
論文参考訳（メタデータ） (2023-05-29T11:05:01Z)
Exploring Sparse Visual Prompt for Domain Adaptive Dense Prediction [22.868597464136787]
本稿では,画像レベルのプロンプトに最小限のトレーニング可能なパラメータを格納し,入力のより空間的な情報を予約する,Sparse Visual Domain Prompts (SVDP) アプローチを提案する。提案手法は, セマンティックセグメンテーションと深度推定の両タスクにおいて, 最先端の性能を実現する。
論文参考訳（メタデータ） (2023-03-17T06:26:55Z)
SceneEncoder: Scene-Aware Semantic Segmentation of Point Clouds with A Learnable Scene Descriptor [51.298760338410624]
本研究では,グローバル情報の効果を高めるために,シーン認識型ガイダンスを付加するSceneEncoderモジュールを提案する。モジュールはシーン記述子を予測し、シーンに存在するオブジェクトのカテゴリを表現することを学習する。また,同じラベルを持つ隣接点に対する特徴の識別を伝搬する領域類似度損失を設計する。
論文参考訳（メタデータ） (2020-01-24T16:53:30Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。