論文の概要: Towards Robust and Accurate Visual Prompting
- arxiv url: http://arxiv.org/abs/2311.10992v1
- Date: Sat, 18 Nov 2023 07:00:56 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-22 13:10:16.051044
- Title: Towards Robust and Accurate Visual Prompting
- Title(参考訳): ロバストと正確なビジュアルプロンプティングを目指して
- Authors: Qi Li, Liangzhi Li, Zhouqiang Jiang, Bowen Wang
- Abstract要約: 本研究では,ロバストモデルから派生した視覚的プロンプトが,一般化性能の低下に悩まされながら,ロバスト性を継承できるかどうかを検討する。
本稿では,PBL(Prompt Boundary Loose)と呼ばれる新しい手法を提案する。
本研究は普遍的であり,提案手法の意義を実証するものである。
- 参考スコア(独自算出の注目度): 11.918195429308035
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Visual prompting, an efficient method for transfer learning, has shown its
potential in vision tasks. However, previous works focus exclusively on VP from
standard source models, it is still unknown how it performs under the scenario
of a robust source model: Whether a visual prompt derived from a robust model
can inherit the robustness while suffering from the generalization performance
decline, albeit for a downstream dataset that is different from the source
dataset? In this work, we get an affirmative answer of the above question and
give an explanation on the visual representation level. Moreover, we introduce
a novel technique named Prompt Boundary Loose (PBL) to effectively mitigates
the suboptimal results of visual prompt on standard accuracy without losing (or
even significantly improving) its adversarial robustness when using a robust
model as source model. Extensive experiments across various datasets show that
our findings are universal and demonstrate the significant benefits of our
proposed method.
- Abstract(参考訳): 伝達学習の効率的な方法である視覚プロンプトは、視覚タスクにおいてその可能性を示している。
しかし、以前の研究は標準のソースモデルからのVPにのみ焦点をあてていたが、ロバストなソースモデルというシナリオの下でどのように機能するかはまだ分かっていない。 汎用パフォーマンスの低下に悩まされながら、ロバストなモデルから派生した視覚的プロンプトがロバスト性を継承できるかどうかは、ソースデータセットとは異なるダウンストリームデータセットに対してである。
本研究では,上記の質問に対する肯定的な回答を得られ,視覚的表現のレベルでの説明を行う。
さらに,PBL(Prompt Boundary Loose)と呼ばれる新しい手法を導入し,ロバストモデルをソースモデルとして使用する場合の対向ロバスト性を損なう(あるいは著しく改善する)ことなく,標準的な精度で視覚的プロンプトの最適以下の結果を効果的に緩和する。
様々なデータセットにまたがる広範な実験により,我々の発見は普遍的であり,提案手法の重要な利点が示されている。
関連論文リスト
- Idempotent Unsupervised Representation Learning for Skeleton-Based Action Recognition [13.593511876719367]
教師なし表現学習のための新しい骨格ベース等等化生成モデル(IGM)を提案する。
ベンチマークデータセットであるNTU RGB+DとPKUMMDに関する実験により,提案手法の有効性を実証した。
論文 参考訳(メタデータ) (2024-10-27T06:29:04Z) - Standing on the Shoulders of Giants: Reprogramming Visual-Language Model for General Deepfake Detection [16.21235742118949]
本稿では,よく訓練された視覚言語モデル(VLM)を一般深度検出に活用する手法を提案する。
データ摂動によるモデル予測を操作するモデル再プログラミングパラダイムにより,本手法は事前学習したVLMモデルを再プログラムすることができる。
私たちの優れたパフォーマンスは、トレーニング可能なパラメータのコストを低減し、現実世界のアプリケーションにとって有望なアプローチになります。
論文 参考訳(メタデータ) (2024-09-04T12:46:30Z) - Adversarial Robustification via Text-to-Image Diffusion Models [56.37291240867549]
アドリラルロバスト性は、ニューラルネットワークをエンコードする難しい性質として伝統的に信じられてきた。
データを使わずに敵の堅牢性を実現するために,スケーラブルでモデルに依存しないソリューションを開発した。
論文 参考訳(メタデータ) (2024-07-26T10:49:14Z) - EffoVPR: Effective Foundation Model Utilization for Visual Place Recognition [6.996304653818122]
本稿では,視覚的位置認識のための基盤モデルの可能性を活用するための,シンプルながら強力なアプローチを提案する。
まず、自己注意層から抽出した機能が、VPRの強力なリランカとして機能することを実証する。
次に、内部のViT層をプールに利用した単一ステージの手法が、最先端の結果をもたらすグローバルな特徴を生み出すことを実証した。
論文 参考訳(メタデータ) (2024-05-28T11:24:41Z) - DetDiffusion: Synergizing Generative and Perceptive Models for Enhanced Data Generation and Perception [78.26734070960886]
現在の知覚モデルは、リソース集約的なデータセットに大きく依存している。
セグメンテーションを通じて知覚認識損失(P.A.損失)を導入し、品質と制御性の両方を改善した。
本手法は,世代間における知覚認識属性(P.A. Attr)の抽出と利用により,データ拡張をカスタマイズする。
論文 参考訳(メタデータ) (2024-03-20T04:58:03Z) - Debiasing Multimodal Large Language Models [61.6896704217147]
LVLM(Large Vision-Language Models)は、コンピュータビジョンや自然言語処理において欠かせないツールとなっている。
本研究は,入力画像に先行するLarge Language Models (LLM) の影響を主に受け,生成したコンテンツに有意なバイアスが生じることを示す。
これらのバイアスを是正し、視覚情報に対するモデルの焦点をリダイレクトするために、我々は2つの単純で訓練のない戦略を導入する。
論文 参考訳(メタデータ) (2024-03-08T12:35:07Z) - Harnessing Diffusion Models for Visual Perception with Meta Prompts [68.78938846041767]
本稿では,視覚知覚タスクの拡散モデルを用いた簡易かつ効果的な手法を提案する。
学習可能な埋め込み(メタプロンプト)を事前学習した拡散モデルに導入し、知覚の適切な特徴を抽出する。
提案手法は,NYU 深度 V2 と KITTI の深度推定タスク,および CityScapes のセマンティックセグメンテーションタスクにおいて,新しい性能記録を実現する。
論文 参考訳(メタデータ) (2023-12-22T14:40:55Z) - Towards General Visual-Linguistic Face Forgery Detection [95.73987327101143]
ディープフェイクは現実的な顔操作であり、セキュリティ、プライバシー、信頼に深刻な脅威をもたらす可能性がある。
既存の方法は、このタスクを、デジタルラベルまたはマスク信号を使用して検出モデルをトレーニングするバイナリ分類として扱う。
本稿では, 微粒な文レベルのプロンプトをアノテーションとして用いた, VLFFD (Visual-Linguistic Face Forgery Detection) という新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2023-07-31T10:22:33Z) - Preserving Knowledge Invariance: Rethinking Robustness Evaluation of
Open Information Extraction [50.62245481416744]
実世界におけるオープン情報抽出モデルの評価をシミュレートする最初のベンチマークを示す。
我々は、それぞれの例が知識不変のcliqueである大規模なテストベッドを設計し、注釈付けする。
さらにロバスト性計量を解明することにより、その性能が全体の傾きに対して一貫して正確であるならば、モデルはロバストであると判断される。
論文 参考訳(メタデータ) (2023-05-23T12:05:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。