論文の概要: Exploring Visual Prompting: Robustness Inheritance and Beyond
- arxiv url: http://arxiv.org/abs/2506.06823v1
- Date: Sat, 07 Jun 2025 14:56:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 16:33:10.500846
- Title: Exploring Visual Prompting: Robustness Inheritance and Beyond
- Title(参考訳): ビジュアルプロンプトを探る:ロバストさの継承とそれ以上
- Authors: Qi Li, Liangzhi Li, Zhouqiang Jiang, Bowen Wang, Keke Tang,
- Abstract要約: ビジュアル・プロンプティング(VP)が直面するトレードオフを軽減するため,PBL(Prompt Boundary Loosening)という戦略を提案する。
VPと自然に互換性のある軽量なプラグアンドプレイ戦略として、PBLは、ソースモデルがロバストモデルであるときに、効果的にロバストネスの継承を成功させる。
我々の発見は普遍的であり、提案した戦略の重要な利点を実証している。
- 参考スコア(独自算出の注目度): 10.911786739957599
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Visual Prompting (VP), an efficient method for transfer learning, has shown its potential in vision tasks. However, previous works focus exclusively on VP from standard source models, it is still unknown how it performs under the scenario of a robust source model: Can the robustness of the source model be successfully inherited? Does VP also encounter the same trade-off between robustness and generalization ability as the source model during this process? If such a trade-off exists, is there a strategy specifically tailored to VP to mitigate this limitation? In this paper, we thoroughly explore these three questions for the first time and provide affirmative answers to them. To mitigate the trade-off faced by VP, we propose a strategy called Prompt Boundary Loosening (PBL). As a lightweight, plug-and-play strategy naturally compatible with VP, PBL effectively ensures the successful inheritance of robustness when the source model is a robust model, while significantly enhancing VP's generalization ability across various downstream datasets. Extensive experiments across various datasets show that our findings are universal and demonstrate the significant benefits of the proposed strategy.
- Abstract(参考訳): 伝達学習の効率的な方法である視覚プロンプティング(VP)は、視覚タスクにおいてその可能性を示している。
しかし、以前の研究は標準のソースモデルからのVPのみに焦点を当てていたが、堅牢なソースモデルのシナリオでどのように機能するかはまだ分かっていない。
VPはまた、このプロセスのソースモデルと同じ堅牢性と一般化能力のトレードオフに直面していますか?
もしそのようなトレードオフが存在するなら、この制限を軽減するためにVPに特別に調整された戦略があるだろうか?
本稿では,これら3つの質問を初めて徹底的に探求し,肯定的な回答を提供する。
本稿では,VPが直面するトレードオフを軽減するため,PBL(Prompt Boundary Loosening)と呼ばれる戦略を提案する。
VPと自然に互換性のある軽量なプラグイン・アンド・プレイ戦略として、PBLは、ソースモデルが堅牢なモデルである場合にロバストネスの継承を成功させると同時に、さまざまなダウンストリームデータセットにわたるVPの一般化能力を著しく向上させる。
様々なデータセットにわたる大規模な実験により、我々の発見は普遍的であり、提案した戦略の重要な利点を実証している。
関連論文リスト
- Leveraging LLM Inconsistency to Boost Pass@k Performance [3.797421474324735]
大規模言語モデル(LLM)は、多くのドメインにおいて印象的な能力を発揮するが、マイナーな入力変更に対する不整合性を示す。
本稿では,Pass@kの性能向上にモデルの不整合を利用した新しい手法を提案する。
具体的には、与えられたタスクのk変種を生成し、各タスクに対して1つの候補解を提出する「変数」エージェントを提案する。
論文 参考訳(メタデータ) (2025-05-19T10:22:04Z) - R-TPT: Improving Adversarial Robustness of Vision-Language Models through Test-Time Prompt Tuning [97.49610356913874]
視覚言語モデル(VLM)のためのロバストテスト時プロンプトチューニング(R-TPT)を提案する。
R-TPTは、推論段階における敵攻撃の影響を緩和する。
プラグアンドプレイの信頼性に基づく重み付きアンサンブル戦略を導入し,防御強化を図る。
論文 参考訳(メタデータ) (2025-04-15T13:49:31Z) - A Closer Look at TabPFN v2: Understanding Its Strengths and Extending Its Capabilities [51.08999772842298]
Tabular Prior-data Fitted Network v2 (TabPFN v2)は、さまざまな下流データセット間で、前例のないコンテキスト内学習性能を達成する。
本研究では,TabPFN v2が属性トークンをランダムに入力しても属性関係を推測可能であることを示す。
我々はTabPFN v2の制限がテスト時間分割・コンテキスト戦略によって対処できることを実証した。
論文 参考訳(メタデータ) (2025-02-24T17:38:42Z) - ACTRESS: Active Retraining for Semi-supervised Visual Grounding [52.08834188447851]
前回の研究であるRefTeacherは、疑似自信と注意に基づく監督を提供するために教師学生の枠組みを採用することで、この課題に取り組むための最初の試みである。
このアプローチは、Transformerベースのパイプラインに従う現在の最先端のビジュアルグラウンドモデルと互換性がない。
本稿では, ACTRESS を略したセミスーパービジョン視覚グラウンドのためのアクティブ・リトレーニング手法を提案する。
論文 参考訳(メタデータ) (2024-07-03T16:33:31Z) - One Perturbation is Enough: On Generating Universal Adversarial Perturbations against Vision-Language Pre-training Models [46.64419395105025]
クロスモーダル条件 (C-PGC) を備えたコントラスト学習型摂動発電機を提案する。
C-PGCは、効果的なガイダンスとして、一方的な情報と横断的な情報の両方を取り入れている。
実験の結果、C-PGCは敵のサンプルを元の領域から遠ざけることに成功した。
論文 参考訳(メタデータ) (2024-06-08T15:01:54Z) - EffoVPR: Effective Foundation Model Utilization for Visual Place Recognition [6.996304653818122]
本稿では,視覚的位置認識のための基礎モデルの可能性を活用するための効果的なアプローチを提案する。
ゼロショット設定であっても,自己注意層から抽出した特徴がVPRの強力な再ランカとして機能することを示す。
また,本手法は高いロバスト性および一般化を実証し,新しい最先端性能の設定を行う。
論文 参考訳(メタデータ) (2024-05-28T11:24:41Z) - SA-Attack: Improving Adversarial Transferability of Vision-Language
Pre-training Models via Self-Augmentation [56.622250514119294]
ホワイトボックスの敵攻撃とは対照的に、転送攻撃は現実世界のシナリオをより反映している。
本稿では,SA-Attackと呼ばれる自己拡張型転送攻撃手法を提案する。
論文 参考訳(メタデータ) (2023-12-08T09:08:50Z) - Combining inherent knowledge of vision-language models with unsupervised domain adaptation through strong-weak guidance [44.1830188215271]
教師なしドメイン適応(UDA)は、ラベル付きソースデータセットを活用することで、データのラベル付けの面倒な作業を克服しようとする。
現在の視覚言語モデルは、顕著なゼロショット予測能力を示す。
我々は、ゼロショット予測を用いて、ソースとターゲットデータセットの整列を支援する、強弱誘導学習スキームを導入する。
論文 参考訳(メタデータ) (2023-12-07T06:16:39Z) - Towards Robust and Accurate Visual Prompting [11.918195429308035]
本研究では,ロバストモデルから派生した視覚的プロンプトが,一般化性能の低下に悩まされながら,ロバスト性を継承できるかどうかを検討する。
本稿では,PBL(Prompt Boundary Loose)と呼ばれる新しい手法を提案する。
本研究は普遍的であり,提案手法の意義を実証するものである。
論文 参考訳(メタデータ) (2023-11-18T07:00:56Z) - Uncovering the Hidden Cost of Model Compression [43.62624133952414]
視覚プロンプティングは、コンピュータビジョンにおける伝達学習の重要な方法として登場した。
モデル圧縮は視覚的プロンプトベース転送の性能に有害である。
しかし、量子化によってモデルが圧縮されるとき、キャリブレーションに対する負の効果は存在しない。
論文 参考訳(メタデータ) (2023-08-29T01:47:49Z) - Visual Prompting for Adversarial Robustness [63.89295305670113]
我々は、視覚的プロンプト計算を用いて、テスト時に固定された事前訓練されたモデルの対向ロバスト性を改善する。
本稿では,クラスワイズビジュアルプロンプトを生成するために,クラスワイズビジュアルプロンプト(C-AVP)と呼ばれる新しいVP手法を提案する。
C-AVPは従来のVP法よりも2.1倍の精度向上、2倍の堅牢な精度向上を実現している。
論文 参考訳(メタデータ) (2022-10-12T15:06:07Z) - Principled Knowledge Extrapolation with GANs [92.62635018136476]
我々は,知識外挿の新たな視点から,対実合成を研究する。
本稿では, 知識外挿問題に対処するために, クローズド形式判別器を用いた対角ゲームが利用可能であることを示す。
提案手法は,多くのシナリオにおいて,エレガントな理論的保証と優れた性能の両方を享受する。
論文 参考訳(メタデータ) (2022-05-21T08:39:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。