論文の概要: Prompt-based Adaptation in Large-scale Vision Models: A Survey
- arxiv url: http://arxiv.org/abs/2510.13219v1
- Date: Wed, 15 Oct 2025 07:14:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-16 20:13:28.539289
- Title: Prompt-based Adaptation in Large-scale Vision Models: A Survey
- Title(参考訳): 大規模視覚モデルにおけるプロンプトに基づく適応:サーベイ
- Authors: Xi Xiao, Yunbei Zhang, Lin Zhao, Yiyang Liu, Xiaoying Liao, Zheda Mai, Xingjian Li, Xiao Wang, Hao Xu, Jihun Hamm, Xue Lin, Min Xu, Qifan Wang, Tianyang Wang, Cheng Han,
- Abstract要約: Visual Prompting (VP) と Visual Prompt Tuning (VPT) は、大規模なビジョンモデルに適応するための完全な微調整の軽量な代替品として登場した。
既存の手法を学習可能、生成可能、学習不能のプロンプトに分類する分類法を提供する。
医療画像、3Dポイントクラウド、ビジョン言語タスクなど、さまざまな領域にわたるPAの統合について検討する。
- 参考スコア(独自算出の注目度): 62.09307869247613
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In computer vision, Visual Prompting (VP) and Visual Prompt Tuning (VPT) have recently emerged as lightweight and effective alternatives to full fine-tuning for adapting large-scale vision models within the ``pretrain-then-finetune'' paradigm. However, despite rapid progress, their conceptual boundaries remain blurred, as VP and VPT are frequently used interchangeably in current research, reflecting a lack of systematic distinction between these techniques and their respective applications. In this survey, we revisit the designs of VP and VPT from first principles, and conceptualize them within a unified framework termed Prompt-based Adaptation (PA). We provide a taxonomy that categorizes existing methods into learnable, generative, and non-learnable prompts, and further organizes them by injection granularity -- pixel-level and token-level. Beyond the core methodologies, we examine PA's integrations across diverse domains, including medical imaging, 3D point clouds, and vision-language tasks, as well as its role in test-time adaptation and trustworthy AI. We also summarize current benchmarks and identify key challenges and future directions. To the best of our knowledge, we are the first comprehensive survey dedicated to PA's methodologies and applications in light of their distinct characteristics. Our survey aims to provide a clear roadmap for researchers and practitioners in all area to understand and explore the evolving landscape of PA-related research.
- Abstract(参考訳): コンピュータビジョンにおいて、Visual Prompting (VP) と Visual Prompt Tuning (VPT) は、'pretrain-then-finetune' パラダイム内で大規模ビジョンモデルを適用するための完全な微調整の軽量で効果的な代替手段として最近登場した。
しかし、急激な進歩にもかかわらず、その概念的境界は曖昧なままであり、VPとVPTは、これらの技術とそれぞれの応用の体系的な区別の欠如を反映して、現在の研究で頻繁に交互に使用される。
本稿では,VPとVPTの設計を第一原理から再検討し,Prompt-based Adaptation (PA) と呼ばれる統一フレームワークでそれらを概念化する。
既存の手法を学習可能、生成可能、学習不能のプロンプトに分類し、さらにピクセルレベルとトークンレベルの粒度を注入することでそれらを整理する分類法を提供する。
コア方法論の他に、医療画像、3Dポイントクラウド、ビジョン言語タスク、テスト時間適応と信頼できるAIなど、さまざまな領域にわたるPAの統合についても検討する。
また、現在のベンチマークを要約し、主要な課題と今後の方向性を特定します。
私たちの知る限りでは、私たちはPAの方法論と応用について、その特徴を考慮に入れた初めての総合的な調査です。
本調査は,PA関連研究の進展状況を理解し,探究するために,各分野の研究者や実践者に対して明確なロードマップを提供することを目的としている。
関連論文リスト
- AceVFI: A Comprehensive Survey of Advances in Video Frame Interpolation [8.563354084119062]
ビデオフレーム補間(VFI)は、既存のフレーム間で中間フレームを合成する基本的な低レベルビジョン(LLV)タスクである。
これまでにVFIに関する最も包括的な調査であるAceVFIを紹介します。
中心時間フレーム補間(CTFI)と任意時間フレーム補間(ATFI)の学習パラダイムを分類する。
論文 参考訳(メタデータ) (2025-06-01T16:01:24Z) - An Empirical Study of Federated Prompt Learning for Vision Language Model [89.2963764404892]
本稿では,言語プロンプト学習(VPT)と視覚プロンプト学習(VLM)の行動的差異を系統的に検討する。
我々は、FPL(Federated Prompt Learning)の堅牢性を評価するために、クライアントスケール、集約戦略、即時長といった様々なFLと迅速な構成の影響を評価する。
論文 参考訳(メタデータ) (2025-05-29T03:09:15Z) - Exploring Interpretability for Visual Prompt Tuning with Hierarchical Concepts [39.92376420375139]
視覚的プロンプトの解釈可能性を検討するために,最初のフレームワークであるInterpretable Visual Prompt Tuningを提案する。
視覚的プロンプトは、カテゴリーに依存しないプロトタイプのセットとして表される、人間の理解可能なセマンティックな概念と関連付けられている。
IVPTはこれらの領域の特徴を集約して解釈可能なプロンプトを生成する。
論文 参考訳(メタデータ) (2025-03-08T06:12:50Z) - Adversarial Prompt Distillation for Vision-Language Models [61.39214202062028]
Adversarial Prompt Tuning (APT) は、迅速なチューニングの過程において、相手のトレーニングを適用する。
APDは、マルチモーダルな知識伝達と統合してAPTを強化するバイモーダルな知識蒸留フレームワークである。
複数のベンチマークデータセットに対する大規模な実験は、現在最先端のAPT法よりもAPD法の方が優れていることを示す。
論文 参考訳(メタデータ) (2024-11-22T03:02:13Z) - Exploring the Effectiveness of Object-Centric Representations in Visual Question Answering: Comparative Insights with Foundation Models [24.579822095003685]
下流視覚質問応答(VQA)における表現学習に関する実証的研究を行った。
我々はOCモデルと代替アプローチの利点とトレードオフを徹底的に検討する。
両パラダイムの強みを活用するための,有望な道を見つける。
論文 参考訳(メタデータ) (2024-07-22T12:26:08Z) - Anomaly Detection by Adapting a pre-trained Vision Language Model [48.225404732089515]
トレーニング済みのCLIPモデルに適応することで,異常検出のためのCLIP-ADAという統合フレームワークを提案する。
学習可能なプロンプトを導入し、自己教師付き学習を通して異常パターンに関連付けることを提案する。
MVTec-AD と VisA の異常検出と局所化のための最新技術 97.5/55.6 と 89.3/33.1 を実現した。
論文 参考訳(メタデータ) (2024-03-14T15:35:07Z) - A Survey on Open-Vocabulary Detection and Segmentation: Past, Present, and Future [6.4105103117533755]
分類学は、まず様々なタスクと方法論を整理するために開発された。
提案した分類法は、オブジェクト検出、セマンティック/インスタンス/パノプティクスのセグメンテーション、3Dとビデオの理解など、さまざまなタスクにまたがって普遍的である。
論文 参考訳(メタデータ) (2023-07-18T12:52:49Z) - ViDA: Homeostatic Visual Domain Adapter for Continual Test Time Adaptation [48.039156140237615]
目標ドメインの継続的な変更に事前訓練されたモデルを適用するために、連続的なテスト時間適応タスクを提案する。
我々はCTTA用のVisual Domain Adapter (ViDA) を設計し、ドメイン固有知識とドメイン共有知識の両方を明示的に扱う。
提案手法は,CTTAタスクの分類とセグメント化の両方において,最先端の性能を実現する。
論文 参考訳(メタデータ) (2023-06-07T11:18:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。