論文の概要: AdaViPro: Region-based Adaptive Visual Prompt for Large-Scale Models Adapting
- arxiv url: http://arxiv.org/abs/2403.13282v2
- Date: Fri, 14 Jun 2024 07:00:30 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-17 18:42:49.683416
- Title: AdaViPro: Region-based Adaptive Visual Prompt for Large-Scale Models Adapting
- Title(参考訳): AdaViPro: 大規模モデル適応のための領域ベースの適応型ビジュアルプロンプト
- Authors: Mengyu Yang, Ye Tian, Lanshan Zhang, Xiao Liang, Xuming Ran, Wendong Wang,
- Abstract要約: 学習プロセスにプロンプトの「最適化」を組み込む領域ベースの適応型ビジュアルプロンプトAdaViProを提案する。
AdaViProは画像全体の地域化マスクマップを生成し、0と1で構成され、各領域にプロンプトを適用するか破棄するかを指定する。
- 参考スコア(独自算出の注目度): 8.662127947077995
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, prompt-based methods have emerged as a new alternative `parameter-efficient fine-tuning' paradigm, which only fine-tunes a small number of additional parameters while keeping the original model frozen. However, despite achieving notable results, existing prompt methods mainly focus on `what to add', while overlooking the equally important aspect of `where to add', typically relying on the manually crafted placement. To this end, we propose a region-based Adaptive Visual Prompt, named AdaViPro, which integrates the `where to add' optimization of the prompt into the learning process. Specifically, we reconceptualize the `where to add' optimization as a problem of regional decision-making. During inference, AdaViPro generates a regionalized mask map for the whole image, which is composed of 0 and 1, to designate whether to apply or discard the prompt in each specific area. Therefore, we employ Gumbel-Softmax sampling to enable AdaViPro's end-to-end learning through standard back-propagation. Extensive experiments demonstrate that our AdaViPro yields new efficiency and accuracy trade-offs for adapting pre-trained models.
- Abstract(参考訳): 近年、プロンプトベースの手法が新しい「パラメータ効率のよい微調整」パラダイムとして登場した。
しかしながら、注目すべき結果が得られているにも関わらず、既存のプロンプトメソッドは主に‘What to add’に焦点を当て、手作業による配置に依存する‘where to add’の同じくらい重要な側面を見下ろしている。
そこで本研究では,AdaViProという領域ベースのAdaptive Visual Promptを提案し,学習プロセスにプロンプトの‘where to add’最適化を統合する。
具体的には,地域意思決定の課題として,「追加する場所」の最適化を再認識する。
推論中、AdaViProは画像全体の地域化マスクマップを生成し、0と1で構成され、各特定の領域にプロンプトを適用するか破棄するかを指定する。
そこで我々は,標準のバックプロパゲーションによるAdaViProのエンドツーエンド学習を可能にするために,Gumbel-Softmaxサンプリングを利用する。
大規模な実験により、AdaViProは事前訓練されたモデルに適応するための新しい効率性と精度のトレードオフをもたらすことが示された。
関連論文リスト
- MaPPER: Multimodal Prior-guided Parameter Efficient Tuning for Referring Expression Comprehension [14.98036475954174]
Referring Expressionvolution (REC) は、自然言語を介して局所的な視覚領域を構築することを目的としている。
既存のほとんどの方法は、強力な事前訓練されたモデルを使用して、完全な微調整によって視覚的/言語的な知識を伝達する。
本稿では,Multi pre-guided Directly Efficient Tuning,すなわちMaPPERを提案する。
MaPPERは、1.41%のバックボーンパラメータしか持たないフル微調整や他のPETL法と比較して、最も精度が高い。
論文 参考訳(メタデータ) (2024-09-20T16:12:26Z) - Parameter Hierarchical Optimization for Visible-Infrared Person Re-Identification [0.6675805308519986]
Visible-infrared person re-identification (VI-reID) は、視界や赤外線カメラで捉えた、モダリティの横断的な歩行者像のマッチングを目的としている。
VI-ReIDのタスクに対して,パラメータ階層最適化(PHO)手法を新たに提案する。
これにより、パラメータの検索スペースを狭め、ネットワーク全体をトレーニングしやすくする。
論文 参考訳(メタデータ) (2024-04-11T17:27:39Z) - Towards Seamless Adaptation of Pre-trained Models for Visual Place Recognition [72.35438297011176]
視覚的位置認識のための事前学習モデル(VPR)のシームレスな適応を実現する新しい手法を提案する。
具体的には、地域を識別するための有意義なランドマークに焦点を当てたグローバルな特徴とローカルな特徴の両方を得るために、ハイブリッド適応法を設計する。
実験結果から,本手法はトレーニングデータやトレーニング時間が少なく,最先端の手法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2024-02-22T12:55:01Z) - Class Incremental Learning with Pre-trained Vision-Language Models [59.15538370859431]
本稿では、事前学習された視覚言語モデル(例えば、CLIP)を利用して、さらなる適応を可能にするアプローチを提案する。
いくつかの従来のベンチマークの実験は、常に現在の最先端よりも顕著な改善のマージンを示している。
論文 参考訳(メタデータ) (2023-10-31T10:45:03Z) - Bayesian Prompt Learning for Image-Language Model Generalization [64.50204877434878]
我々はベイズ法の正規化能力を用いて、変分推論問題としてプロンプト学習をフレーム化する。
提案手法は,プロンプト空間を正規化し,目に見えないプロンプトへの過剰適合を低減し,目に見えないプロンプトのプロンプト一般化を改善する。
ベイジアン・プロンプト学習がプロンプト空間の適切なカバレッジを提供する15のベンチマークを実証的に示す。
論文 参考訳(メタデータ) (2022-10-05T17:05:56Z) - Fine-grained Retrieval Prompt Tuning [149.9071858259279]
微粒な検索プロンプトチューニングは, サンプルプロンプトと特徴適応の観点から, きめの細かい検索タスクを実行するために, 凍結した事前学習モデルを操る。
学習可能なパラメータが少ないFRPTは、広く使われている3つの細粒度データセットの最先端性能を実現する。
論文 参考訳(メタデータ) (2022-07-29T04:10:04Z) - An End-to-End Transformer Model for Crowd Localization [64.15335535775883]
頭の位置を予測するクラウドローカライゼーションは、単にカウントするよりも実用的でハイレベルなタスクである。
既存の方法は擬似有界ボックスや事前設計されたローカライゼーションマップを使用し、複雑な後処理に頼って先頭位置を得る。
本稿では,レグレッションベースパラダイムの課題を解決するエレガントでエンドツーエンドなクラウドローカライゼーションTRansformerを提案する。
論文 参考訳(メタデータ) (2022-02-26T05:21:30Z) - Efficient Semantic Image Synthesis via Class-Adaptive Normalization [116.63715955932174]
クラス適応正規化(CLADE)は、セマンティッククラスにのみ適応する軽量かつ等価なバリアントである。
セマンティクスレイアウトから計算したクラス内位置マップエンコーディングを導入し,cladeの正規化パラメータを変調する。
提案されたCLADEは異なるSPADEベースのメソッドに一般化し、SPADEと比較して同等の生成品質を達成できる。
論文 参考訳(メタデータ) (2020-12-08T18:59:32Z) - Projective Preferential Bayesian Optimization [12.431251769382888]
本研究では,高次元空間におけるユーザの好みを学習するためのベイズ最適化手法を提案する。
我々のフレームワークは、高次元のブラックボックス関数のグローバル最小値を見つけることができる。
論文 参考訳(メタデータ) (2020-02-08T08:29:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。