論文の概要: Sample-specific Masks for Visual Reprogramming-based Prompting
- arxiv url: http://arxiv.org/abs/2406.03150v1
- Date: Wed, 5 Jun 2024 11:15:43 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-06 18:50:02.211125
- Title: Sample-specific Masks for Visual Reprogramming-based Prompting
- Title(参考訳): 視覚再生型プロンプティングのためのサンプル固有マスク
- Authors: Chengyi Cai, Zesheng Ye, Lei Feng, Jianzhong Qi, Feng Liu,
- Abstract要約: ビジュアルリプログラミング(VR)は、タスクをターゲットにしたトレーニング済みモデルの再利用を目的としたプロンプト技術である。
本稿では,共有マスクがVRの一般化を制限し,近似誤差を増大させる可能性を示す。
この発見に動機づけられた我々は、サンプル特異的マルチチャネルマスク(SMM)と呼ばれるVRのための新しいフレームワークを設計した。
- 参考スコア(独自算出の注目度): 20.27639343292564
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Visual reprogramming (VR) is a prompting technique that aims to re-purpose a pre-trained model (e.g., a classifier on ImageNet) to target tasks (e.g., medical data prediction) by learning a small-scale pattern added into input images instead of tuning considerable parameters within the model. The location of the pattern within input samples is usually determined by a pre-defined mask shared across all samples. In this paper, we show that the shared mask potentially limits VR's generalization and increases its approximation error due to the lack of sample-level adaptation. Motivated by this finding, we design a new framework for VR called sample-specific multi-channel masks (SMM). Specifically, SMM employs a lightweight ConvNet and patch-wise interpolation to generate sample-specific three-channel masks instead of a shared and pre-defined mask. Since we generate different masks for individual samples, SMM is theoretically shown to reduce approximation error for the target tasks compared with existing state-of-the-art VR methods. We also empirically demonstrate its performance gain on both ResNet and ViT. The success of SMM further highlights the broader applicability of VR in leveraging the latent knowledge of pre-trained models for various target tasks. Our code is available at https://github.com/tmlr-group/SMM.
- Abstract(参考訳): ビジュアル・リプログラミング(VR)は、事前訓練されたモデル(例えば、ImageNet上の分類器)を、モデル内のかなりのパラメータをチューニングせずに入力画像に付加された小さなパターンを学習することにより、タスク(例えば、医療データ予測)をターゲットとするプロンプト技術である。
入力サンプル内のパターンの位置は通常、すべてのサンプル間で共有される事前定義されたマスクによって決定される。
本稿では,共有マスクがVRの一般化を制限し,サンプルレベル適応の欠如により近似誤差を増大させる可能性を示す。
この発見に触発され、サンプル特異的マルチチャネルマスク(SMM)と呼ばれるVR用の新しいフレームワークを設計した。
具体的には、SMMは軽量なConvNetとパッチワイド補間を使用して、共有および事前定義されたマスクの代わりにサンプル固有の3チャンネルマスクを生成する。
個々のサンプルに対して異なるマスクを生成するため、SMMは既存の最先端VR手法と比較して目標タスクの近似誤差を低減することが理論的に示されている。
また、ResNetとViTの両方のパフォーマンス向上を実証的に実証しています。
SMMの成功は、様々な目標タスクに事前訓練されたモデルの潜在知識を活用することで、VRの幅広い適用性をさらに強調する。
私たちのコードはhttps://github.com/tmlr-group/SMMで利用可能です。
関連論文リスト
- ColorMAE: Exploring data-independent masking strategies in Masked AutoEncoders [53.3185750528969]
Masked AutoEncoders (MAE)は、堅牢な自己管理フレームワークとして登場した。
データに依存しないColorMAEという手法を導入し、ランダムノイズをフィルタすることで異なる二元マスクパターンを生成する。
ランダムマスキングと比較して,下流タスクにおける戦略の優位性を示す。
論文 参考訳(メタデータ) (2024-07-17T22:04:00Z) - Mask Propagation for Efficient Video Semantic Segmentation [63.09523058489429]
ビデオセマンティックベースライン劣化(VSS)は、ビデオシーケンス内の各ピクセルにセマンティックラベルを割り当てることを含む。
SSSSと呼ばれるVSSのための効率的なマスク伝搬フレームワークを提案する。
当社のフレームワークは,フレーム単位のMask2Formerと比較して最大4倍のFLOPを削減し,Cityscapes検証セット上では最大2% mIoUしか使用できない。
論文 参考訳(メタデータ) (2023-10-29T09:55:28Z) - MOCA: Self-supervised Representation Learning by Predicting Masked Online Codebook Assignments [72.6405488990753]
自己教師付き学習は、ビジョントランスフォーマーネットワークの欲求を軽減できる。
所望のプロパティを統一する単段および単段のMOCAを提案する。
我々は,様々な評価プロトコルにおいて,低照度設定と強力な実験結果に対して,最先端の新たな結果を得る。
論文 参考訳(メタデータ) (2023-07-18T15:46:20Z) - Constrained Probabilistic Mask Learning for Task-specific Undersampled
MRI Reconstruction [8.44194619347218]
アンダーサンプリング(アンダーサンプリング)は、磁気共鳴イメージング(MRI)において、k空間内のデータ点数をサブサンプリングする一般的な方法である。
データポイントからアンダーサンプリングマスクを直接学習する手法を提案する。
解剖学的に異なる部位で最適なアンダーサンプリングマスクが認められた。
論文 参考訳(メタデータ) (2023-05-25T14:42:04Z) - Improving Masked Autoencoders by Learning Where to Mask [65.89510231743692]
マスケ画像モデリングは視覚データに対する有望な自己教師型学習手法である。
本稿では,Gumbel-Softmax を用いて,対向学習マスク生成装置とマスク誘導画像モデリングプロセスとを相互接続するフレームワーク AutoMAE を提案する。
実験の結果,AutoMAEは,標準の自己監督型ベンチマークや下流タスクに対して,効果的な事前学習モデルを提供することがわかった。
論文 参考訳(メタデータ) (2023-03-12T05:28:55Z) - Masked Autoencoding for Scalable and Generalizable Decision Making [93.84855114717062]
MaskDPは、強化学習と行動クローンのためのシンプルでスケーラブルな自己教師付き事前学習手法である。
我々は,MaskDPモデルにより,単一ゴールや複数ゴール到達といった新しいBCタスクへのゼロショット転送能力が得られることを発見した。
論文 参考訳(メタデータ) (2022-11-23T07:04:41Z) - MaskViT: Masked Visual Pre-Training for Video Prediction [29.25521342538311]
マスク付き視覚モデルを用いて、トランスフォーマーを事前学習することで、優れた映像予測モデルを作成する。
MaskViTは、ビデオ予測における以前の作業よりも優れ、パラメータ効率が高く、高解像度のビデオを生成することができる。
我々の研究は、マスク付き視覚モデリングの一般的な枠組みを活用することで、強力な予測モデルでエンボディードエージェントを育むことができることを示唆している。
論文 参考訳(メタデータ) (2022-06-23T17:59:33Z) - PointINS: Point-based Instance Segmentation [117.38579097923052]
POI(Point-of-Interest)機能によるインスタンスセグメンテーションにおけるマスク表現は、各インスタンスの高次元マスク機能を学ぶには、計算負荷が重いため、難しい。
本稿では、このマスク表現学習タスクを2つの抽出可能なモジュールに分解するインスタンス認識畳み込みを提案する。
インスタンス認識の畳み込みとともに、単純で実用的なインスタンスセグメンテーションアプローチであるPointINSを提案する。
論文 参考訳(メタデータ) (2020-03-13T08:24:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。