論文の概要: Sample-specific Masks for Visual Reprogramming-based Prompting
- arxiv url: http://arxiv.org/abs/2406.03150v1
- Date: Wed, 5 Jun 2024 11:15:43 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-06 18:50:02.211125
- Title: Sample-specific Masks for Visual Reprogramming-based Prompting
- Title(参考訳): 視覚再生型プロンプティングのためのサンプル固有マスク
- Authors: Chengyi Cai, Zesheng Ye, Lei Feng, Jianzhong Qi, Feng Liu,
- Abstract要約: ビジュアルリプログラミング(VR)は、タスクをターゲットにしたトレーニング済みモデルの再利用を目的としたプロンプト技術である。
本稿では,共有マスクがVRの一般化を制限し,近似誤差を増大させる可能性を示す。
この発見に動機づけられた我々は、サンプル特異的マルチチャネルマスク(SMM)と呼ばれるVRのための新しいフレームワークを設計した。
- 参考スコア(独自算出の注目度): 20.27639343292564
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Visual reprogramming (VR) is a prompting technique that aims to re-purpose a pre-trained model (e.g., a classifier on ImageNet) to target tasks (e.g., medical data prediction) by learning a small-scale pattern added into input images instead of tuning considerable parameters within the model. The location of the pattern within input samples is usually determined by a pre-defined mask shared across all samples. In this paper, we show that the shared mask potentially limits VR's generalization and increases its approximation error due to the lack of sample-level adaptation. Motivated by this finding, we design a new framework for VR called sample-specific multi-channel masks (SMM). Specifically, SMM employs a lightweight ConvNet and patch-wise interpolation to generate sample-specific three-channel masks instead of a shared and pre-defined mask. Since we generate different masks for individual samples, SMM is theoretically shown to reduce approximation error for the target tasks compared with existing state-of-the-art VR methods. We also empirically demonstrate its performance gain on both ResNet and ViT. The success of SMM further highlights the broader applicability of VR in leveraging the latent knowledge of pre-trained models for various target tasks. Our code is available at https://github.com/tmlr-group/SMM.
- Abstract(参考訳): ビジュアル・リプログラミング(VR)は、事前訓練されたモデル(例えば、ImageNet上の分類器)を、モデル内のかなりのパラメータをチューニングせずに入力画像に付加された小さなパターンを学習することにより、タスク(例えば、医療データ予測)をターゲットとするプロンプト技術である。
入力サンプル内のパターンの位置は通常、すべてのサンプル間で共有される事前定義されたマスクによって決定される。
本稿では,共有マスクがVRの一般化を制限し,サンプルレベル適応の欠如により近似誤差を増大させる可能性を示す。
この発見に触発され、サンプル特異的マルチチャネルマスク(SMM)と呼ばれるVR用の新しいフレームワークを設計した。
具体的には、SMMは軽量なConvNetとパッチワイド補間を使用して、共有および事前定義されたマスクの代わりにサンプル固有の3チャンネルマスクを生成する。
個々のサンプルに対して異なるマスクを生成するため、SMMは既存の最先端VR手法と比較して目標タスクの近似誤差を低減することが理論的に示されている。
また、ResNetとViTの両方のパフォーマンス向上を実証的に実証しています。
SMMの成功は、様々な目標タスクに事前訓練されたモデルの潜在知識を活用することで、VRの幅広い適用性をさらに強調する。
私たちのコードはhttps://github.com/tmlr-group/SMMで利用可能です。
関連論文リスト
- Bridge the Points: Graph-based Few-shot Segment Anything Semantically [79.1519244940518]
プレトレーニング技術の最近の進歩により、視覚基礎モデルの能力が向上した。
最近の研究はSAMをFew-shot Semantic segmentation (FSS)に拡張している。
本稿では,グラフ解析に基づく簡易かつ効果的な手法を提案する。
論文 参考訳(メタデータ) (2024-10-09T15:02:28Z) - Pluralistic Salient Object Detection [108.74650817891984]
本稿では,与えられた入力画像に対して,複数の有意な有意な有意な有意な有意な有意な分割結果を生成することを目的とした新しい課題であるPSOD(multiistic Salient Object Detection)を紹介する。
新たに設計された評価指標とともに,2つのSODデータセット "DUTS-MM" と "DUS-MQ" を提案する。
論文 参考訳(メタデータ) (2024-09-04T01:38:37Z) - Synthetic dual image generation for reduction of labeling efforts in semantic segmentation of micrographs with a customized metric function [0.0]
材料分析のためのセマンティックセグメンテーションモデルの訓練には、マイクログラフとそれに対応するマスクが必要である。
マスクと組み合わせた合成微細構造画像の生成による意味的セグメンテーションモデルの改善のためのワークフローを実証する。
このアプローチは、少数の実画像を持つモデルをトレーニングするためのユーザフレンドリなソリューションとして機能するなど、さまざまな種類の画像データに一般化することができる。
論文 参考訳(メタデータ) (2024-08-01T16:54:11Z) - MaskUno: Switch-Split Block For Enhancing Instance Segmentation [0.0]
マスク予測を洗練されたROIを処理し、それらを分類し、特定のマスク予測者に割り当てるスイッチスプリットブロックに置き換えることを提案する。
平均平均精度(mAP)が2.03%上昇し,80クラスにおいて高い成績を示した。
論文 参考訳(メタデータ) (2024-07-31T10:12:14Z) - ColorMAE: Exploring data-independent masking strategies in Masked AutoEncoders [53.3185750528969]
Masked AutoEncoders (MAE)は、堅牢な自己管理フレームワークとして登場した。
データに依存しないColorMAEという手法を導入し、ランダムノイズをフィルタすることで異なる二元マスクパターンを生成する。
ランダムマスキングと比較して,下流タスクにおける戦略の優位性を示す。
論文 参考訳(メタデータ) (2024-07-17T22:04:00Z) - Improving Masked Autoencoders by Learning Where to Mask [65.89510231743692]
マスケ画像モデリングは視覚データに対する有望な自己教師型学習手法である。
本稿では,Gumbel-Softmax を用いて,対向学習マスク生成装置とマスク誘導画像モデリングプロセスとを相互接続するフレームワーク AutoMAE を提案する。
実験の結果,AutoMAEは,標準の自己監督型ベンチマークや下流タスクに対して,効果的な事前学習モデルを提供することがわかった。
論文 参考訳(メタデータ) (2023-03-12T05:28:55Z) - Masked Autoencoding for Scalable and Generalizable Decision Making [93.84855114717062]
MaskDPは、強化学習と行動クローンのためのシンプルでスケーラブルな自己教師付き事前学習手法である。
我々は,MaskDPモデルにより,単一ゴールや複数ゴール到達といった新しいBCタスクへのゼロショット転送能力が得られることを発見した。
論文 参考訳(メタデータ) (2022-11-23T07:04:41Z) - MaskViT: Masked Visual Pre-Training for Video Prediction [29.25521342538311]
マスク付き視覚モデルを用いて、トランスフォーマーを事前学習することで、優れた映像予測モデルを作成する。
MaskViTは、ビデオ予測における以前の作業よりも優れ、パラメータ効率が高く、高解像度のビデオを生成することができる。
我々の研究は、マスク付き視覚モデリングの一般的な枠組みを活用することで、強力な予測モデルでエンボディードエージェントを育むことができることを示唆している。
論文 参考訳(メタデータ) (2022-06-23T17:59:33Z) - PointINS: Point-based Instance Segmentation [117.38579097923052]
POI(Point-of-Interest)機能によるインスタンスセグメンテーションにおけるマスク表現は、各インスタンスの高次元マスク機能を学ぶには、計算負荷が重いため、難しい。
本稿では、このマスク表現学習タスクを2つの抽出可能なモジュールに分解するインスタンス認識畳み込みを提案する。
インスタンス認識の畳み込みとともに、単純で実用的なインスタンスセグメンテーションアプローチであるPointINSを提案する。
論文 参考訳(メタデータ) (2020-03-13T08:24:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。