論文の概要: VirDA: Reusing Backbone for Unsupervised Domain Adaptation with Visual Reprogramming
- arxiv url: http://arxiv.org/abs/2510.01660v2
- Date: Fri, 03 Oct 2025 01:53:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-06 12:05:48.073513
- Title: VirDA: Reusing Backbone for Unsupervised Domain Adaptation with Visual Reprogramming
- Title(参考訳): VirDA: ビジュアルリプログラミングによる教師なしドメイン適応のためのバックボーンの再利用
- Authors: Duy Nguyen, Dat Nguyen,
- Abstract要約: VirDAはドメイン固有のビジュアル・リプログラミング・レイヤをバックボーンにプリペイドする。
VirDAをOffice-31上で評価し,平均精度92.8%,トレーニング可能なパラメータは1.5Mに留まった。
- 参考スコア(独自算出の注目度): 5.878775752784942
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing UDA pipelines fine-tune already well-trained backbone parameters for every new source-and-target pair, resulting in the number of training parameters and storage memory growing linearly with each new pair, and also preventing the reuse of these well-trained backbone parameters. Inspired by recent implications that existing backbones have textural biases, we propose making use of domain-specific textural bias for domain adaptation via visual reprogramming, namely VirDA. Instead of fine-tuning the full backbone, VirDA prepends a domain-specific visual reprogramming layer to the backbone. This layer produces visual prompts that act as an added textural bias to the input image, adapting its "style" to a target domain. To optimize these visual reprogramming layers, we use multiple objective functions that optimize the intra- and inter-domain distribution differences when domain-adapting visual prompts are applied. This process does not require modifying the backbone parameters, allowing the same backbone to be reused across different domains. We evaluate VirDA on Office-31 and obtain 92.8% mean accuracy with only 1.5M trainable parameters. VirDA surpasses PDA, the state-of-the-art parameter-efficient UDA baseline, by +1.6% accuracy while using just 46% of its parameters. Compared with full-backbone fine-tuning, VirDA outperforms CDTrans and FixBi by +0.2% and +1.4%, respectively, while requiring only 1.7% and 2.8% of their trainable parameters. Relative to the strongest current methods (PMTrans and TVT), VirDA uses ~1.7% of their parameters and trades off only 2.2% and 1.1% accuracy, respectively.
- Abstract(参考訳): 既存のUDAパイプラインは、新しいソースとターゲットのペアごとに、すでに十分にトレーニングされたバックボーンパラメータを微調整しているため、トレーニングパラメータとストレージメモリの数が新しいペアごとに線形に増加し、トレーニングされたバックボーンパラメータの再利用を妨げている。
既存のバックボーンがテクスチャバイアスを持つという最近の意味から着想を得て,ビジュアルリプログラミング,すなわちVirDAを用いてドメイン固有のテクスチャバイアスをドメイン適応に適用することを提案する。
完全なバックボーンを微調整する代わりに、VirDAはドメイン固有のビジュアルリプログラミング層をバックボーンにプリペンドする。
このレイヤは、入力画像に追加のテクスチャバイアスとして機能する視覚的プロンプトを生成し、その"スタイル"をターゲットドメインに適応させる。
これらの視覚的再プログラミング層を最適化するために、ドメイン適応型視覚プロンプトを適用する際に、ドメイン内およびドメイン間分布の差異を最適化する複数の目的関数を用いる。
このプロセスではバックボーンパラメータを変更する必要はなく、同じバックボーンを異なるドメインで再利用することができる。
VirDAをOffice-31上で評価し,平均精度92.8%,トレーニング可能なパラメータは1.5Mに留まった。
VirDA は最先端のパラメータ効率の UDA ベースラインである PDA を +1.6% の精度で上回り、パラメータの 46% しか使用していない。
フルバックボーンの微調整と比較して、VirDAはCDTransとFixBiを+0.2%、+1.4%で上回り、トレーニング可能なパラメータの1.7%と2.8%しか必要としない。
最強の現行手法(PMTransとTVT)とは対照的に、VirDAはパラメータの約1.7%を使用しており、それぞれ2.2%と1.1%の精度で取引されている。
関連論文リスト
- GEM: A Scale-Aware and Distribution-Sensitive Sparse Fine-Tuning Framework for Effective Downstream Adaptation [21.481261295689208]
勾配重量比とエントロピー誘導マスキング(GEM)
GEMは、初期トレーニング済みの値に比例して更新が重要であるパラメータを優先順位付けする。
また、パラメータ値のエントロピーに基づいて各層でチューニングすべきパラメータ数を適応的に決定する。
論文 参考訳(メタデータ) (2025-08-22T08:12:06Z) - ALoRE: Efficient Visual Adaptation via Aggregating Low Rank Experts [71.91042186338163]
ALoREは、Kroneckerによって構築された超複素パラメータ化空間をAggregate Low Rank Expertsに再利用する新しいPETL法である。
巧妙な設計のおかげで、ALoREは無視できる余分なパラメータを保持し、凍ったバックボーンに強制的にマージできる。
論文 参考訳(メタデータ) (2024-12-11T12:31:30Z) - Sensitivity-Aware Visual Parameter-Efficient Fine-Tuning [91.5113227694443]
私たちは新しいビジュアルを提案します。
Sensuous-Aware Fine-Tuning (SPT) スキーム。
SPTはタスク固有の重要な位置にトレーニング可能なパラメータを割り当てる。
ダウンストリーム認識タスクの幅広い実験により,SPTは既存のPEFT法と相補的であることが示された。
論文 参考訳(メタデータ) (2023-03-15T12:34:24Z) - Prompt Tuning for Parameter-efficient Medical Image Segmentation [79.09285179181225]
2つの医用画像データセットのセマンティックセグメンテーションにパラメータ効率が良いが効果的な適応を実現するために,いくつかのコントリビューションを提案し,検討する。
我々はこのアーキテクチャを、オンライン生成プロトタイプへの割り当てに基づく専用密集型セルフスーパービジョンスキームで事前訓練する。
得られたニューラルネットワークモデルにより、完全に微調整されたモデルとパラメータに適応したモデルとのギャップを緩和できることを実証する。
論文 参考訳(メタデータ) (2022-11-16T21:55:05Z) - Scaling & Shifting Your Features: A New Baseline for Efficient Model
Tuning [126.84770886628833]
既存の微調整法は、事前訓練されたモデルの全てのパラメータ(フル微調整)をチューニングするか、最後の線形層(線形プローブ)のみをチューニングする。
そこで本研究では,SSFと呼ばれるパラメータ効率の高いファインタニング手法を提案する。
論文 参考訳(メタデータ) (2022-10-17T08:14:49Z) - Efficient CNN Architecture Design Guided by Visualization [13.074652653088584]
VGNetG-1.0MPは0.99Mパラメータで67.7%、ImageNet分類データセットで1.14Mパラメータで69.2%である。
我々のVGNetF-1.5MPは64.4%(-3.2%)のトップ1の精度と66.2%(-1.4%)のトップ1の精度でガウスカーネルを追加している。
論文 参考訳(メタデータ) (2022-07-21T06:22:15Z) - Global Vision Transformer Pruning with Hessian-Aware Saliency [93.33895899995224]
この研究はヴィジュアルトランスフォーマー(ViT)モデルの共通設計哲学に挑戦する。
遅延を意識した規則化による直接遅延低減を実現し,すべての層や構造に匹敵する新しいヘッセン型構造解析基準を導出する。
DeiT-Baseモデルで反復的なプルーニングを実行すると、NViT(Novel ViT)と呼ばれる新しいアーキテクチャファミリが生まれ、パラメータをより効率的に利用する新しいパラメータが現れる。
論文 参考訳(メタデータ) (2021-10-10T18:04:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。