論文の概要: Vision-aware Multimodal Prompt Tuning for Uploadable Multi-source Few-shot Domain Adaptation
- arxiv url: http://arxiv.org/abs/2503.06106v1
- Date: Sat, 08 Mar 2025 07:17:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-11 15:49:26.083984
- Title: Vision-aware Multimodal Prompt Tuning for Uploadable Multi-source Few-shot Domain Adaptation
- Title(参考訳): アップロード可能な多ソースFew-shot領域適応のための視覚認識型マルチモーダルプロンプトチューニング
- Authors: Kuanghong Liu, Jin Wang, Kangjian He, Dan Xu, Xuejie Zhang,
- Abstract要約: 本稿では,アップロード可能なマルチソース・マルチショットドメイン適応(UMFDA)スキーマを提案する。
これは、低計算負荷を維持しなければならないエッジサイドモデルにおける分散エッジ協調学習に属する。
分散スキーマ下での視覚対応マルチモーダル・プロンプト・チューニング・フレームワーク(VAMP)を提案する。
- 参考スコア(独自算出の注目度): 12.380114998101433
- License:
- Abstract: Conventional multi-source domain few-shot adaptation (MFDA) faces the challenge of further reducing the load on edge-side devices in low-resource scenarios. Considering the native language-supervised advantage of CLIP and the plug-and-play nature of prompt to transfer CLIP efficiently, this paper introduces an uploadable multi-source few-shot domain adaptation (UMFDA) schema. It belongs to a decentralized edge collaborative learning in the edge-side models that must maintain a low computational load. And only a limited amount of annotations in source domain data is provided, with most of the data being unannotated. Further, this paper proposes a vision-aware multimodal prompt tuning framework (VAMP) under the decentralized schema, where the vision-aware prompt guides the text domain-specific prompt to maintain semantic discriminability and perceive the domain information. The cross-modal semantic and domain distribution alignment losses optimize each edge-side model, while text classifier consistency and semantic diversity losses promote collaborative learning among edge-side models. Extensive experiments were conducted on OfficeHome and DomainNet datasets to demonstrate the effectiveness of the proposed VAMP in the UMFDA, which outperformed the previous prompt tuning methods.
- Abstract(参考訳): 従来のマルチソースドメインのマイクロショット適応(MFDA)は、低リソースシナリオにおけるエッジ側のデバイスへの負荷をさらに削減するという課題に直面している。
本稿では、CLIPのネイティブ言語による利点と、CLIPの転送を効率的に行うためのプラグイン・アンド・プレイの性質を考慮し、アップロード可能なマルチソース・マルチショット・ドメイン適応(UMFDA)スキーマを提案する。
これは、低計算負荷を維持しなければならないエッジサイドモデルにおける分散エッジ協調学習に属する。
そして、ソースドメインデータに限られた量のアノテーションしか提供されず、ほとんどのデータは注釈なしです。
さらに、分散スキーマ下での視覚対応マルチモーダル・プロンプト・チューニング・フレームワーク(VAMP)を提案し、視覚対応プロンプトは、テキストドメイン固有のプロンプトを案内し、意味的識別性を維持し、ドメイン情報を知覚する。
クロスモーダルなセマンティックとドメイン分布のアライメントの損失はそれぞれのエッジサイドモデルを最適化し、テキスト分類器の一貫性とセマンティックな多様性の損失はエッジサイドモデル間の協調学習を促進する。
UMFDAにおいて提案されたVAMPの有効性を示すために、OfficeHomeとDomainNetデータセットで大規模な実験を行った。
関連論文リスト
- Multi-task Domain Adaptation for Computation Offloading in Edge-intelligence Networks [34.934911340540545]
本稿では,MTDA(Multi-Task Domain Adaptation)と呼ばれる新しいアプローチを提案する。
提案したMTDAモデルには,推論時にソースドメインデータへのアクセスを必要とせずに継続的適応が可能な教師学生アーキテクチャが組み込まれている。
提案するMTDAモデルは様々なシナリオで高い性能を維持しており,新興MECアプリケーションへの実用的な展開の可能性を示している。
論文 参考訳(メタデータ) (2025-01-02T13:20:29Z) - Multisource Collaborative Domain Generalization for Cross-Scene Remote Sensing Image Classification [57.945437355714155]
クロスシーン画像分類は, 異なる分布領域のアノテート領域に, 地中物質の事前の知識を伝達することを目的としている。
既存のアプローチでは、未確認のターゲットドメインへの単一ソースドメインの一般化に重点を置いている。
マルチソースリモートセンシングデータの均一性と不均一性特性に基づく,新しいマルチソース協調型ドメイン一般化フレームワーク(MS-CDG)を提案する。
論文 参考訳(メタデータ) (2024-12-05T06:15:08Z) - Dynamic Domain Discrepancy Adjustment for Active Multi-Domain Adaptation [3.367755441623275]
マルチソースアン教師付きドメイン適応(MUDA)は、関連するソースドメインから未ラベルのターゲットドメインに知識を転送することを目的としている。
アクティブマルチドメイン適応(D3AAMDA)のための動的ドメイン不一致適応法(Dynamic Domain Disrepancy Adjustment)を提案する。
このメカニズムは、ソースドメインとターゲットドメイン間の特徴のアライメントレベルを制御し、ソースドメイン内のローカルな有利な特徴情報を効果的に活用する。
論文 参考訳(メタデータ) (2023-07-26T09:40:19Z) - VoLTA: Vision-Language Transformer with Weakly-Supervised Local-Feature
Alignment [52.489874804051304]
VoLTAは、画像キャプチャデータのみを使用するが、きめ細かい領域レベルの画像理解を利用する新しい視覚言語事前学習パラダイムである。
VoLTAは、プレトレーニング中にマルチモーダル融合をユニモーダルバックボーンに深く押し込む。
広範囲の視覚および視覚の下流タスクの実験は、VoLTAの有効性を実証している。
論文 参考訳(メタデータ) (2022-10-09T01:49:58Z) - Multi-Prompt Alignment for Multi-Source Unsupervised Domain Adaptation [86.02485817444216]
マルチプロンプトアライメント(MPA: Multi-Prompt Alignment)は,マルチソースUDAのためのシンプルかつ効率的なフレームワークである。
MPAは、学習したプロンプトを自動エンコードプロセスで認知し、再構築されたプロンプトの合意を最大化することでそれらを調整する。
実験によると、MPAは3つの一般的なデータセットで最先端の結果を達成し、DomainNetの平均精度は54.1%である。
論文 参考訳(メタデータ) (2022-09-30T03:40:10Z) - Improving Transferability of Domain Adaptation Networks Through Domain
Alignment Layers [1.3766148734487902]
マルチソースアン教師付きドメイン適応(MSDA)は、ソースモデルの袋から弱い知識を割り当てることで、ラベルのないドメインの予測子を学習することを目的としている。
我々は,DomaIn Alignment Layers (MS-DIAL) のマルチソースバージョンを予測器の異なるレベルに埋め込むことを提案する。
我々の手法は最先端のMSDA法を改善することができ、分類精度の相対利得は+30.64%に達する。
論文 参考訳(メタデータ) (2021-09-06T18:41:19Z) - T-SVDNet: Exploring High-Order Prototypical Correlations for
Multi-Source Domain Adaptation [41.356774580308986]
マルチソースドメイン適応の課題に対処するために,T-SVDNetという新しい手法を提案する。
複数のドメインとカテゴリの高次相関は、ドメインギャップを埋めるため、完全に検討されている。
ノイズ源データによる負の伝達を回避するため,新しい不確実性を考慮した重み付け手法を提案する。
論文 参考訳(メタデータ) (2021-07-30T06:33:05Z) - Multi-Source domain adaptation via supervised contrastive learning and
confident consistency regularization [0.0]
Multi-Source Unsupervised Domain Adaptation (multi-source UDA)は、複数のラベル付きソースドメインからモデルを学習することを目的としている。
本稿では,この制限に対処するマルチソースUDAに対して,コントラスト型マルチソースドメイン適応(CMSDA)を提案する。
論文 参考訳(メタデータ) (2021-06-30T14:39:15Z) - Adaptively-Accumulated Knowledge Transfer for Partial Domain Adaptation [66.74638960925854]
部分ドメイン適応(PDA)は、ソースドメインラベル空間がターゲットドメインを置き換えるとき、現実的で困難な問題を扱う。
本稿では,2つの領域にまたがる関連カテゴリを整合させる適応的知識伝達フレームワーク(A$2KT)を提案する。
論文 参考訳(メタデータ) (2020-08-27T00:53:43Z) - Learning to Combine: Knowledge Aggregation for Multi-Source Domain
Adaptation [56.694330303488435]
マルチソースドメイン適応(LtC-MSDA)フレームワークを併用する学習法を提案する。
簡単に言うと、知識グラフは様々なドメインのプロトタイプ上に構築され、セマンティックに隣接した表現間の情報伝達を実現する。
我々のアプローチは、既存の手法よりも顕著なマージンで優れています。
論文 参考訳(メタデータ) (2020-07-17T07:52:44Z) - Mutual Learning Network for Multi-Source Domain Adaptation [73.25974539191553]
ML-MSDA(Multial Learning Network for Multiple Source Domain Adaptation)を提案する。
相互学習の枠組みのもと,提案手法は対象ドメインと各ソースドメインをペアリングし,条件付き対向ドメイン適応ネットワークを分岐ネットワークとして訓練する。
提案手法は, 比較手法より優れ, 最先端の性能を実現する。
論文 参考訳(メタデータ) (2020-03-29T04:31:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。