論文の概要: Generalizing Vision-Language Models with Dedicated Prompt Guidance
- arxiv url: http://arxiv.org/abs/2512.02421v1
- Date: Tue, 02 Dec 2025 05:06:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-03 21:04:45.729442
- Title: Generalizing Vision-Language Models with Dedicated Prompt Guidance
- Title(参考訳): 特定プロンプト誘導による視覚言語モデルの一般化
- Authors: Xinyao Li, Yinjie Min, Hongbo Chen, Zhekai Du, Fengling Li, Jingjing Li,
- Abstract要約: VLMファインチューニングの一般化能力に関する理論的理解を提供する。
本稿では,2段階のドメイン・エキスパート・ガイド付きDG(GuiDG)フレームワークを提案する。
GuiDGはまず、ソースドメインの専門家を取得するためにプロンプトチューニングを採用し、次に、視覚エンコーダの微調整をガイドするクロスモーダルアテンションモジュールを導入する。
- 参考スコア(独自算出の注目度): 21.54643227523398
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Fine-tuning large pretrained vision-language models (VLMs) has emerged as a prevalent paradigm for downstream adaptation, yet it faces a critical trade-off between domain specificity and domain generalization (DG) ability. Current methods typically fine-tune a universal model on the entire dataset, which potentially compromises the ability to generalize to unseen domains. To fill this gap, we provide a theoretical understanding of the generalization ability for VLM fine-tuning, which reveals that training multiple parameter-efficient expert models on partitioned source domains leads to better generalization than fine-tuning a universal model. Inspired by this finding, we propose a two-step domain-expert-Guided DG (GuiDG) framework. GuiDG first employs prompt tuning to obtain source domain experts, then introduces a Cross-Modal Attention module to guide the fine-tuning of the vision encoder via adaptive expert integration. To better evaluate few-shot DG, we construct ImageNet-DG from ImageNet and its variants. Extensive experiments on standard DG benchmarks and ImageNet-DG demonstrate that GuiDG improves upon state-of-the-art fine-tuning methods while maintaining efficiency.
- Abstract(参考訳): 下流適応のための主流パラダイムとして、微調整された大規模な視覚言語モデル(VLM)が登場しているが、ドメイン特異性とドメイン一般化(DG)能力の間には重要なトレードオフがある。
現在のメソッドは通常、データセット全体に対して普遍的なモデルを微調整するが、これは、目に見えないドメインに一般化する能力を損なう可能性がある。
このギャップを埋めるために、VLMファインチューニングの一般化能力を理論的に理解し、分割されたソースドメイン上で複数のパラメータ効率のエキスパートモデルを訓練することで、普遍的なモデルを微調整するよりも、より優れた一般化をもたらすことを示した。
この発見に触発されて、我々は2段階のドメインエキスパートガイド付きDG(GuiDG)フレームワークを提案する。
GuiDGはまず、ソースドメインの専門家を取得するためにプロンプトチューニングを採用し、その後、アダプティブエキスパート統合を通じてビジョンエンコーダの微調整をガイドするクロスモーダルアテンションモジュールを導入している。
少数のDGをよりよく評価するために、ImageNetとその変種からImageNet-DGを構築した。
標準DGベンチマークとImageNet-DGの大規模な実験により、GuiDGは効率を保ちながら最先端の微調整方法を改善することが示された。
関連論文リスト
- Multi-Granularity Feature Calibration via VFM for Domain Generalized Semantic Segmentation [15.35795137118814]
ドメイン一般化セマンティック(DGSS)は、トレーニング中にターゲットデータにアクセスすることなく、目に見えないドメインにまたがるモデルの一般化能力を改善することを目的としている。
DGSSの最近の進歩は、パラメータ効率の良い微調整戦略を通じて、視覚基盤モデル(VFM)をますます活用している。
ドメインシフト下での強靭性を高めるために,VFM特徴の粗大なアライメントを行う新しいフレームワークであるMulti-Granularity Feature (MGFC)を提案する。
論文 参考訳(メタデータ) (2025-08-05T02:24:31Z) - LFME: A Simple Framework for Learning from Multiple Experts in Domain Generalization [61.16890890570814]
ドメイン一般化(Domain Generalization, DG)手法は、複数のソースドメインからのトレーニングデータを使用することで、目に見えないターゲットドメインにおける優れたパフォーマンスを維持することを目的としている。
この作業では、DGを改善するために、ターゲットモデルをすべてのソースドメインの専門家にすることを目的とした、複数の専門家(LFME)からの学習と呼ばれる、シンプルだが効果的なフレームワークを導入している。
論文 参考訳(メタデータ) (2024-10-22T13:44:10Z) - Flatness-Aware Minimization for Domain Generalization [17.430563368226853]
ドメイン一般化(DG)は、未知の分布シフトの下でよく一般化されるロバストモデルを学ぶことを目指している。
現在、ほとんどのDGメソッドは広く使用されているベンチマークであるDomainBedに従っており、すべてのデータセットのデフォルトとしてAdamを使用している。
領域一般化のための平坦度認識最小化(Flatness-Aware Minimization for Domain Generalization, FAD)を提案する。
論文 参考訳(メタデータ) (2023-07-20T05:48:20Z) - Improving Generalization with Domain Convex Game [32.07275105040802]
ドメインの一般化は、複数のソースドメインを持つモデルを学習することで、ディープニューラルネットワークの貧弱な一般化能力を緩和する傾向がある。
DG の古典的な解は領域拡大であり、その一般的な信念は、ソース領域の多様化は分布外一般化に導かれるということである。
モデル一般化と領域の多様性の相関は厳密には正ではなく,ドメイン拡張の有効性を制限している。
論文 参考訳(メタデータ) (2023-03-23T14:27:49Z) - Compound Domain Generalization via Meta-Knowledge Encoding [55.22920476224671]
マルチモーダル分布を再正規化するために,スタイル駆動型ドメイン固有正規化(SDNorm)を導入する。
組込み空間における関係モデリングを行うために,プロトタイプ表現,クラスセントロイドを利用する。
4つの標準ドメイン一般化ベンチマークの実験により、COMENはドメインの監督なしに最先端のパフォーマンスを上回ることが判明した。
論文 参考訳(メタデータ) (2022-03-24T11:54:59Z) - More is Better: A Novel Multi-view Framework for Domain Generalization [28.12350681444117]
ドメイン一般化(DG)の主な課題は、観測されたソースドメインへの過度な適合を防ぐ方法である。
タスクとイメージを異なる視点として扱うことにより,新しい多視点DGフレームワークを提案する。
テスト段階では、不安定な予測を緩和するため、複数の拡張現実画像を用いて多視点予測を行う。
論文 参考訳(メタデータ) (2021-12-23T02:51:35Z) - Unsupervised Domain Generalization for Person Re-identification: A
Domain-specific Adaptive Framework [50.88463458896428]
ドメイン一般化(DG)は近年,人物再同定(ReID)において注目されている。
既存のメソッドは通常、ソースドメインにラベルを付ける必要があります。
本稿では、単純で効率的なドメイン固有適応化フレームワークを提案し、適応正規化モジュールで実現する。
論文 参考訳(メタデータ) (2021-11-30T02:35:51Z) - HCDG: A Hierarchical Consistency Framework for Domain Generalization on
Medical Image Segmentation [33.623948922908184]
ドメイン一般化のための新しい階層的一貫性フレームワーク(HCDG)を提案する。
Extrinsic Consistencyでは、複数のソースドメインにまたがる知識を活用して、データレベルの一貫性を強制します。
Intrinsic Consistencyでは、デュアルタスクシナリオの下で同じインスタンスに対してタスクレベルの一貫性を実行します。
論文 参考訳(メタデータ) (2021-09-13T07:07:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。