論文の概要: Domain Prompt Learning with Quaternion Networks
- arxiv url: http://arxiv.org/abs/2312.08878v1
- Date: Tue, 12 Dec 2023 08:49:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-15 22:24:01.919220
- Title: Domain Prompt Learning with Quaternion Networks
- Title(参考訳): 四元数ネットワークを用いたドメインプロンプト学習
- Authors: Qinglong Cao, Zhengqin Xu, Yuntian Chen, Chao Ma, Xiaokang Yang
- Abstract要約: 本稿では、ドメイン固有の基礎モデルからドメイン固有の知識を活用して、ビジョン言語モデルの堅牢な認識能力を特定ドメインに転送することを提案する。
本稿では、階層型言語プロンプト特徴とドメイン固有の視覚特徴との間のモーダル関係を解析することにより、視覚プロンプト特徴を生成する階層型アプローチを提案する。
提案手法は,即時学習のための新しい最先端結果を実現する。
- 参考スコア(独自算出の注目度): 49.45309818782329
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Prompt learning has emerged as an effective and data-efficient technique in
large Vision-Language Models (VLMs). However, when adapting VLMs to specialized
domains such as remote sensing and medical imaging, domain prompt learning
remains underexplored. While large-scale domain-specific foundation models can
help tackle this challenge, their concentration on a single vision level makes
it challenging to prompt both vision and language modalities. To overcome this,
we propose to leverage domain-specific knowledge from domain-specific
foundation models to transfer the robust recognition ability of VLMs from
generalized to specialized domains, using quaternion networks. Specifically,
the proposed method involves using domain-specific vision features from
domain-specific foundation models to guide the transformation of generalized
contextual embeddings from the language branch into a specialized space within
the quaternion networks. Moreover, we present a hierarchical approach that
generates vision prompt features by analyzing intermodal relationships between
hierarchical language prompt features and domain-specific vision features. In
this way, quaternion networks can effectively mine the intermodal relationships
in the specific domain, facilitating domain-specific vision-language
contrastive learning. Extensive experiments on domain-specific datasets show
that our proposed method achieves new state-of-the-art results in prompt
learning.
- Abstract(参考訳): プロンプト学習は、大規模な視覚言語モデル(VLM)において、効果的でデータ効率のよい手法として登場した。
しかし、リモートセンシングや医用画像などの特殊な領域にVLMを適用する場合、ドメインプロンプト学習は未熟である。
大規模なドメイン固有基盤モデルはこの問題に対処するのに役立つが、単一の視覚レベルに集中することで、視覚と言語の両方のモダリティを促進することが困難になる。
そこで本研究では, 4次ネットワークを用いて, vlmのロバスト認識能力を一般化された領域から特定領域に移すための, ドメイン固有基礎モデルからのドメイン固有知識の活用を提案する。
具体的には、ドメイン固有の基礎モデルからのドメイン固有の視覚特徴を用いて、言語分岐から四元数ネットワーク内の特殊空間への一般化文脈埋め込みの変換を導く。
さらに,階層的言語プロンプト特徴とドメイン固有視覚特徴の相互関係を解析し,ビジョンプロンプト特徴を生成する階層的アプローチを提案する。
このようにして、四元数ネットワークは特定のドメインにおける相互関係を効果的にマイニングすることができ、ドメイン固有の視覚言語コントラスト学習を促進する。
ドメイン固有データセットの大規模な実験により,提案手法が新たな最先端の学習結果を得ることを示す。
関連論文リスト
- Learning to Generalize Unseen Domains via Multi-Source Meta Learning for Text Classification [71.08024880298613]
テキスト分類の多元的領域一般化について検討する。
本稿では、複数の参照ドメインを使用して、未知のドメインで高い精度を達成可能なモデルをトレーニングするフレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-20T07:46:21Z) - Promoting AI Equity in Science: Generalized Domain Prompt Learning for Accessible VLM Research [44.87702042041601]
大規模ビジョンランゲージモデル(VLM)のための一般化ドメインプロンプト学習(GDPL)フレームワークを提案する。
GDPLは、広範囲のデータやリソースを必要とせずに、VLMの堅牢な認識能力を自然視から特殊領域に移行することを容易にする。
我々の枠組みは、学術と産業の障壁を超越し、持続的で包括的なVLM研究の道を開く。
論文 参考訳(メタデータ) (2024-05-14T14:51:12Z) - VLLaVO: Mitigating Visual Gap through LLMs [7.352822795984628]
クロスドメイン学習は、トレーニングとテストデータのドメインシフトを減らすために、ドメイン不変の知識を抽出することを目的としている。
視覚言語モデルと大規模言語モデルを組み合わせたVLLaVOを提案する。
論文 参考訳(メタデータ) (2024-01-06T16:33:39Z) - Domain-Controlled Prompt Learning [49.45309818782329]
既存の素早い学習方法はドメイン認識やドメイン転送機構を欠いていることが多い。
特定のドメインに対するtextbfDomain-Controlled Prompt Learningを提案する。
本手法は,特定の領域画像認識データセットにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2023-09-30T02:59:49Z) - Prompt Ensemble Self-training for Open-Vocabulary Domain Adaptation [45.02052030837188]
我々は、新しい教師なしドメイン適応フレームワークであるオープン語彙ドメイン適応(OVDA)について研究する。
視覚と言語間の相乗効果を利用したPEST(Prompt Ensemble Self-Trening)技術の設計を行う。
PESTは、10の画像認識タスクで最先端のタスクを一貫して上回る。
論文 参考訳(メタデータ) (2023-06-29T03:39:35Z) - INDIGO: Intrinsic Multimodality for Domain Generalization [26.344372409315177]
マルチモーダル情報がどのように「本質的な」方法で活用され、システムが目に見えない領域の下で一般化されるかを検討する。
IntriNsic multimodality for DomaIn GeneralizatiOn (INDIGO)を提案する。
論文 参考訳(メタデータ) (2022-06-13T05:41:09Z) - Structured Latent Embeddings for Recognizing Unseen Classes in Unseen
Domains [108.11746235308046]
本稿では,異なる領域からの画像を投影することで,ドメインに依存しない遅延埋め込みを学習する手法を提案する。
挑戦的なDomainNetとDomainNet-LSベンチマークの実験は、既存のメソッドよりもアプローチの方が優れていることを示している。
論文 参考訳(メタデータ) (2021-07-12T17:57:46Z) - Domain Conditioned Adaptation Network [90.63261870610211]
本稿では,ドメイン条件付きチャネルアテンション機構を用いて,異なる畳み込みチャネルを励起するドメイン条件適応ネットワーク(DCAN)を提案する。
これは、ディープDAネットワークのドメインワイドな畳み込みチャネルアクティベーションを探求する最初の試みである。
論文 参考訳(メタデータ) (2020-05-14T04:23:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。