Fugu-MT 論文翻訳(概要): AD-CLIP: Adapting Domains in Prompt Space Using CLIP

論文の概要: AD-CLIP: Adapting Domains in Prompt Space Using CLIP

arxiv url: http://arxiv.org/abs/2308.05659v2
Date: Mon, 16 Sep 2024 10:25:47 GMT
ステータス: 翻訳完了
システム内更新日: 2024-09-18 03:47:44.940814
Title: AD-CLIP: Adapting Domains in Prompt Space Using CLIP
Title（参考訳）: AD-CLIP: CLIP を用いたプロンプト空間でのドメイン適応
Authors: Mainak Singha, Harsh Pal, Ankit Jha, Biplab Banerjee,
Abstract要約: ドメインに依存しないCLIPのプロンプト学習戦略であるtextscAD-CLIPを導入する。我々のプロンプトは、画像スタイルとコンテンツの特徴を同時に学習することで、ドメイン不変でクラス一般化できるように設計されている。 3つのベンチマークDAデータセットに対する実験により,既存の文献と比較して,textscAD-CLIPの有効性が示された。
参考スコア（独自算出の注目度）: 11.836764044083257
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Although deep learning models have shown impressive performance on supervised learning tasks, they often struggle to generalize well when the training (source) and test (target) domains differ. Unsupervised domain adaptation (DA) has emerged as a popular solution to this problem. However, current DA techniques rely on visual backbones, which may lack semantic richness. Despite the potential of large-scale vision-language foundation models like CLIP, their effectiveness for DA has yet to be fully explored. To address this gap, we introduce \textsc{AD-CLIP}, a domain-agnostic prompt learning strategy for CLIP that aims to solve the DA problem in the prompt space. We leverage the frozen vision backbone of CLIP to extract both image style (domain) and content information, which we apply to learn prompt tokens. Our prompts are designed to be domain-invariant and class-generalizable, by conditioning prompt learning on image style and content features simultaneously. We use standard supervised contrastive learning in the source domain, while proposing an entropy minimization strategy to align domains in the embedding space given the target domain data. We also consider a scenario where only target domain samples are available during testing, without any source domain data, and propose a cross-domain style mapping network to hallucinate domain-agnostic tokens. Our extensive experiments on three benchmark DA datasets demonstrate the effectiveness of \textsc{AD-CLIP} compared to existing literature. Code is available at \url{https://github.com/mainaksingha01/AD-CLIP}
Abstract（参考訳）: ディープラーニングモデルは教師付き学習タスクに顕著なパフォーマンスを示してきたが、トレーニング(ソース)とテスト(ターゲット)のドメインが異なる場合、よく一般化するのに苦労することが多い。非教師なしドメイン適応(DA)は、この問題に対する一般的な解決策として現れている。しかし、現在のDA手法は視覚的なバックボーンに依存しており、セマンティック・リッチネスが欠如している可能性がある。 CLIPのような大規模ヴィジュアル言語基盤モデルの可能性にもかかわらず、DAの有効性はまだ十分に検討されていない。このギャップに対処するために,CLIPのドメインに依存しないプロンプト学習戦略である \textsc{AD-CLIP} を導入する。我々はCLIPの凍結した視覚バックボーンを利用して画像スタイル(ドメイン)とコンテンツ情報を抽出し、プロンプトトークンを学習する。我々のプロンプトは、画像スタイルとコンテンツの特徴を同時に学習することで、ドメイン不変でクラス一般化できるように設計されている。我々は、ソース領域における標準教師付きコントラスト学習を使用し、対象ドメインデータに与えられた埋め込み空間内のドメインをアライメントするエントロピー最小化戦略を提案する。また、ソースドメインデータなしで、テスト中にのみ対象ドメインサンプルが利用可能となるシナリオについても検討し、ドメインに依存しないトークンを幻覚するクロスドメインスタイルマッピングネットワークを提案する。 3つのベンチマーク DA データセットに対する広範な実験により,既存の文献と比較して textsc{AD-CLIP} の有効性が示された。コードは \url{https://github.com/mainaksingha01/AD-CLIP} で入手できる。

関連論文リスト

CoPT: Unsupervised Domain Adaptive Segmentation using Domain-Agnostic Text Embeddings [35.88225773710471]
教師なしドメイン適応(Unsupervised domain adapt, UDA)は、ソースドメイン内のラベル付きデータからクラスセマンティクスを学習し、未確認のターゲットドメインに一般化する。画像セグメンテーションエンコーダにおいて、ドメインに依存しないテキスト埋め込みを用いて、ドメイン不変の特徴を学習する新しいCovarianceベースのPixel-Text損失CoPTを提案する。 4つのベンチマーク実験において,CoPTを用いてトレーニングしたモデルが,セグメント化のためのUDA上でのアートパフォーマンスの新たな状態を達成することを示す。
論文参考訳（メタデータ） (2025-07-08T18:39:28Z)
In the Era of Prompt Learning with Vision-Language Models [1.060608983034705]
ドメイン一般化のためのドメインに依存しない新しい学習戦略であるtextscStyLIP を紹介する。 StyLIPは、スタイルプロジェクタを使用してドメイン固有のプロンプトトークンを学習することで、CLIPsビジョンエンコーダの視覚スタイルとコンテンツを切り離す。また,CLIPの凍結視覚バックボーンを利用した非教師なし領域適応(DA)のためのAD-CLIPを提案する。
論文参考訳（メタデータ） (2024-11-07T17:31:21Z)
StylePrompter: Enhancing Domain Generalization with Test-Time Style Priors [39.695604434738186]
実世界のアプリケーションでは、推論段階でのサンプル分布は、トレーニング段階でのものとしばしば異なる。本稿では,訓練されたモデルを動的に適応させるために,言語モダリティのスタイルプロンプトを紹介する。特に,現在の画像のスタイル情報をトークン埋め込み空間に埋め込むように,スタイルプロンサを訓練する。スタイルトークン埋め込み空間と手作りスタイル正規化のオープンスペース分割により、トレーニング済みのスタイルプロンサが未知のドメインからのデータを効率的に処理できるようになる。
論文参考訳（メタデータ） (2024-08-17T08:35:43Z)
Prompt-based Visual Alignment for Zero-shot Policy Transfer [35.784936617675896]
強化学習におけるオーバーフィッティングは、強化学習への応用における主要な障害の1つとなっている。ゼロショットポリシー転送のための画像における有害領域バイアスを軽減するために,プロンプトベースの視覚アライメント(PVA)を提案する。 CARLAシミュレータを用いて視覚に基づく自律運転タスクにおけるPVAの検証を行う。
論文参考訳（メタデータ） (2024-06-05T13:26:30Z)
Phrase Grounding-based Style Transfer for Single-Domain Generalized Object Detection [109.58348694132091]
単一ドメインの一般化オブジェクト検出は、複数の未確認対象ドメインに対するモデルの一般化性を高めることを目的としている。これは、ターゲットのドメインデータをトレーニングに組み込むことなく、ドメインシフトに対処するモデルを必要とするため、実用的だが難しいタスクである。そこで我々は,課題に対する新しい文節接頭辞に基づくスタイル伝達手法を提案する。
論文参考訳（メタデータ） (2024-02-02T10:48:43Z)
Domain-Controlled Prompt Learning [49.45309818782329]
既存の素早い学習方法はドメイン認識やドメイン転送機構を欠いていることが多い。特定のドメインに対するtextbfDomain-Controlled Prompt Learningを提案する。本手法は,特定の領域画像認識データセットにおける最先端性能を実現する。
論文参考訳（メタデータ） (2023-09-30T02:59:49Z)
Domain Adaptive Few-Shot Open-Set Learning [36.39622440120531]
本稿では,DA-FSOS(Domain Adaptive Few-Shot Open Set Recognition)を提案する。我々のトレーニングアプローチは、DAFOS-NETがターゲットドメインの新しいシナリオにうまく適応できるようにします。本稿では,Office-Home,mini-ImageNet/CUB,DomainNetデータセットに基づくDA-FSOSの3つのベンチマークを示す。
論文参考訳（メタデータ） (2023-09-22T12:04:47Z)
CDFSL-V: Cross-Domain Few-Shot Learning for Videos [58.37446811360741]
ビデオのアクション認識は、いくつかのラベル付き例でのみ、新しいカテゴリを認識するための効果的なアプローチである。既存のビデオアクション認識の方法は、同じドメインからの大きなラベル付きデータセットに依存している。本稿では,自己教師付き学習とカリキュラム学習を活用した,クロスドメインな数ショットビデオ行動認識手法を提案する。
論文参考訳（メタデータ） (2023-09-07T19:44:27Z)
Cross-domain Contrastive Learning for Unsupervised Domain Adaptation [108.63914324182984]
教師なしドメイン適応(Unsupervised domain adapt、UDA)は、完全にラベル付けされたソースドメインから異なるラベル付けされていないターゲットドメインに学習した知識を転送することを目的としている。対照的な自己教師型学習に基づいて、トレーニングとテストセット間のドメインの相違を低減するために、機能を整列させます。
論文参考訳（メタデータ） (2021-06-10T06:32:30Z)
Prototypical Cross-domain Self-supervised Learning for Few-shot Unsupervised Domain Adaptation [91.58443042554903]
FUDA(Unsupervised Domain Adaptation)のためのPCS(Prototypical Cross-Domain Self-Supervised Learning)フレームワークを提案する。 PCSは、クロスドメインのローレベルな機能アライメントを行うだけでなく、ドメイン間の共有埋め込み空間におけるセマンティック構造をエンコードおよびアライメントする。最新の手法と比較して、pcsは、fuda上の異なるドメインペアの平均分類精度を10.5%、office、office-home、visda-2017、domainnetで3.5%、9.0%、13.2%改善している。
論文参考訳（メタデータ） (2021-03-31T02:07:42Z)
Classes Matter: A Fine-grained Adversarial Approach to Cross-domain Semantic Segmentation [95.10255219396109]
クラスレベルの特徴アライメントのための微粒な逆学習戦略を提案する。ドメイン区別器として機能するだけでなく、クラスレベルでドメインを区別する、きめ細かいドメイン識別器を採用しています。 CCD (Class Center Distance) を用いた解析により, 粒度の細かい対角戦略により, クラスレベルのアライメントが向上することが確認された。
論文参考訳（メタデータ） (2020-07-17T20:50:59Z)
Mind the Gap: Enlarging the Domain Gap in Open Set Domain Adaptation [65.38975706997088]
オープンセットドメイン適応(OSDA)は、ターゲットドメインに未知のクラスが存在することを前提としている。既存の最先端手法は、より大きなドメインギャップが存在する場合、かなりの性能低下を被ることを示す。我々は、より大きなドメインギャップに特に対処するための新しいフレームワークを提案する。
論文参考訳（メタデータ） (2020-03-08T14:20:24Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。