論文の概要: WIDIn: Wording Image for Domain-Invariant Representation in Single-Source Domain Generalization
- arxiv url: http://arxiv.org/abs/2405.18405v1
- Date: Tue, 28 May 2024 17:46:27 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-29 17:20:57.772558
- Title: WIDIn: Wording Image for Domain-Invariant Representation in Single-Source Domain Generalization
- Title(参考訳): WIDIn:単一ソース領域一般化におけるドメイン不変表現のためのワードイメージ
- Authors: Jiawei Ma, Yulei Niu, Shiyuan Huang, Guangxing Han, Shih-Fu Chang,
- Abstract要約: We present WIDIn, Wording Images for Domain-Invariant representation, to disentangleative discriminative visual representation。
まず、ドメイン固有の言語を適応的に識別し、削除するために使用可能な、きめ細かいアライメントを組み込んだ言語を推定する。
WIDInは、CLIPのような事前訓練された視覚言語モデルと、MoCoやBERTのような個別訓練されたユニモーダルモデルの両方に適用可能であることを示す。
- 参考スコア(独自算出の注目度): 63.98650220772378
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Language has been useful in extending the vision encoder to data from diverse distributions without empirical discovery in training domains. However, as the image description is mostly at coarse-grained level and ignores visual details, the resulted embeddings are still ineffective in overcoming complexity of domains at inference time. We present a self-supervision framework WIDIn, Wording Images for Domain-Invariant representation, to disentangle discriminative visual representation, by only leveraging data in a single domain and without any test prior. Specifically, for each image, we first estimate the language embedding with fine-grained alignment, which can be consequently used to adaptively identify and then remove domain-specific counterpart from the raw visual embedding. WIDIn can be applied to both pretrained vision-language models like CLIP, and separately trained uni-modal models like MoCo and BERT. Experimental studies on three domain generalization datasets demonstrate the effectiveness of our approach.
- Abstract(参考訳): 言語は、訓練領域で経験的な発見をすることなく、様々な分布のデータにビジョンエンコーダを拡張するのに有用である。
しかし、画像記述は主に粗粒度であり、視覚的詳細を無視するので、その結果の埋め込みは推論時にドメインの複雑さを克服するのに依然として効果がない。
本稿では,ドメイン不変表現のためのワード画像であるWIDInを,単一のドメイン内のデータのみを活用して,テスト前のデータのみを活用することで,識別的視覚表現を歪めるためのフレームワークとして提示する。
具体的には、各画像に対して、まず、細粒度アライメントによる言語埋め込みを推定し、その結果、適応的に識別し、元の視覚埋め込みからドメイン固有の言語を除去することができる。
WIDInはCLIPのような事前訓練された視覚言語モデルにも適用でき、MoCoやBERTのような個別に訓練されたユニモーダルモデルにも適用できる。
3つの領域一般化データセットの実験的研究により,本手法の有効性が示された。
関連論文リスト
- Domain-Controlled Prompt Learning [49.45309818782329]
既存の素早い学習方法はドメイン認識やドメイン転送機構を欠いていることが多い。
特定のドメインに対するtextbfDomain-Controlled Prompt Learningを提案する。
本手法は,特定の領域画像認識データセットにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2023-09-30T02:59:49Z) - Using Language to Extend to Unseen Domains [81.37175826824625]
ビジョンモデルがデプロイ時に遭遇する可能性のあるすべてのドメインのトレーニングデータを集めることは、費用がかかる。
トレーニングドメインと拡張したいが、堅牢性を改善するためのデータを持っていないドメインを、いかに単純に言葉で表現するかを考えます。
共同画像と言語埋め込み空間を備えたマルチモーダルモデルを用いて、LADSはトレーニング領域から各未確認テスト領域への画像埋め込みの変換を学習する。
論文 参考訳(メタデータ) (2022-10-18T01:14:02Z) - Single-domain Generalization in Medical Image Segmentation via Test-time
Adaptation from Shape Dictionary [64.5632303184502]
ドメインの一般化は通常、モデル学習のために複数のソースドメインからのデータを必要とする。
本稿では,1つのソースドメインのみで最悪のシナリオ下でモデルを学習し,異なる未確認対象ドメインに直接一般化する,重要な単一ドメインの一般化問題について考察する。
本稿では,領域間で不変なセグメンテーションのセグメンテーション先情報を抽出し,統合する医用画像セグメンテーションにおいて,この問題に対処する新しいアプローチを提案する。
論文 参考訳(メタデータ) (2022-06-29T08:46:27Z) - Unsupervised Domain Generalization by Learning a Bridge Across Domains [78.855606355957]
Unsupervised Domain Generalization (UDG) のセットアップでは、ソースもターゲットドメインもトレーニングの監督は行わない。
本手法は,各トレーニング領域からBrADへの視覚的(イメージ間)マッピングを保存したセマンティクスのセットを伴って,補助的なブリッジドメインであるBrAD(Bridge Across Domains)の自己教師型学習に基づいている。
我々は,エッジレギュラー化したBrADを用いて,UDG,Few-shot UDA,マルチドメインデータセット間の教師なし一般化など,複数のベンチマークやタスクにまたがる大幅な向上を実現する方法を示す。
論文 参考訳(メタデータ) (2021-12-04T10:25:45Z) - WEDGE: Web-Image Assisted Domain Generalization for Semantic
Segmentation [72.88657378658549]
本稿では,Web画像の多様性を一般化可能なセマンティックセグメンテーションに活用したWEb画像支援ドメインゲネラライゼーション手法を提案する。
また,ウェブクローラー画像のスタイルをトレーニング中のトレーニング画像に注入する手法を提案する。
論文 参考訳(メタデータ) (2021-09-29T05:19:58Z) - Semi-supervised Meta-learning with Disentanglement for
Domain-generalised Medical Image Segmentation [15.351113774542839]
新たなセンター(ここではドメイン)からの新しいデータにモデルを一般化することは、依然として課題である。
本稿では,絡み合いを伴う半教師付きメタラーニングフレームワークを提案する。
提案手法は,異なるセグメンテーションタスクに対して頑健であり,2つの公開ベンチマーク上での最先端の一般化性能を実現する。
論文 参考訳(メタデータ) (2021-06-24T19:50:07Z) - Generalizable Model-agnostic Semantic Segmentation via Target-specific
Normalization [24.14272032117714]
一般化可能なセマンティックセグメンテーションタスクのための新しいドメイン一般化フレームワークを提案する。
モデルに依存しない学習を利用してドメインシフト問題をシミュレートする。
観測対象領域と観測対象領域間のデータ分散の相違を考慮し、目標固有正規化方式を開発する。
論文 参考訳(メタデータ) (2020-03-27T09:25:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。