論文の概要: Vision and Language Integration for Domain Generalization
- arxiv url: http://arxiv.org/abs/2504.12966v1
- Date: Thu, 17 Apr 2025 14:19:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-25 18:37:01.717238
- Title: Vision and Language Integration for Domain Generalization
- Title(参考訳): ドメイン・ジェネリゼーションのためのビジョンと言語統合
- Authors: Yanmei Wang, Xiyao Liu, Fupeng Chu, Zhi Han,
- Abstract要約: ドメインの一般化は、ドメイン不変の機能空間を明らかにするために、ソースドメインをトレーニングすることを目的としている。
ドメインギャップのため、信頼できる共通画像特徴空間を見つけることは困難である。
本稿では,言語空間と視覚空間を組み合わせたVLCAを提案し,複数の画像領域を接続する。
- 参考スコア(独自算出の注目度): 6.730018632330614
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Domain generalization aims at training on source domains to uncover a domain-invariant feature space, allowing the model to perform robust generalization ability on unknown target domains. However, due to domain gaps, it is hard to find reliable common image feature space, and the reason for that is the lack of suitable basic units for images. Different from image in vision space, language has comprehensive expression elements that can effectively convey semantics. Inspired by the semantic completeness of language and intuitiveness of image, we propose VLCA, which combine language space and vision space, and connect the multiple image domains by using semantic space as the bridge domain. Specifically, in language space, by taking advantage of the completeness of language basic units, we tend to capture the semantic representation of the relations between categories through word vector distance. Then, in vision space, by taking advantage of the intuitiveness of image features, the common pattern of sample features with the same class is explored through low-rank approximation. In the end, the language representation is aligned with the vision representation through the multimodal space of text and image. Experiments demonstrate the effectiveness of the proposed method.
- Abstract(参考訳): ドメイン一般化は、ドメイン不変の機能空間を明らかにするためにソースドメインをトレーニングすることを目的としており、モデルが未知のターゲットドメイン上で堅牢な一般化機能を実行することができる。
しかし、領域ギャップのため、信頼性の高い共通画像特徴空間を見つけることは困難であり、その理由は画像の基本単位が不十分であるからである。
視覚空間のイメージとは異なり、言語は意味論を効果的に伝達できる包括的な表現要素を持っている。
本稿では,言語空間と視覚空間を組み合わせたVLCAを提案し,意味空間をブリッジ領域として利用して複数の画像領域を接続する。
具体的には、言語空間において、言語の基本単位の完全性を利用して、単語ベクトル距離を通じてカテゴリ間の関係を意味的に表現する傾向にある。
そして、視覚空間において、画像特徴の直感性を利用して、同じクラスを持つサンプル特徴の共通パターンを低階近似により探索する。
最後に、言語表現は、テキストと画像のマルチモーダル空間を通して、視覚表現と整合する。
提案手法の有効性を示す実験を行った。
関連論文リスト
- WIDIn: Wording Image for Domain-Invariant Representation in Single-Source Domain Generalization [63.98650220772378]
We present WIDIn, Wording Images for Domain-Invariant representation, to disentangleative discriminative visual representation。
まず、ドメイン固有の言語を適応的に識別し、削除するために使用可能な、きめ細かいアライメントを組み込んだ言語を推定する。
WIDInは、CLIPのような事前訓練された視覚言語モデルと、MoCoやBERTのような個別訓練されたユニモーダルモデルの両方に適用可能であることを示す。
論文 参考訳(メタデータ) (2024-05-28T17:46:27Z) - Prompt Ensemble Self-training for Open-Vocabulary Domain Adaptation [45.02052030837188]
我々は、新しい教師なしドメイン適応フレームワークであるオープン語彙ドメイン適応(OVDA)について研究する。
視覚と言語間の相乗効果を利用したPEST(Prompt Ensemble Self-Trening)技術の設計を行う。
PESTは、10の画像認識タスクで最先端のタスクを一貫して上回る。
論文 参考訳(メタデータ) (2023-06-29T03:39:35Z) - Vocabulary-free Image Classification [75.38039557783414]
VIC(Vocabulary-free Image Classification)と呼ばれる新しいタスクを定式化する。
VICは、既知の語彙を必要とせずに、制約のない言語によって引き起こされる意味空間に存在するクラスを入力画像に割り当てることを目的としている。
CaSEDは、事前訓練された視覚言語モデルと外部視覚言語データベースを利用して、VICをトレーニング不要に対処する手法である。
論文 参考訳(メタデータ) (2023-06-01T17:19:43Z) - Linguistic Query-Guided Mask Generation for Referring Image Segmentation [10.130530501400079]
画像セグメンテーションの参照は、与えられた言語表現に従って、興味のある画像領域をセグメンテーションすることを目的としている。
本稿では,言語クエリ誘導マスク生成を行うために,トランスフォーマー上に構築されたエンドツーエンドフレームワークを提案する。
論文 参考訳(メタデータ) (2023-01-16T13:38:22Z) - Language-aware Domain Generalization Network for Cross-Scene
Hyperspectral Image Classification [15.842081807249416]
ハイパースペクトル画像分類における言語モードの有効性を検討する必要がある。
大規模な事前学習画像テキスト基盤モデルは、様々なダウンストリームアプリケーションで優れた性能を示している。
言語対応ドメイン一般化ネットワーク(LDGnet)を提案する。
論文 参考訳(メタデータ) (2022-09-06T10:06:10Z) - Fine-Grained Semantically Aligned Vision-Language Pre-Training [151.7372197904064]
大規模な視覚言語による事前学習は、幅広い下流タスクにおいて顕著な進歩を見せている。
既存の手法は主に、画像とテキストのグローバルな表現の類似性によって、モーダル間のアライメントをモデル化する。
ゲーム理論的相互作用の新たな視点から, 微粒なセマンティックアライメントを学習する, 微粒なセマンティックなvisiOn-langUage PrEトレーニングフレームワークであるLOを導入する。
論文 参考訳(メタデータ) (2022-08-04T07:51:48Z) - SPCL: A New Framework for Domain Adaptive Semantic Segmentation via
Semantic Prototype-based Contrastive Learning [6.705297811617307]
ドメイン適応は、ラベル付けされたソースドメインからラベル付けされていないターゲットドメインに知識を転送するのに役立ちます。
本稿では,クラスアライメントを微粒化するための新しい意味的プロトタイプに基づくコントラスト学習フレームワークを提案する。
我々の手法は実装が容易であり、最先端の手法と比較して優れた結果が得られる。
論文 参考訳(メタデータ) (2021-11-24T09:26:07Z) - Affinity Space Adaptation for Semantic Segmentation Across Domains [57.31113934195595]
本稿では,意味的セグメンテーションにおける教師なしドメイン適応(UDA)の問題に対処する。
ソースドメインとターゲットドメインが不変なセマンティック構造を持つという事実に触発され、ドメイン間におけるそのような不変性を活用することを提案する。
親和性空間適応戦略として,親和性空間の洗浄と親和性空間アライメントという2つの方法を開発した。
論文 参考訳(メタデータ) (2020-09-26T10:28:11Z) - Mining Cross-Image Semantics for Weakly Supervised Semantic Segmentation [128.03739769844736]
2つのニューラルコアテンションを分類器に組み込んで、画像間のセマンティックな類似点と相違点をキャプチャする。
オブジェクトパターン学習の強化に加えて、コアテンションは他の関連する画像からのコンテキストを活用して、ローカライズマップの推論を改善することができる。
提案アルゴリズムは,これらすべての設定に対して新たな最先端性を設定し,その有効性と一般化性を示す。
論文 参考訳(メタデータ) (2020-07-03T21:53:46Z) - Cross-domain Correspondence Learning for Exemplar-based Image
Translation [59.35767271091425]
本稿では,異なる領域の入力からフォトリアリスティックな画像を合成する,例題に基づく画像翻訳のためのフレームワークを提案する。
出力は、例において意味的に対応するオブジェクトと整合したスタイル(例えば、色、テクスチャ)を持つ。
本手法は画像品質の面で最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2020-04-12T09:10:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。