論文の概要: CrossFlowDG: Bridging the Modality Gap with Cross-modal Flow Matching for Domain Generalization
- arxiv url: http://arxiv.org/abs/2604.16892v1
- Date: Sat, 18 Apr 2026 07:53:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-21 21:52:52.221493
- Title: CrossFlowDG: Bridging the Modality Gap with Cross-modal Flow Matching for Domain Generalization
- Title(参考訳): CrossFlowDG: ドメイン一般化のためのクロスモーダルフローマッチングによるモダリティギャップのブリッジ
- Authors: Antonios Kritikos, Nikolaos Spanos, Athanasios Voulodimos,
- Abstract要約: ドメイン一般化(DG)は、ドメインシフト下でのパフォーマンスを維持することを目的としている。
最近の手法では、テキスト表現を安定なドメイン不変アンカーとして使用しています。
雑音のないクロスモーダルフローマッチングを用いて,この残差に対処する新しいDGフレームワークであるCrossFlowDGを提案する。
- 参考スコア(独自算出の注目度): 3.4728825864079877
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Domain generalization (DG) aims to maintain performance under domain shift, which in computer vision appears primarily as stylistic variations that cause models to overfit to domain-specific appearance cues rather than class semantics. To overcome this, recent methods use textual representations as stable, domain-invariant anchors. However, multimodal approaches that rely on cosine similarity-based contrastive alignment leave a modality gap where image and text embeddings remain geometrically separated despite semantic correspondence. We propose CrossFlowDG, a novel DG framework that addresses this residual gap using noise-free, cross-modal flow matching. By learning a continuous transformation in the joint Euclidean latent space, our framework explicitly transports domain-biased image embeddings toward domain-invariant text embeddings of the correct class. Using the efficient VMamba image encoder and CLIP's text encoder, CrossFlowDG is tested against four common DG benchmarks, and achieves competitive performance on several benchmarks and state-of-the-art on TerraIncognita. Code is available at: https://github.com/ajkrit/CrossFlowDG
- Abstract(参考訳): ドメイン一般化(Domain Generalization, DG)は、ドメインシフト下での性能を維持することを目的としている。
これを解決するために、最近のメソッドでは、テキスト表現を安定なドメイン不変アンカーとして使用しています。
しかし、コサイン類似性に基づくコントラストアライメントに基づくマルチモーダルアプローチは、意味的対応にもかかわらず画像とテキストの埋め込みが幾何学的に分離されるようなモダリティギャップを残している。
雑音のないクロスモーダルフローマッチングを用いて,この残差に対処する新しいDGフレームワークであるCrossFlowDGを提案する。
合同ユークリッド潜在空間における連続的な変換を学習することにより、我々のフレームワークはドメインバイアス画像埋め込みを正しいクラスのドメイン不変テキスト埋め込みへ明示的に転送する。
効率的なVMambaイメージエンコーダとCLIPのテキストエンコーダを使用して、CrossFlowDGは4つの一般的なDGベンチマークでテストされ、いくつかのベンチマークとTerraIncognitaの最先端のパフォーマンスを達成する。
コードは、https://github.com/ajkrit/CrossFlowDGで入手できる。
関連論文リスト
- Exploring Semantic Consistency and Style Diversity for Domain Generalized Semantic Segmentation [4.850207292777464]
ドメイン一般化セマンティック(Domain Generalized Semantic)は、未知のターゲットドメイン間のセマンティックセグメンテーションの一般化を強化することを目的としている。
本稿では,セマンティック一貫性予測とスタイル多様性の一般化のためのSCSDを紹介する。
SCSDは既存の最先端の手法を著しく上回っている。
論文 参考訳(メタデータ) (2024-12-16T18:20:06Z) - Generalize or Detect? Towards Robust Semantic Segmentation Under Multiple Distribution Shifts [56.57141696245328]
斬新なクラスとドメインの両方が存在するようなオープンワールドシナリオでは、理想的なセグメンテーションモデルは安全のために異常なクラスを検出する必要がある。
既存の方法はドメインレベルとセマンティックレベルの分散シフトを区別するのに苦労することが多い。
論文 参考訳(メタデータ) (2024-11-06T11:03:02Z) - Unsupervised Domain Adaptation for Semantic Segmentation using One-shot
Image-to-Image Translation via Latent Representation Mixing [9.118706387430883]
超高解像度画像のセマンティックセグメンテーションのための新しい教師なし領域適応法を提案する。
潜在コンテンツ表現をドメイン間で混合するエンコーダ・デコーダの原理に基づいて,画像から画像への変換パラダイムを提案する。
都市間比較実験により,提案手法は最先端領域適応法より優れていることが示された。
論文 参考訳(メタデータ) (2022-12-07T18:16:17Z) - DGSS : Domain Generalized Semantic Segmentation using Iterative Style
Mining and Latent Representation Alignment [38.05196030226661]
現在の最先端技術 (SoTA) では、領域ギャップを埋める異なるメカニズムが提案されているが、低い照明条件下では性能が良くない。
本稿では、まず、スタイリングされた画像とソース画像のドメインギャップを最大化する対角的スタイルを識別する2段階のフレームワークを提案する。
そこで我々は,異なるスタイルの同一物体を混合して新たな訓練画像を構築するスタイル混合機構を提案する。
論文 参考訳(メタデータ) (2022-02-26T13:54:57Z) - Amplitude Spectrum Transformation for Open Compound Domain Adaptive
Semantic Segmentation [62.68759523116924]
オープン化合物ドメイン適応(OCDA)は、実用的な適応セットとして現れている。
我々は、新しい特徴空間振幅スペクトル変換(AST)を提案する。
論文 参考訳(メタデータ) (2022-02-09T05:40:34Z) - SPCL: A New Framework for Domain Adaptive Semantic Segmentation via
Semantic Prototype-based Contrastive Learning [6.705297811617307]
ドメイン適応は、ラベル付けされたソースドメインからラベル付けされていないターゲットドメインに知識を転送するのに役立ちます。
本稿では,クラスアライメントを微粒化するための新しい意味的プロトタイプに基づくコントラスト学習フレームワークを提案する。
我々の手法は実装が容易であり、最先端の手法と比較して優れた結果が得られる。
論文 参考訳(メタデータ) (2021-11-24T09:26:07Z) - Semantic Distribution-aware Contrastive Adaptation for Semantic
Segmentation [50.621269117524925]
ドメイン適応セマンティックセグメンテーション(ドメイン適応セマンティックセグメンテーション)とは、特定のソースドメインのアノテーションだけで特定のターゲットドメイン上で予測を行うことを指す。
画素ワイド表示アライメントを可能にする意味分布対応コントラスト適応アルゴリズムを提案する。
複数のベンチマークでSDCAを評価し、既存のアルゴリズムを大幅に改善します。
論文 参考訳(メタデータ) (2021-05-11T13:21:25Z) - Pixel-Level Cycle Association: A New Perspective for Domain Adaptive
Semantic Segmentation [169.82760468633236]
本稿では,ソースとターゲットの画素ペア間の画素レベルサイクルの関連性を構築することを提案する。
我々の手法は1段階のエンドツーエンドで訓練でき、追加のパラメータは導入しない。
論文 参考訳(メタデータ) (2020-10-31T00:11:36Z) - Affinity Space Adaptation for Semantic Segmentation Across Domains [57.31113934195595]
本稿では,意味的セグメンテーションにおける教師なしドメイン適応(UDA)の問題に対処する。
ソースドメインとターゲットドメインが不変なセマンティック構造を持つという事実に触発され、ドメイン間におけるそのような不変性を活用することを提案する。
親和性空間適応戦略として,親和性空間の洗浄と親和性空間アライメントという2つの方法を開発した。
論文 参考訳(メタデータ) (2020-09-26T10:28:11Z) - CrDoCo: Pixel-level Domain Transfer with Cross-Domain Consistency [119.45667331836583]
教師なしのドメイン適応アルゴリズムは、あるドメインから学んだ知識を別のドメインに転送することを目的としている。
本稿では,新しい画素単位の対向領域適応アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-01-09T19:00:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。