論文の概要: Language-aware Domain Generalization Network for Cross-Scene
Hyperspectral Image Classification
- arxiv url: http://arxiv.org/abs/2209.02700v1
- Date: Tue, 6 Sep 2022 10:06:10 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-08 12:31:36.779155
- Title: Language-aware Domain Generalization Network for Cross-Scene
Hyperspectral Image Classification
- Title(参考訳): クロスシーンハイパースペクトル画像分類のための言語対応ドメイン一般化ネットワーク
- Authors: Yuxiang Zhang, Mengmeng Zhang, Wei Li, Shuai Wang and Ran Tao
- Abstract要約: ハイパースペクトル画像分類における言語モードの有効性を検討する必要がある。
大規模な事前学習画像テキスト基盤モデルは、様々なダウンストリームアプリケーションで優れた性能を示している。
言語対応ドメイン一般化ネットワーク(LDGnet)を提案する。
- 参考スコア(独自算出の注目度): 15.842081807249416
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text information including extensive prior knowledge about land cover classes
has been ignored in hyperspectral image classification (HSI) tasks. It is
necessary to explore the effectiveness of linguistic mode in assisting HSI
classification. In addition, the large-scale pre-training image-text foundation
models have demonstrated great performance in a variety of downstream
applications, including zero-shot transfer. However, most domain generalization
methods have never addressed mining linguistic modal knowledge to improve the
generalization performance of model. To compensate for the inadequacies listed
above, a Language-aware Domain Generalization Network (LDGnet) is proposed to
learn cross-domain invariant representation from cross-domain shared prior
knowledge. The proposed method only trains on the source domain (SD) and then
transfers the model to the target domain (TD). The dual-stream architecture
including image encoder and text encoder is used to extract visual and
linguistic features, in which coarse-grained and fine-grained text
representations are designed to extract two levels of linguistic features.
Furthermore, linguistic features are used as cross-domain shared semantic
space, and visual-linguistic alignment is completed by supervised contrastive
learning in semantic space. Extensive experiments on three datasets demonstrate
the superiority of the proposed method when compared with state-of-the-art
techniques.
- Abstract(参考訳): 土地被覆クラスに関する広範な事前知識を含むテキスト情報は、ハイパースペクトル画像分類(HSI)タスクでは無視されている。
hsi分類支援における言語モードの有効性を検討する必要がある。
さらに、大規模な事前学習画像テキスト基盤モデルは、ゼロショット転送を含む様々なダウンストリームアプリケーションで優れた性能を示している。
しかし、ほとんどのドメイン一般化法は、モデルの一般化性能を改善するために、マイニング言語的モーダル知識を扱ったことがない。
上記の不整合を補うために,言語対応ドメイン一般化ネットワーク(LDGnet)を提案し,ドメイン間共有事前知識からドメイン間不変表現を学習する。
提案手法は、ソースドメイン(SD)のみをトレーニングし、ターゲットドメイン(TD)にモデルを転送する。
画像エンコーダとテキストエンコーダを含むデュアルストリームアーキテクチャを用いて視覚的および言語的特徴を抽出し、粗くきめ細かなテキスト表現を2段階の言語的特徴を抽出するように設計する。
さらに、言語的特徴をクロスドメイン共有意味空間として使用し、視覚言語的アライメントは、意味空間における教師付きコントラスト学習によって完了する。
3つのデータセットに対する大規模な実験は、最先端技術と比較して提案手法の優位性を示している。
関連論文リスト
- Generalize or Detect? Towards Robust Semantic Segmentation Under Multiple Distribution Shifts [56.57141696245328]
斬新なクラスとドメインの両方が存在するようなオープンワールドシナリオでは、理想的なセグメンテーションモデルは安全のために異常なクラスを検出する必要がある。
既存の方法はドメインレベルとセマンティックレベルの分散シフトを区別するのに苦労することが多い。
論文 参考訳(メタデータ) (2024-11-06T11:03:02Z) - WIDIn: Wording Image for Domain-Invariant Representation in Single-Source Domain Generalization [63.98650220772378]
We present WIDIn, Wording Images for Domain-Invariant representation, to disentangleative discriminative visual representation。
まず、ドメイン固有の言語を適応的に識別し、削除するために使用可能な、きめ細かいアライメントを組み込んだ言語を推定する。
WIDInは、CLIPのような事前訓練された視覚言語モデルと、MoCoやBERTのような個別訓練されたユニモーダルモデルの両方に適用可能であることを示す。
論文 参考訳(メタデータ) (2024-05-28T17:46:27Z) - Training-Free Open-Vocabulary Segmentation with Offline Diffusion-Augmented Prototype Generation [44.008094698200026]
FreeDAはオープン語彙セマンティックセグメンテーションのためのトレーニング不要な拡散拡張手法である。
FreeDAは5つのデータセットで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-04-09T18:00:25Z) - VLLaVO: Mitigating Visual Gap through LLMs [7.352822795984628]
クロスドメイン学習は、トレーニングとテストデータのドメインシフトを減らすために、ドメイン不変の知識を抽出することを目的としている。
視覚言語モデルと大規模言語モデルを組み合わせたVLLaVOを提案する。
論文 参考訳(メタデータ) (2024-01-06T16:33:39Z) - TeG-DG: Textually Guided Domain Generalization for Face Anti-Spoofing [8.830873674673828]
既存の方法は、様々な訓練領域からドメイン不変の特徴を抽出することを目的としている。
抽出された特徴は、必然的に残差スタイルの特徴バイアスを含んでおり、その結果、一般化性能が劣る。
本稿では,テキスト情報をドメイン間アライメントに有効活用するテキストガイド型ドメイン一般化フレームワークを提案する。
論文 参考訳(メタデータ) (2023-11-30T10:13:46Z) - One-for-All: Towards Universal Domain Translation with a Single StyleGAN [86.33216867136639]
視覚的に異なる領域間の表現を変換するための新しい翻訳モデルUniTranslatorを提案する。
提案したUniTranslatorは汎用的で、スタイルミキシング、スタイリゼーション、翻訳など様々なタスクを実行できる。
UniTranslatorは、既存の汎用モデルの性能を超越し、代表タスクの特殊モデルに対してよく機能する。
論文 参考訳(メタデータ) (2023-10-22T08:02:55Z) - CLIP the Gap: A Single Domain Generalization Approach for Object
Detection [60.20931827772482]
単一ドメインの一般化(Single Domain Generalization)は、単一のソースドメイン上でモデルをトレーニングすることで、目に見えないターゲットドメインに一般化する問題に取り組む。
本稿では、事前学習された視覚言語モデルを用いて、テキストプロンプトを介して意味領域の概念を導入することを提案する。
本手法は,検出器のバックボーンから抽出した特徴に作用する意味的拡張戦略と,テキストに基づく分類損失によって実現される。
論文 参考訳(メタデータ) (2023-01-13T12:01:18Z) - Unsupervised Image-to-Image Translation with Generative Prior [103.54337984566877]
教師なし画像画像変換は、ペアデータなしで2つの視覚領域間の翻訳を学習することを目的としている。
本稿では,GP-UNIT(Generative Prior-guided UN Image-to-image Translation)という新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2022-04-07T17:59:23Z) - Structured Latent Embeddings for Recognizing Unseen Classes in Unseen
Domains [108.11746235308046]
本稿では,異なる領域からの画像を投影することで,ドメインに依存しない遅延埋め込みを学習する手法を提案する。
挑戦的なDomainNetとDomainNet-LSベンチマークの実験は、既存のメソッドよりもアプローチの方が優れていることを示している。
論文 参考訳(メタデータ) (2021-07-12T17:57:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。