論文の概要: Language-aware Domain Generalization Network for Cross-Scene
Hyperspectral Image Classification
- arxiv url: http://arxiv.org/abs/2209.02700v1
- Date: Tue, 6 Sep 2022 10:06:10 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-08 12:31:36.779155
- Title: Language-aware Domain Generalization Network for Cross-Scene
Hyperspectral Image Classification
- Title(参考訳): クロスシーンハイパースペクトル画像分類のための言語対応ドメイン一般化ネットワーク
- Authors: Yuxiang Zhang, Mengmeng Zhang, Wei Li, Shuai Wang and Ran Tao
- Abstract要約: ハイパースペクトル画像分類における言語モードの有効性を検討する必要がある。
大規模な事前学習画像テキスト基盤モデルは、様々なダウンストリームアプリケーションで優れた性能を示している。
言語対応ドメイン一般化ネットワーク(LDGnet)を提案する。
- 参考スコア(独自算出の注目度): 15.842081807249416
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text information including extensive prior knowledge about land cover classes
has been ignored in hyperspectral image classification (HSI) tasks. It is
necessary to explore the effectiveness of linguistic mode in assisting HSI
classification. In addition, the large-scale pre-training image-text foundation
models have demonstrated great performance in a variety of downstream
applications, including zero-shot transfer. However, most domain generalization
methods have never addressed mining linguistic modal knowledge to improve the
generalization performance of model. To compensate for the inadequacies listed
above, a Language-aware Domain Generalization Network (LDGnet) is proposed to
learn cross-domain invariant representation from cross-domain shared prior
knowledge. The proposed method only trains on the source domain (SD) and then
transfers the model to the target domain (TD). The dual-stream architecture
including image encoder and text encoder is used to extract visual and
linguistic features, in which coarse-grained and fine-grained text
representations are designed to extract two levels of linguistic features.
Furthermore, linguistic features are used as cross-domain shared semantic
space, and visual-linguistic alignment is completed by supervised contrastive
learning in semantic space. Extensive experiments on three datasets demonstrate
the superiority of the proposed method when compared with state-of-the-art
techniques.
- Abstract(参考訳): 土地被覆クラスに関する広範な事前知識を含むテキスト情報は、ハイパースペクトル画像分類(HSI)タスクでは無視されている。
hsi分類支援における言語モードの有効性を検討する必要がある。
さらに、大規模な事前学習画像テキスト基盤モデルは、ゼロショット転送を含む様々なダウンストリームアプリケーションで優れた性能を示している。
しかし、ほとんどのドメイン一般化法は、モデルの一般化性能を改善するために、マイニング言語的モーダル知識を扱ったことがない。
上記の不整合を補うために,言語対応ドメイン一般化ネットワーク(LDGnet)を提案し,ドメイン間共有事前知識からドメイン間不変表現を学習する。
提案手法は、ソースドメイン(SD)のみをトレーニングし、ターゲットドメイン(TD)にモデルを転送する。
画像エンコーダとテキストエンコーダを含むデュアルストリームアーキテクチャを用いて視覚的および言語的特徴を抽出し、粗くきめ細かなテキスト表現を2段階の言語的特徴を抽出するように設計する。
さらに、言語的特徴をクロスドメイン共有意味空間として使用し、視覚言語的アライメントは、意味空間における教師付きコントラスト学習によって完了する。
3つのデータセットに対する大規模な実験は、最先端技術と比較して提案手法の優位性を示している。
関連論文リスト
- Large Language Models as Visual Cross-Domain Learners [7.352822795984628]
クロスドメイン学習は、トレーニングとテストデータのドメインシフトを減らすために、ドメイン不変の知識を抽出することを目的としている。
伝統的な手法は画像のモダリティのみにのみ焦点をあて、ドメインシフトを軽減するためにテキストのモダリティの使用を無視する。
Visual Cross-dOmain Learningers (LLaVO) としてLarge Languageモデルを提案する。
論文 参考訳(メタデータ) (2024-01-06T16:33:39Z) - TeG-DG: Textually Guided Domain Generalization for Face Anti-Spoofing [8.830873674673828]
既存の方法は、様々な訓練領域からドメイン不変の特徴を抽出することを目的としている。
抽出された特徴は、必然的に残差スタイルの特徴バイアスを含んでおり、その結果、一般化性能が劣る。
本稿では,テキスト情報をドメイン間アライメントに有効活用するテキストガイド型ドメイン一般化フレームワークを提案する。
論文 参考訳(メタデータ) (2023-11-30T10:13:46Z) - One-for-All: Towards Universal Domain Translation with a Single StyleGAN [86.33216867136639]
視覚的に異なる領域間の表現を変換するための新しい翻訳モデルUniTranslatorを提案する。
提案したUniTranslatorは汎用的で、スタイルミキシング、スタイリゼーション、翻訳など様々なタスクを実行できる。
UniTranslatorは、既存の汎用モデルの性能を超越し、代表タスクの特殊モデルに対してよく機能する。
論文 参考訳(メタデータ) (2023-10-22T08:02:55Z) - Domain-Controlled Prompt Learning [49.45309818782329]
既存の素早い学習方法はドメイン認識やドメイン転送機構を欠いていることが多い。
特定のドメインに対するtextbfDomain-Controlled Prompt Learningを提案する。
本手法は,特定の領域画像認識データセットにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2023-09-30T02:59:49Z) - CLIP the Gap: A Single Domain Generalization Approach for Object
Detection [60.20931827772482]
単一ドメインの一般化(Single Domain Generalization)は、単一のソースドメイン上でモデルをトレーニングすることで、目に見えないターゲットドメインに一般化する問題に取り組む。
本稿では、事前学習された視覚言語モデルを用いて、テキストプロンプトを介して意味領域の概念を導入することを提案する。
本手法は,検出器のバックボーンから抽出した特徴に作用する意味的拡張戦略と,テキストに基づく分類損失によって実現される。
論文 参考訳(メタデータ) (2023-01-13T12:01:18Z) - Single-source Domain Expansion Network for Cross-Scene Hyperspectral
Image Classification [23.301189142107617]
広帯域高スペクトル画像(HSI)分類は注目されている。
ソースドメイン(SD)のみにモデルをトレーニングし、ターゲットドメイン(TD)に直接モデルを転送する必要がある。
ドメインの一般化の考え方に基づき、SDEnet(Single-source Domain Expansion Network)が開発され、ドメイン拡張の信頼性と有効性を保証する。
論文 参考訳(メタデータ) (2022-09-04T14:54:34Z) - Unsupervised Image-to-Image Translation with Generative Prior [103.54337984566877]
教師なし画像画像変換は、ペアデータなしで2つの視覚領域間の翻訳を学習することを目的としている。
本稿では,GP-UNIT(Generative Prior-guided UN Image-to-image Translation)という新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2022-04-07T17:59:23Z) - AF$_2$: Adaptive Focus Framework for Aerial Imagery Segmentation [86.44683367028914]
航空画像のセグメンテーションにはいくつかの独特な課題があり、中でも最も重要なものは前景と背景のアンバランスにある。
本稿では,階層的なセグメンテーション手法を採用し,マルチスケール表現を適応的に活用するAdaptive Focus Framework (AF$)を提案する。
AF$は、広く使われている3つの航空ベンチマークの精度を大幅に改善した。
論文 参考訳(メタデータ) (2022-02-18T10:14:45Z) - Structured Latent Embeddings for Recognizing Unseen Classes in Unseen
Domains [108.11746235308046]
本稿では,異なる領域からの画像を投影することで,ドメインに依存しない遅延埋め込みを学習する手法を提案する。
挑戦的なDomainNetとDomainNet-LSベンチマークの実験は、既存のメソッドよりもアプローチの方が優れていることを示している。
論文 参考訳(メタデータ) (2021-07-12T17:57:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。