Fugu-MT 論文翻訳(概要): Language-aware Domain Generalization Network for Cross-Scene Hyperspectral Image Classification

論文の概要: Language-aware Domain Generalization Network for Cross-Scene Hyperspectral Image Classification

arxiv url: http://arxiv.org/abs/2209.02700v1
Date: Tue, 6 Sep 2022 10:06:10 GMT
ステータス: 翻訳完了
システム内更新日: 2022-09-08 12:31:36.779155
Title: Language-aware Domain Generalization Network for Cross-Scene Hyperspectral Image Classification
Title（参考訳）: クロスシーンハイパースペクトル画像分類のための言語対応ドメイン一般化ネットワーク
Authors: Yuxiang Zhang, Mengmeng Zhang, Wei Li, Shuai Wang and Ran Tao
Abstract要約: ハイパースペクトル画像分類における言語モードの有効性を検討する必要がある。大規模な事前学習画像テキスト基盤モデルは、様々なダウンストリームアプリケーションで優れた性能を示している。言語対応ドメイン一般化ネットワーク(LDGnet)を提案する。
参考スコア（独自算出の注目度）: 15.842081807249416
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Text information including extensive prior knowledge about land cover classes has been ignored in hyperspectral image classification (HSI) tasks. It is necessary to explore the effectiveness of linguistic mode in assisting HSI classification. In addition, the large-scale pre-training image-text foundation models have demonstrated great performance in a variety of downstream applications, including zero-shot transfer. However, most domain generalization methods have never addressed mining linguistic modal knowledge to improve the generalization performance of model. To compensate for the inadequacies listed above, a Language-aware Domain Generalization Network (LDGnet) is proposed to learn cross-domain invariant representation from cross-domain shared prior knowledge. The proposed method only trains on the source domain (SD) and then transfers the model to the target domain (TD). The dual-stream architecture including image encoder and text encoder is used to extract visual and linguistic features, in which coarse-grained and fine-grained text representations are designed to extract two levels of linguistic features. Furthermore, linguistic features are used as cross-domain shared semantic space, and visual-linguistic alignment is completed by supervised contrastive learning in semantic space. Extensive experiments on three datasets demonstrate the superiority of the proposed method when compared with state-of-the-art techniques.
Abstract（参考訳）: 土地被覆クラスに関する広範な事前知識を含むテキスト情報は、ハイパースペクトル画像分類(HSI)タスクでは無視されている。 hsi分類支援における言語モードの有効性を検討する必要がある。さらに、大規模な事前学習画像テキスト基盤モデルは、ゼロショット転送を含む様々なダウンストリームアプリケーションで優れた性能を示している。しかし、ほとんどのドメイン一般化法は、モデルの一般化性能を改善するために、マイニング言語的モーダル知識を扱ったことがない。上記の不整合を補うために,言語対応ドメイン一般化ネットワーク(LDGnet)を提案し,ドメイン間共有事前知識からドメイン間不変表現を学習する。提案手法は、ソースドメイン(SD)のみをトレーニングし、ターゲットドメイン(TD)にモデルを転送する。画像エンコーダとテキストエンコーダを含むデュアルストリームアーキテクチャを用いて視覚的および言語的特徴を抽出し、粗くきめ細かなテキスト表現を2段階の言語的特徴を抽出するように設計する。さらに、言語的特徴をクロスドメイン共有意味空間として使用し、視覚言語的アライメントは、意味空間における教師付きコントラスト学習によって完了する。 3つのデータセットに対する大規模な実験は、最先端技術と比較して提案手法の優位性を示している。

関連論文リスト

Text-Driven Causal Representation Learning for Source-Free Domain Generalization [82.75041792888274]
我々は、ソースフリー領域一般化設定に因果推論を統合する最初の方法であるTDCRLを提案する。我々のアプローチは、堅牢でドメイン不変な特徴を達成するための明確で効果的なメカニズムを提供し、堅牢な一般化を保証する。
論文参考訳（メタデータ） (2025-07-14T06:20:42Z)
SemiDAViL: Semi-supervised Domain Adaptation with Vision-Language Guidance for Semantic Segmentation [9.311853182451289]
セマンティックセグメンテーションのための言語誘導半教師付きドメイン適応(SSDA)設定を提案する。我々は、視覚言語モデル(VLM)に固有の意味一般化機能を活用して、相乗的枠組みを確立する。提案手法は, 現代の SoTA (State-of-the-art) 手法に比較して, 大幅な性能向上を示す。
論文参考訳（メタデータ） (2025-04-08T19:14:34Z)
Scale-wise Bidirectional Alignment Network for Referring Remote Sensing Image Segmentation [12.893224628061516]
リモートセンシング画像セグメンテーション(RRSIS)の目的は、自然言語表現を用いて、空中画像内の特定のピクセルレベル領域を抽出することである。本稿では,これらの課題に対処するため,SBANet(Scale-wise Bidirectional Alignment Network)と呼ばれる革新的なフレームワークを提案する。提案手法は,RRSIS-DとRefSegRSのデータセットにおける従来の最先端手法と比較して,優れた性能を実現する。
論文参考訳（メタデータ） (2025-01-01T14:24:04Z)
Exploring Semantic Consistency and Style Diversity for Domain Generalized Semantic Segmentation [4.850207292777464]
ドメイン一般化セマンティック(Domain Generalized Semantic)は、未知のターゲットドメイン間のセマンティックセグメンテーションの一般化を強化することを目的としている。本稿では,セマンティック一貫性予測とスタイル多様性の一般化のためのSCSDを紹介する。 SCSDは既存の最先端の手法を著しく上回っている。
論文参考訳（メタデータ） (2024-12-16T18:20:06Z)
Multisource Collaborative Domain Generalization for Cross-Scene Remote Sensing Image Classification [57.945437355714155]
クロスシーン画像分類は, 異なる分布領域のアノテート領域に, 地中物質の事前の知識を伝達することを目的としている。既存のアプローチでは、未確認のターゲットドメインへの単一ソースドメインの一般化に重点を置いている。マルチソースリモートセンシングデータの均一性と不均一性特性に基づく,新しいマルチソース協調型ドメイン一般化フレームワーク(MS-CDG)を提案する。
論文参考訳（メタデータ） (2024-12-05T06:15:08Z)
Generalize or Detect? Towards Robust Semantic Segmentation Under Multiple Distribution Shifts [56.57141696245328]
斬新なクラスとドメインの両方が存在するようなオープンワールドシナリオでは、理想的なセグメンテーションモデルは安全のために異常なクラスを検出する必要がある。既存の方法はドメインレベルとセマンティックレベルの分散シフトを区別するのに苦労することが多い。
論文参考訳（メタデータ） (2024-11-06T11:03:02Z)
WIDIn: Wording Image for Domain-Invariant Representation in Single-Source Domain Generalization [63.98650220772378]
We present WIDIn, Wording Images for Domain-Invariant representation, to disentangleative discriminative visual representation。まず、ドメイン固有の言語を適応的に識別し、削除するために使用可能な、きめ細かいアライメントを組み込んだ言語を推定する。 WIDInは、CLIPのような事前訓練された視覚言語モデルと、MoCoやBERTのような個別訓練されたユニモーダルモデルの両方に適用可能であることを示す。
論文参考訳（メタデータ） (2024-05-28T17:46:27Z)
Training-Free Open-Vocabulary Segmentation with Offline Diffusion-Augmented Prototype Generation [44.008094698200026]
FreeDAはオープン語彙セマンティックセグメンテーションのためのトレーニング不要な拡散拡張手法である。 FreeDAは5つのデータセットで最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2024-04-09T18:00:25Z)
VLLaVO: Mitigating Visual Gap through LLMs [7.352822795984628]
クロスドメイン学習は、トレーニングとテストデータのドメインシフトを減らすために、ドメイン不変の知識を抽出することを目的としている。視覚言語モデルと大規模言語モデルを組み合わせたVLLaVOを提案する。
論文参考訳（メタデータ） (2024-01-06T16:33:39Z)
TeG-DG: Textually Guided Domain Generalization for Face Anti-Spoofing [8.830873674673828]
既存の方法は、様々な訓練領域からドメイン不変の特徴を抽出することを目的としている。抽出された特徴は、必然的に残差スタイルの特徴バイアスを含んでおり、その結果、一般化性能が劣る。本稿では,テキスト情報をドメイン間アライメントに有効活用するテキストガイド型ドメイン一般化フレームワークを提案する。
論文参考訳（メタデータ） (2023-11-30T10:13:46Z)
One-for-All: Towards Universal Domain Translation with a Single StyleGAN [86.33216867136639]
視覚的に異なる領域間の表現を変換するための新しい翻訳モデルUniTranslatorを提案する。提案したUniTranslatorは汎用的で、スタイルミキシング、スタイリゼーション、翻訳など様々なタスクを実行できる。 UniTranslatorは、既存の汎用モデルの性能を超越し、代表タスクの特殊モデルに対してよく機能する。
論文参考訳（メタデータ） (2023-10-22T08:02:55Z)
CLIP the Gap: A Single Domain Generalization Approach for Object Detection [60.20931827772482]
単一ドメインの一般化(Single Domain Generalization)は、単一のソースドメイン上でモデルをトレーニングすることで、目に見えないターゲットドメインに一般化する問題に取り組む。本稿では、事前学習された視覚言語モデルを用いて、テキストプロンプトを介して意味領域の概念を導入することを提案する。本手法は,検出器のバックボーンから抽出した特徴に作用する意味的拡張戦略と,テキストに基づく分類損失によって実現される。
論文参考訳（メタデータ） (2023-01-13T12:01:18Z)
Unsupervised Image-to-Image Translation with Generative Prior [103.54337984566877]
教師なし画像画像変換は、ペアデータなしで2つの視覚領域間の翻訳を学習することを目的としている。本稿では,GP-UNIT(Generative Prior-guided UN Image-to-image Translation)という新しいフレームワークを提案する。
論文参考訳（メタデータ） (2022-04-07T17:59:23Z)
Structured Latent Embeddings for Recognizing Unseen Classes in Unseen Domains [108.11746235308046]
本稿では,異なる領域からの画像を投影することで,ドメインに依存しない遅延埋め込みを学習する手法を提案する。挑戦的なDomainNetとDomainNet-LSベンチマークの実験は、既存のメソッドよりもアプローチの方が優れていることを示している。
論文参考訳（メタデータ） (2021-07-12T17:57:46Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。