論文の概要: FrogDogNet: Fourier frequency Retained visual prompt Output Guidance for Domain Generalization of CLIP in Remote Sensing
- arxiv url: http://arxiv.org/abs/2504.16433v1
- Date: Wed, 23 Apr 2025 05:35:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:53.013544
- Title: FrogDogNet: Fourier frequency Retained visual prompt Output Guidance for Domain Generalization of CLIP in Remote Sensing
- Title(参考訳): FrogDogNet:リモートセンシングにおけるCLIPの領域一般化のための視覚的プロンプト出力誘導
- Authors: Hariseetharam Gunduboina, Muhammad Haris Khan, Biplab Banerjee,
- Abstract要約: 遠隔センシングのための新しいプロンプト学習フレームワークFrogDogNetを提案する。
最先端の即時学習手法より一貫して優れていることを示す。
本研究は,周波数に基づく不変な特徴保持が一般化に有効であることを示す。
- 参考スコア(独自算出の注目度): 19.781905942338813
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In recent years, large-scale vision-language models (VLMs) like CLIP have gained attention for their zero-shot inference using instructional text prompts. While these models excel in general computer vision, their potential for domain generalization in remote sensing (RS) remains underexplored. Existing approaches enhance prompt learning by generating visual prompt tokens but rely on full-image features, introducing noise and background artifacts that vary within a class, causing misclassification. To address this, we propose FrogDogNet, a novel prompt learning framework integrating Fourier frequency filtering and self-attention to improve RS scene classification and domain generalization. FrogDogNet selectively retains invariant low-frequency components while eliminating noise and irrelevant backgrounds, ensuring robust feature representation across domains. The model first extracts significant features via projection and self-attention, then applies frequency-based filtering to preserve essential structural information for prompt learning. Extensive experiments on four RS datasets and three domain generalization tasks show that FrogDogNet consistently outperforms state-of-the-art prompt learning methods, demonstrating superior adaptability across domain shifts. Our findings highlight the effectiveness of frequency-based invariant feature retention in generalization, paving the way for broader applications. Our code is available at https://github.com/HariseetharamG/FrogDogNet
- Abstract(参考訳): 近年,CLIPのような大規模視覚言語モデル(VLM)が,命令文プロンプトを用いたゼロショット推論に注目されている。
これらのモデルは一般のコンピュータビジョンにおいて優れているが、リモートセンシング(RS)における領域一般化の可能性はいまだ未解明である。
既存のアプローチは、視覚的なプロンプトトークンを生成することによって、迅速な学習を促進するが、フルイメージの機能に依存し、クラス内で異なるノイズやバックグラウンドアーティファクトを導入し、誤分類を引き起こす。
そこで我々はFrogDogNetを提案する。FrogDogNetは、フーリエ周波数フィルタリングと自己アテンションを統合した新しいプロンプト学習フレームワークで、RSシーンの分類とドメインの一般化を改善する。
FrogDogNetは、ノイズと無関係なバックグラウンドを排除しつつ、不変な低周波成分を選択的に保持し、ドメイン間の堅牢な特徴表現を保証する。
このモデルはまず、投射と自己注意を通して重要な特徴を抽出し、その後、周波数に基づくフィルタリングを適用して、素早い学習に不可欠な構造情報を保存する。
4つのRSデータセットと3つのドメイン一般化タスクに関する大規模な実験は、FrogDogNetが最先端のプロンプト学習手法を一貫して上回っており、ドメインシフト間の優れた適応性を示していることを示している。
本研究は,周波数に基づく不変な特徴保持が一般化に有効であることを明らかにするとともに,より広範な応用への道を開くことを目的とした。
私たちのコードはhttps://github.com/HariseetharamG/FrogDogNetで利用可能です。
関連論文リスト
- AFANet: Adaptive Frequency-Aware Network for Weakly-Supervised Few-Shot Semantic Segmentation [37.9826204492371]
少ないショット学習は、いくつかのサンプルから学んだ事前知識を活用することで、新しい概念を認識することを目的としている。
弱教師付き少数ショットセマンティックセマンティックセグメンテーションのための適応周波数認識ネットワーク(AFANet)を提案する。
論文 参考訳(メタデータ) (2024-12-23T14:20:07Z) - Towards Combating Frequency Simplicity-biased Learning for Domain Generalization [36.777767173275336]
ドメイン一般化手法は、未知のターゲットドメインによく一般化できるソースドメインから、転送可能な知識を学習することを目的としている。
近年の研究では、ニューラルネットワークはしばしば、特定の周波数セットに対する過度な信頼につながる単純さに偏った学習行動に悩まされていることが示されている。
本稿では,データセットの周波数特性を協調的かつ適応的に調整する2つの効果的なデータ拡張モジュールを提案する。
論文 参考訳(メタデータ) (2024-10-21T16:17:01Z) - Frequency-Aware Deepfake Detection: Improving Generalizability through
Frequency Space Learning [81.98675881423131]
この研究は、目に見えないディープフェイク画像を効果的に識別できるユニバーサルディープフェイク検出器を開発するという課題に対処する。
既存の周波数ベースのパラダイムは、偽造検出のためにGANパイプラインのアップサンプリング中に導入された周波数レベルのアーティファクトに依存している。
本稿では、周波数領域学習を中心にしたFreqNetと呼ばれる新しい周波数認識手法を導入し、ディープフェイク検出器の一般化性を高めることを目的とする。
論文 参考訳(メタデータ) (2024-03-12T01:28:00Z) - Learning Prompt with Distribution-Based Feature Replay for Few-Shot Class-Incremental Learning [56.29097276129473]
分散型特徴再現(LP-DiF)を用いた学習プロンプト(Learning Prompt)という,シンプルで効果的なフレームワークを提案する。
新しいセッションでは,学習可能なプロンプトが古い知識を忘れないようにするため,擬似機能的リプレイ手法を提案する。
新しいセッションに進むと、古いクラスのディストリビューションと現在のセッションのトレーニングイメージを組み合わせて擬似フィーチャーをサンプリングして、プロンプトを最適化する。
論文 参考訳(メタデータ) (2024-01-03T07:59:17Z) - Domain-Controlled Prompt Learning [49.45309818782329]
既存の素早い学習方法はドメイン認識やドメイン転送機構を欠いていることが多い。
特定のドメインに対するtextbfDomain-Controlled Prompt Learningを提案する。
本手法は,特定の領域画像認識データセットにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2023-09-30T02:59:49Z) - Intra- & Extra-Source Exemplar-Based Style Synthesis for Improved Domain
Generalization [21.591831983223997]
セマンティックセグメンテーションにおけるドメインの一般化を改善するために,先進的なスタイル合成パイプラインを提案する。
提案手法は,StyleGAN2インバージョンのためのマスク付きノイズエンコーダに基づく。
データシフトの種類によって、ドライブシーンセマンティックセマンティックセグメンテーションの最大12.4%のmIoU改善を実現しています。
論文 参考訳(メタデータ) (2023-07-02T19:56:43Z) - CFDP: Common Frequency Domain Pruning [0.3021678014343889]
本稿では,周波数領域を経由したモデルプルーニングのための新しいエンドツーエンドパイプラインを提案する。
我々はCIFAR-10で、GoogLeNetが95.25%、すなわちオリジナルのモデルから+0.2%の精度で達成した。
特筆すべきパフォーマンスに加えて、CFDPによって生成されたモデルは、様々な構成に対して堅牢性を示す。
論文 参考訳(メタデータ) (2023-06-07T04:49:26Z) - Vision Transformers: From Semantic Segmentation to Dense Prediction [139.15562023284187]
視覚的予測のための視覚変換器(ViT)のグローバルな文脈学習の可能性について検討する。
我々のモチベーションは、グローバルコンテキストを全受容界層で学習することで、ViTがより強力な長距離依存性情報を取得することである。
階層型ローカル・グローバル・トランスフォーマー (HLG) のファミリを定式化し, 窓内部の局所的な注意と, ピラミッド建築における窓全体のグローバルアテンションを特徴とする。
論文 参考訳(メタデータ) (2022-07-19T15:49:35Z) - Functional Regularization for Reinforcement Learning via Learned Fourier
Features [98.90474131452588]
本稿では、入力を学習されたフーリエベースに埋め込むことにより、深層強化学習のための簡単なアーキテクチャを提案する。
その結果、状態ベースと画像ベースの両方のRLのサンプル効率が向上することがわかった。
論文 参考訳(メタデータ) (2021-12-06T18:59:52Z) - Global Filter Networks for Image Classification [90.81352483076323]
本稿では,対数線形複雑度を持つ周波数領域における長期空間依存性を学習する,概念的に単純だが計算効率のよいアーキテクチャを提案する。
この結果から,GFNetはトランスフォーマー型モデルやCNNの効率,一般化能力,堅牢性において,非常に競争力のある代替手段となる可能性が示唆された。
論文 参考訳(メタデータ) (2021-07-01T17:58:16Z) - Adversarial Feature Augmentation and Normalization for Visual
Recognition [109.6834687220478]
最近のコンピュータビジョンの進歩は、分類モデルの一般化能力を改善するために、逆データ拡張を利用する。
本稿では,中間的特徴埋め込みにおける敵対的拡張を提唱する効率的かつ効率的な代替手法を提案する。
代表的なバックボーンネットワークを用いて,多様な視覚認識タスクにまたがる提案手法を検証する。
論文 参考訳(メタデータ) (2021-03-22T20:36:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。