論文の概要: Enhancing Remote Sensing Vision-Language Models for Zero-Shot Scene Classification
- arxiv url: http://arxiv.org/abs/2409.00698v1
- Date: Sun, 1 Sep 2024 11:39:13 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-06 12:52:28.642005
- Title: Enhancing Remote Sensing Vision-Language Models for Zero-Shot Scene Classification
- Title(参考訳): ゼロショットシーン分類のためのリモートセンシングビジョンランゲージモデルの強化
- Authors: Karim El Khoury, Maxime Zanella, Benoît Gérin, Tiffanie Godelaine, Benoît Macq, Saïd Mahmoudi, Christophe De Vleeschouwer, Ismail Ben Ayed,
- Abstract要約: リモートセンシングのためのビジョンランゲージモデルは、広範囲の事前トレーニングのおかげで有望な用途を示している。
提案手法は,テキストのプロンプトと親和関係のパッチによる初期予測を利用してこの問題に対処する。
最先端のVision-Language Modelを用いた10のリモートセンシングデータセットの実験では、大幅な精度向上が示されている。
- 参考スコア(独自算出の注目度): 19.850063789903846
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-Language Models for remote sensing have shown promising uses thanks to their extensive pretraining. However, their conventional usage in zero-shot scene classification methods still involves dividing large images into patches and making independent predictions, i.e., inductive inference, thereby limiting their effectiveness by ignoring valuable contextual information. Our approach tackles this issue by utilizing initial predictions based on text prompting and patch affinity relationships from the image encoder to enhance zero-shot capabilities through transductive inference, all without the need for supervision and at a minor computational cost. Experiments on 10 remote sensing datasets with state-of-the-art Vision-Language Models demonstrate significant accuracy improvements over inductive zero-shot classification. Our source code is publicly available on Github: https://github.com/elkhouryk/RS-TransCLIP
- Abstract(参考訳): リモートセンシングのためのビジョンランゲージモデルは、広範囲の事前トレーニングのおかげで有望な用途を示している。
しかし、従来のゼロショットシーン分類法では、大きな画像をパッチに分割し、インダクティブ推論(inductive inference)という独立した予測を行うため、貴重な文脈情報を無視して有効性を制限している。
提案手法は,画像エンコーダからのテキストのプロンプトと親和性関係のパッチによる初期予測を利用して,トランスダクティブ推論によるゼロショット機能の向上を実現する。
最新技術であるVision-Language Modelを用いた10のリモートセンシングデータセットの実験では、インダクティブゼロショット分類よりも大幅に精度が向上した。
ソースコードはGithubで公開されている。 https://github.com/elkhouryk/RS-TransCLIP
関連論文リスト
- Text-Guided Attention is All You Need for Zero-Shot Robustness in Vision-Language Models [64.67721492968941]
ゼロショットロバストネス(TGA-ZSR)のためのテキストガイド型アテンションを提案する。
我々のゴールは、CLIPモデルの一般化を維持し、敵の堅牢性を高めることである。
本手法は,現在の最先端技術よりも9.58%の精度でゼロショット精度を向上する。
論文 参考訳(メタデータ) (2024-10-29T07:15:09Z) - Boosting Vision-Language Models for Histopathology Classification: Predict all at once [11.644118356081531]
病理組織学における視覚言語モデルへのトランスダクティブアプローチを提案する。
私たちのアプローチは非常に効率的で、ほんの数秒で105ドルのパッチを処理します。
論文 参考訳(メタデータ) (2024-09-03T13:24:12Z) - The Neglected Tails in Vision-Language Models [51.79913798808725]
視覚言語モデル(VLM)はゼロショット認識において優れているが,その性能は視覚的概念によって大きく異なる。
ゼロショットVLMの不均衡性能を軽減するために,Retrieval-Augmented Learning (REAL)を提案する。
論文 参考訳(メタデータ) (2024-01-23T01:25:00Z) - POUF: Prompt-oriented unsupervised fine-tuning for large pre-trained
models [62.23255433487586]
モデルに微調整を施したり、ラベルのないターゲットデータにプロンプトを施したりするための教師なしの微調整フレームワークを提案する。
本稿では,プロンプトとターゲットデータから抽出した離散分布を整列させて,言語拡張視覚とマスキング言語モデルの両方に適用する方法を示す。
論文 参考訳(メタデータ) (2023-04-29T22:05:22Z) - Effective End-to-End Vision Language Pretraining with Semantic Visual
Loss [58.642954383282216]
現在の視覚言語事前学習モデルは、物体検出器から抽出された領域視覚特徴を用いた手法によって支配されている。
3種類の視覚的損失を導入し、より高速な収束と微調整精度の向上を実現した。
リージョン機能モデルと比較して、私たちのエンドツーエンドモデルは、下流タスクで同様のあるいはより良いパフォーマンスを実現し、推論中に10倍以上高速に動作します。
論文 参考訳(メタデータ) (2023-01-18T00:22:49Z) - Zero-Shot Text Classification with Self-Training [8.68603153534916]
ゼロショット分類器を最も確実な予測で微調整することで、幅広いテキスト分類タスクにおいて大幅な性能向上が期待できることを示す。
自己学習は、手元にあるタスクにゼロショットモデルを適用する。
論文 参考訳(メタデータ) (2022-10-31T17:55:00Z) - Cross-modal Representation Learning for Zero-shot Action Recognition [67.57406812235767]
我々は、ゼロショット動作認識(ZSAR)のためのビデオデータとテキストラベルを共同で符号化するクロスモーダルトランスフォーマーベースのフレームワークを提案する。
我々のモデルは概念的に新しいパイプラインを使用し、視覚的表現と視覚的意味的関連をエンドツーエンドで学習する。
実験結果から,本モデルはZSARの芸術的状況に大きく改善され,UCF101,HMDB51,ActivityNetベンチマークデータセット上でトップ1の精度が向上した。
論文 参考訳(メタデータ) (2022-05-03T17:39:27Z) - Learning to Prompt for Vision-Language Models [82.25005817904027]
視覚言語による事前学習が表現学習の有望な代替手段として登場した。
画像と離散ラベルを使って、視覚的な概念と見なされる一連の重みを学習する伝統から、2つの異なるエンコーダのための画像と生のテキストの整列へと移行する。
このようなパラダイムは、より広範な監視源の恩恵を受け、下流タスクへのゼロショット転送を可能にします。
論文 参考訳(メタデータ) (2021-09-02T17:57:31Z) - VisualGPT: Data-efficient Image Captioning by Balancing Visual Input and
Linguistic Knowledge from Pretraining [39.24803665848558]
大規模事前学習言語モデル(LM)から言語知識を活用するデータ効率のよい画像キャプションモデルであるVisualGPTを提案する。
少量のインドメイントレーニングデータに予め訓練されたLMを言語デコーダとして迅速に適応させる,新しい自己回復型エンコーダデコーダ注意機構を設計した。
VisualGPTは、MS COCOで最大10.8%のCIDEr、コンセプチュアルキャプションで最大5.4%のCIDErで最高のベースラインモデルを上回る。
論文 参考訳(メタデータ) (2021-02-20T18:02:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。