論文の概要: Redundancy-Aware Pretraining of Vision-Language Foundation Models in Remote Sensing
- arxiv url: http://arxiv.org/abs/2505.11121v1
- Date: Fri, 16 May 2025 11:08:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-19 14:36:14.776151
- Title: Redundancy-Aware Pretraining of Vision-Language Foundation Models in Remote Sensing
- Title(参考訳): リモートセンシングにおける視覚言語基礎モデルの冗長性を考慮した事前学習
- Authors: Mathis Jürgen Adler, Leonard Hackel, Gencer Sumbul, Begüm Demir,
- Abstract要約: VLMプリトレーニングは、多数の画像とテキストのペアから画像と言語のアライメントを学ぶことを目的としている。
遠隔センシングにおけるVLM事前学習のための重み付け機能集約(WFA)戦略を導入する。
i)非言語的独特性と(ii)学習に基づく注意の2つの手法を提案する。
- 参考スコア(独自算出の注目度): 2.4949076090402724
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The development of foundation models through pretraining of vision-language models (VLMs) has recently attracted great attention in remote sensing (RS). VLM pretraining aims to learn image and language alignments from a large number of image-text pairs. Each pretraining image is often associated with multiple captions containing redundant information due to repeated or semantically similar phrases, resulting in increased pretraining and inference time. To overcome this, we introduce a weighted feature aggregation (WFA) strategy for VLM pretraining in RS. Our strategy aims to extract and exploit complementary information from multiple captions per image while reducing redundancies through feature aggregation with importance weighting. To calculate adaptive importance weights for different captions of each image, we propose two techniques: (i) non-parametric uniqueness and (ii) learning-based attention. In the first technique, importance weights are calculated based on the bilingual evaluation understudy (BLEU) scores of the captions to emphasize unique sentences and reduce the influence of repetitive ones. In the second technique, importance weights are learned through an attention mechanism instead of relying on hand-crafted features. The effectiveness of the proposed WFA strategy with the two techniques is analyzed in terms of downstream performance on text-to-image retrieval in RS. Experimental results show that the proposed strategy enables efficient and effective pretraining of VLMs in RS. Based on the experimental analysis, we derive guidelines for selecting appropriate techniques depending on downstream task requirements and resource constraints. The code of this work is publicly available at https://git.tu-berlin.de/rsim/redundacy-aware-rs-vlm.
- Abstract(参考訳): 近年,視覚言語モデル(VLM)の事前学習による基礎モデルの開発が,リモートセンシング(RS)において大きな注目を集めている。
VLMプリトレーニングは、多数の画像とテキストのペアから画像と言語のアライメントを学ぶことを目的としている。
各事前学習画像は、繰り返しまたは意味的に類似したフレーズによる冗長な情報を含む複数のキャプションと関連付けられ、事前学習と推論時間が増加する。
これを解決するために、RSにおけるVLM事前訓練のための重み付き特徴集約(WFA)戦略を導入する。
本戦略は,画像ごとの複数のキャプションから補完情報を抽出し,重み付けによる特徴集約による冗長性を低減することを目的としている。
各画像の異なるキャプションに対する適応的な重み付けを計算するために,2つの手法を提案する。
(i)非パラメトリックな特異性と
(二)学習に基づく注意。
第1のテクニックでは、キャプションのバイリンガル評価アンダースタディ(BLEU)スコアに基づいて重み付けを算出し、独特な文を強調し、反復的な文の影響を減らす。
第2のテクニックでは、手作りの特徴に頼るのではなく、注意機構を通じて重みを学習する。
この2つの手法によるWFA戦略の有効性を,RSにおけるテキスト・ツー・イメージ検索におけるダウンストリーム性能の観点から分析した。
実験の結果,提案手法はRSにおけるVLMの効率的かつ効果的な事前学習を可能にすることが示された。
実験結果に基づいて、下流のタスク要求やリソース制約に応じて適切なテクニックを選択するためのガイドラインを導出する。
この作業のコードはhttps://git.tu-berlin.de/rsim/redundacy-aware-rs-vlmで公開されている。
関連論文リスト
- ViLa-MIL: Dual-scale Vision-Language Multiple Instance Learning for Whole Slide Image Classification [52.405499816861635]
多重インスタンス学習(MIL)ベースのフレームワークは、スライド画像全体(WSI)を処理する上で主流になっている。
スライド画像全体の分類のための2次元視覚言語多言語学習(ViLa-MIL)フレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-12T13:28:46Z) - Intra-task Mutual Attention based Vision Transformer for Few-Shot Learning [12.5354658533836]
人間は、ほんのわずかの例に晒された後に、新しい、目に見えない画像を正確に分類する能力を持っている。
人工ニューラルネットワークモデルでは、限られたサンプルを持つ2つのイメージを区別する最も関連性の高い特徴を決定することが課題である。
本稿では,サポートとクエリサンプルをパッチに分割するタスク内相互注意手法を提案する。
論文 参考訳(メタデータ) (2024-05-06T02:02:57Z) - CAVL: Learning Contrastive and Adaptive Representations of Vision and
Language [10.57079240576682]
視覚的および言語的事前学習は、視覚と言語表現を一緒に学習することを目的としている。
現在の事前訓練されたモデルでは、下流のタスクに転送する際、微調整のために多くの計算資源を必要とする傾向にある。
我々は、視覚と言語、すなわちCAVLのコントラスト表現と適応表現の学習に、シンプルだが効果的なアプローチを提案する。
論文 参考訳(メタデータ) (2023-04-10T05:54:03Z) - Multi-Modal Representation Learning with Text-Driven Soft Masks [48.19806080407593]
自己教師型学習フレームワークにおける視覚言語表現学習手法を提案する。
画像中の領域をソフトメイキングすることで、画像テキストマッチング(ITM)タスクの多様な特徴を生成する。
マルチモーダルエンコーダを用いて単語条件の視覚的注意を計算し,各単語に関連する領域を同定する。
論文 参考訳(メタデータ) (2023-04-03T05:07:49Z) - CLIP-ViP: Adapting Pre-trained Image-Text Model to Video-Language
Representation Alignment [146.3128011522151]
本稿では,CLIP,すなわちCLIP-ViPに基づいて,ビデオプロキシ機構を備えたOmniクロスモーダル学習手法を提案する。
提案手法は,ビデオテキスト検索におけるCLIPの性能を大きなマージンで向上させる。
MSR-VTT, DiDeMo, LSMDC, ActivityNet など,様々なデータセット上でのSOTA結果も得られた。
論文 参考訳(メタデータ) (2022-09-14T05:47:02Z) - Coarse-to-Fine Vision-Language Pre-training with Fusion in the Backbone [170.85076677740292]
本稿では、視覚言語(VL)事前学習のための新しいモデルアーキテクチャであるFIBER(Fusion-In-the-Backbone-basedER)を提案する。
ユニモーダルバックボーンの後に、専用のトランスフォーマー層を融合させる代わりに、FIBERはマルチモーダルフュージョンをモデルに深く押し込む。
我々は、VQA、画像キャプション、検索、フレーズグラウンド、参照表現理解、オブジェクト検出など、幅広いVLタスクに関する包括的な実験を行う。
論文 参考訳(メタデータ) (2022-06-15T16:41:29Z) - Dense Contrastive Visual-Linguistic Pretraining [53.61233531733243]
画像とテキストを共同で表現するマルチモーダル表現学習手法が提案されている。
これらの手法は,大規模マルチモーダル事前学習から高レベルな意味情報を取得することにより,優れた性能を実現する。
そこで本稿では,非バイアスのDense Contrastive Visual-Linguistic Pretrainingを提案する。
論文 参考訳(メタデータ) (2021-09-24T07:20:13Z) - Align before Fuse: Vision and Language Representation Learning with
Momentum Distillation [52.40490994871753]
本稿では,ALBEF (BEfore Fusing) の表現に対して,モーダルな注意を通したコントラスト的損失を導入する。
本研究では,運動量モデルで生成した擬似ターゲットから学習する自己学習法である運動量蒸留を提案する。
ALBEFは、複数の下流視覚言語タスクで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2021-07-16T00:19:22Z) - Contrastive learning of global and local features for medical image
segmentation with limited annotations [10.238403787504756]
教師付きディープラーニングの成功のための重要な要件は、大きなラベル付きデータセットである。
半教師付き環境での医用画像のセグメンテーションのためのコントラスト学習フレームワークの拡張戦略を提案する。
限定的なアノテーション設定では、提案手法は、他の自己超越的および半教師付き学習技術と比較して大幅に改善される。
論文 参考訳(メタデータ) (2020-06-18T13:31:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。