論文の概要: A Resource-Efficient Training Framework for Remote Sensing Text--Image Retrieval
- arxiv url: http://arxiv.org/abs/2501.10638v1
- Date: Sat, 18 Jan 2025 02:51:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-22 14:23:36.641838
- Title: A Resource-Efficient Training Framework for Remote Sensing Text--Image Retrieval
- Title(参考訳): リモートセンシングテキスト検索のための資源効率のよい学習フレームワーク-画像検索
- Authors: Weihang Zhang, Jihao Li, Shuoke Li, Ziqing Niu, Jialiang Chen, Wenkai Zhang,
- Abstract要約: RSTIRのための計算とメモリ効率の検索フレームワークを提案する。
トレーニングメモリ使用量を削減するため,Focus-Adapterモジュールを提案する。
提案手法は, メモリ消費を49%削減し, トレーニング中のデータスループットを1.4倍に向上させる。
- 参考スコア(独自算出の注目度): 5.831764081074079
- License:
- Abstract: Remote sensing text--image retrieval (RSTIR) aims to retrieve the matched remote sensing (RS) images from the database according to the descriptive text. Recently, the rapid development of large visual-language pre-training models provides new insights for RSTIR. Nevertheless, as the complexity of models grows in RSTIR, the previous studies suffer from suboptimal resource efficiency during transfer learning. To address this issue, we propose a computation and memory-efficient retrieval (CMER) framework for RSTIR. To reduce the training memory consumption, we propose the Focus-Adapter module, which adopts a side branch structure. Its focus layer suppresses the interference of background pixels for small targets. Simultaneously, to enhance data efficacy, we regard the RS scene category as the metadata and design a concise augmentation technique. The scene label augmentation leverages the prior knowledge from land cover categories and shrinks the search space. We propose the negative sample recycling strategy to make the negative sample pool decoupled from the mini-batch size. It improves the generalization performance without introducing additional encoders. We have conducted quantitative and qualitative experiments on public datasets and expanded the benchmark with some advanced approaches, which demonstrates the competitiveness of the proposed CMER. Compared with the recent advanced methods, the overall retrieval performance of CMER is 2%--5% higher on RSITMD. Moreover, our proposed method reduces memory consumption by 49% and has a 1.4x data throughput during training. The code of the CMER and the dataset will be released at https://github.com/ZhangWeihang99/CMER.
- Abstract(参考訳): リモートセンシングテキスト画像検索(RSTIR)は、記述テキストに従ってデータベースからマッチングされたリモートセンシング(RS)画像を検索することを目的としている。
近年,大規模視覚言語事前学習モデルの急速な発展が,RTTIRに新たな洞察を与えている。
しかしながら、RTTIRではモデルの複雑さが増大するにつれて、前回の研究では転送学習の際の資源効率が低下する。
この問題に対処するために、RSTIRのための計算とメモリ効率検索(CMER)フレームワークを提案する。
トレーニングメモリ使用量を削減するため,サイドブランチ構造を採用したFocus-Adapterモジュールを提案する。
そのフォーカス層は、小さなターゲットに対する背景画素の干渉を抑制する。
同時に、データの有効性を高めるために、RSシーンカテゴリをメタデータとみなし、簡潔な拡張手法を設計する。
シーンラベル拡張は、土地被覆カテゴリーからの事前知識を活用し、検索空間を縮小する。
本稿では, サンプルプールをミニバッチサイズから分離する正試料リサイクル戦略を提案する。
追加のエンコーダを導入することなく、一般化性能を向上させる。
我々は,公開データセットの定量的および定性的な実験を行い,いくつかの高度なアプローチでベンチマークを拡張し,提案したCMERの競争力を実証した。
近年の手法と比較して、CMERの総合検索性能はRSITMDよりも2%--5%高い。
さらに,本手法はメモリ消費を49%削減し,トレーニング時のデータスループットを1.4倍に向上させる。
CMERとデータセットのコードはhttps://github.com/ZhangWeihang99/CMERでリリースされる。
関連論文リスト
- Cross-Modal Pre-Aligned Method with Global and Local Information for Remote-Sensing Image and Text Retrieval [16.995114000869833]
グローバルな情報とローカルな情報を活用するクロスモーダル・プレアライメント手法であるCMPAGLを提案する。
我々のGswin変換ブロックは、ローカルウィンドウの自己アテンションとグローバルローカルウィンドウのクロスアテンションを組み合わせて、マルチスケールな特徴をキャプチャする。
RSICDとRSITMDを含む4つのデータセットの実験はCMPAGLの有効性を検証する。
論文 参考訳(メタデータ) (2024-11-22T03:28:55Z) - A Fresh Take on Stale Embeddings: Improving Dense Retriever Training with Corrector Networks [81.2624272756733]
密集検索では、ディープエンコーダは入力とターゲットの両方に埋め込みを提供する。
我々は、古いキャッシュされたターゲット埋め込みを調整できる小さなパラメトリック補正ネットワークを訓練する。
私たちのアプローチは、トレーニング中にターゲット埋め込み更新が行われなくても、最先端の結果と一致します。
論文 参考訳(メタデータ) (2024-09-03T13:29:13Z) - SIRST-5K: Exploring Massive Negatives Synthesis with Self-supervised
Learning for Robust Infrared Small Target Detection [53.19618419772467]
単一フレーム赤外線小ターゲット検出(SIRST)は、乱雑な背景から小さなターゲットを認識することを目的としている。
Transformerの開発に伴い、SIRSTモデルのスケールは常に増大している。
赤外線小ターゲットデータの多彩な多様性により,本アルゴリズムはモデル性能と収束速度を大幅に改善する。
論文 参考訳(メタデータ) (2024-03-08T16:14:54Z) - Parameter-Efficient Transfer Learning for Remote Sensing Image-Text
Retrieval [10.84733740863356]
本研究では,画像テキスト検索タスクにおいて,自然領域から RS 領域に視覚言語知識を伝達するためのパラメータ効率変換学習(PETL)手法について検討する。
提案モデルでは0.16万のトレーニングパラメータしか含まないため,完全微調整に比べて98.9%のパラメータ削減が可能である。
検索性能は従来の手法を7~13%超え,完全微調整よりも高い性能を達成している。
論文 参考訳(メタデータ) (2023-08-24T02:43:53Z) - Class Anchor Margin Loss for Content-Based Image Retrieval [97.81742911657497]
距離学習パラダイムに該当する新しいレペラ・トラクタ損失を提案するが、ペアを生成する必要がなく、直接L2メトリックに最適化する。
CBIRタスクにおいて,畳み込みアーキテクチャと変圧器アーキテクチャの両方を用いて,少数ショットおよびフルセットトレーニングの文脈で提案した目的を評価する。
論文 参考訳(メタデータ) (2023-06-01T12:53:10Z) - Data Roaming and Quality Assessment for Composed Image Retrieval [25.452015862927766]
Composed Image Retrieval (CoIR)は、画像とテキストのモダリティを組み合わせたクエリで、ユーザがより効果的にインテントを表現できるようにする。
我々は,既存のものより10倍大きい新しいCoIRデータセットであるLaSCoデータセットを紹介する。
また、新しいCoIRベースラインであるCASE(Cross-Attention driven Shift)も導入する。
論文 参考訳(メタデータ) (2023-03-16T16:02:24Z) - Real-World Image Super-Resolution by Exclusionary Dual-Learning [98.36096041099906]
実世界の画像超解像は,高品質な画像を得るための実用的な画像復元問題である。
深層学習に基づく手法は、現実世界の超解像データセットの復元に期待できる品質を実現している。
本稿では,RWSR-EDL(Real-World Image Super-Resolution by Exclusionary Dual-Learning)を提案する。
論文 参考訳(メタデータ) (2022-06-06T13:28:15Z) - Text-Based Person Search with Limited Data [66.26504077270356]
テキストベースの人物検索(TBPS)は、画像ギャラリーから対象人物を記述的なテキストクエリで検索することを目的としている。
限られたデータによってもたらされる問題に対処する2つの新しいコンポーネントを持つフレームワークを提案する。
論文 参考訳(メタデータ) (2021-10-20T22:20:47Z) - Improving Computational Efficiency in Visual Reinforcement Learning via
Stored Embeddings [89.63764845984076]
効率的な強化学習のためのストアド埋め込み(SEER)について紹介します。
SEERは、既存の非政治深層強化学習方法の簡単な修正です。
計算とメモリを大幅に節約しながら、SEERがRLizableエージェントのパフォーマンスを低下させないことを示します。
論文 参考訳(メタデータ) (2021-03-04T08:14:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。