論文の概要: Zero-shot sketch-based remote sensing image retrieval based on
multi-level and attention-guided tokenization
- arxiv url: http://arxiv.org/abs/2402.02141v1
- Date: Sat, 3 Feb 2024 13:11:14 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-06 21:51:02.341103
- Title: Zero-shot sketch-based remote sensing image retrieval based on
multi-level and attention-guided tokenization
- Title(参考訳): マルチレベルおよび注意誘導トークン化に基づくゼロショットスケッチに基づくリモートセンシング画像検索
- Authors: Bo Yang, Chen Wang, Xiaoshuang Ma, Beiping Song and Zhuang Liu
- Abstract要約: 本研究では,マルチレベル・アテンション誘導トークン化を利用したゼロショット・スケッチに基づくリモートセンシング画像検索手法を提案する。
本手法は,既存のスケッチベースリモートセンシング画像検索技術よりも精度が高いことを示す。
より広範なアクセシビリティと研究のファシリテーションのために、この研究で使用されるコードとデータセットをオンラインで公開しました。
- 参考スコア(独自算出の注目度): 9.865291583050947
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Effectively and efficiently retrieving images from remote sensing databases
is a critical challenge in the realm of remote sensing big data. Utilizing
hand-drawn sketches as retrieval inputs offers intuitive and user-friendly
advantages, yet the potential of multi-level feature integration from sketches
remains underexplored, leading to suboptimal retrieval performance. To address
this gap, our study introduces a novel zero-shot, sketch-based retrieval method
for remote sensing images, leveraging multi-level, attention-guided
tokenization. This approach starts by employing multi-level self-attention
feature extraction to tokenize the query sketches, as well as self-attention
feature extraction to tokenize the candidate images. It then employs
cross-attention mechanisms to establish token correspondence between these two
modalities, facilitating the computation of sketch-to-image similarity. Our
method demonstrates superior retrieval accuracy over existing sketch-based
remote sensing image retrieval techniques, as evidenced by tests on four
datasets. Notably, it also exhibits robust zero-shot learning capabilities and
strong generalizability in handling unseen categories and novel remote sensing
data. The method's scalability can be further enhanced by the pre-calculation
of retrieval tokens for all candidate images in a database. This research
underscores the significant potential of multi-level, attention-guided
tokenization in cross-modal remote sensing image retrieval. For broader
accessibility and research facilitation, we have made the code and dataset used
in this study publicly available online. Code and dataset are available at
https://github.com/Snowstormfly/Cross-modal-retrieval-MLAGT.
- Abstract(参考訳): リモートセンシングビッグデータの領域では,リモートセンシングデータベースから画像を効果的かつ効率的に取得することが重要な課題である。
手描きのスケッチを検索入力として利用すると、直感的でユーザフレンドリーなアドバンテージが得られるが、スケッチからのマルチレベル機能統合の可能性は未検討のままであり、最適でない検索性能をもたらす。
そこで本研究では, リモートセンシング画像に対するゼロショット, スケッチに基づく検索手法を提案する。
このアプローチでは、クエリスケッチのトークン化にマルチレベルの自己アテンション特徴抽出、候補画像のトークン化に自己アテンション特徴抽出を使用する。
次に、これらの2つのモダリティ間のトークン対応を確立するためにクロスアテンション機構を使用し、スケッチと画像の類似性の計算を容易にする。
提案手法は,既存のスケッチ型リモートセンシング画像検索技術よりも優れた検索精度を示す。
特に、目に見えないカテゴリや新しいリモートセンシングデータを扱う際に、堅牢なゼロショット学習能力と強力な一般化性を示す。
この方法のスケーラビリティは、データベース内のすべての候補画像に対する検索トークンの事前計算によってさらに向上することができる。
クロスモーダルリモートセンシング画像検索におけるマルチレベル・注意誘導トークン化の可能性について考察した。
幅広いアクセシビリティと研究の促進のために、この研究で使われているコードとデータセットをオンラインで公開しました。
コードとデータセットはhttps://github.com/snowstormfly/cross-modal-retrieval-mlagtで入手できる。
関連論文リスト
- Revolutionizing Text-to-Image Retrieval as Autoregressive Token-to-Voken Generation [90.71613903956451]
テキスト・ツー・イメージ検索はマルチメディア処理における基本的な課題である。
本稿では,AVGという自己回帰ボウケン生成手法を提案する。
AVGは有効性と有効性の両方において優れた結果が得られることを示す。
論文 参考訳(メタデータ) (2024-07-24T13:39:51Z) - Knowledge-aware Text-Image Retrieval for Remote Sensing Images [6.4527372338977]
クロスモーダルテキストイメージ検索は、しばしばテキストと画像の間の情報非対称性に悩まされる。
外部知識グラフから関連情報をマイニングすることにより,知識を考慮したテキスト画像検索手法を提案する。
提案手法は, 知識認識手法により多様かつ一貫した検索が実現され, 最先端の検索方法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-05-06T11:27:27Z) - Object-Centric Open-Vocabulary Image-Retrieval with Aggregated Features [12.14013374452918]
本稿では,オブジェクト中心のオープン語彙画像検索に対して,シンプルながら効果的なアプローチを提案する。
提案手法は,CLIPから抽出した濃密な埋め込みをコンパクトな表現に集約する。
3つのデータセットのグローバルな特徴的アプローチよりもはるかに優れた結果を得ることで,タスクに対する提案手法の有効性を示す。
論文 参考訳(メタデータ) (2023-09-26T15:13:09Z) - Self-Correlation and Cross-Correlation Learning for Few-Shot Remote
Sensing Image Semantic Segmentation [27.59330408178435]
リモートセマンティックセマンティックセマンティックセマンティクスは、クエリイメージからターゲットオブジェクトをセグメントすることを学ぶことを目的としている。
本稿では,数発のリモートセンシング画像セマンティックセマンティックセグメンテーションのための自己相関・相互相関学習ネットワークを提案する。
本モデルは,サポート画像とクエリ画像の自己相関と相互相関の両方を考慮し,一般化を促進させる。
論文 参考訳(メタデータ) (2023-09-11T21:53:34Z) - Learning Transferable Pedestrian Representation from Multimodal
Information Supervision [174.5150760804929]
VAL-PATは、移動可能な表現を学習し、様々な歩行者分析タスクをマルチモーダル情報で強化する新しいフレームワークである。
まず、LUPerson-TAデータセットで事前トレーニングを行い、各画像にはテキストと属性アノテーションが含まれている。
次に、学習した表現を、人物のreID、人物属性認識、テキストベースの人物検索など、さまざまな下流タスクに転送する。
論文 参考訳(メタデータ) (2023-04-12T01:20:58Z) - Unleash the Potential of Image Branch for Cross-modal 3D Object
Detection [67.94357336206136]
画像分岐のポテンシャルを2つの側面から解き放つことを目的として,新しい3Dオブジェクト検出器UPIDetを提案する。
まず、UPIDetは正規化された局所座標写像推定と呼ばれる新しい2次元補助タスクを導入する。
第2に,イメージブランチのトレーニング目標から逆転する勾配によって,ポイントクラウドバックボーンの表現能力を向上できることを見出した。
論文 参考訳(メタデータ) (2023-01-22T08:26:58Z) - Cross-Modal Fusion Distillation for Fine-Grained Sketch-Based Image
Retrieval [55.21569389894215]
本稿では,視覚変換器(XModalViT)のクロスアテンションフレームワークを提案する。
我々のフレームワークはまず、個々の写真からペア化されたデータポイントをマッピングし、両方のモダリティから情報を統一する融合表現にスケッチする。
次に、上記のモダリティ融合ネットワークの入力空間を、コントラストおよびリレーショナルなクロスモーダル知識蒸留により個々のモダリティの独立エンコーダに分離する。
論文 参考訳(メタデータ) (2022-10-19T11:50:14Z) - LEAD: Self-Supervised Landmark Estimation by Aligning Distributions of
Feature Similarity [49.84167231111667]
自己監督型ランドマーク検出における既存の研究は、画像から高密度(ピクセルレベルの)特徴表現を学習することに基づいている。
自己教師付き方式で高密度同変表現の学習を強化するアプローチを提案する。
機能抽出器にそのような先行性があることは,アノテーションの数が大幅に制限されている場合でも,ランドマーク検出に役立ちます。
論文 参考訳(メタデータ) (2022-04-06T17:48:18Z) - Correlation-Aware Deep Tracking [83.51092789908677]
本稿では,自己/横断的意図に着想を得た,新たなターゲット依存型特徴ネットワークを提案する。
我々のネットワークは機能ネットワークの複数の層にクロスイメージの特徴相関を深く埋め込んでいる。
我々のモデルは、豊富な未ペア画像に対して柔軟に事前訓練が可能であり、既存の手法よりも顕著に高速な収束をもたらす。
論文 参考訳(メタデータ) (2022-03-03T11:53:54Z) - Exploiting the relationship between visual and textual features in
social networks for image classification with zero-shot deep learning [0.0]
本稿では,CLIPニューラルネットワークアーキテクチャの伝達可能な学習能力に基づく分類器アンサンブルを提案する。
本研究は,Placesデータセットのラベルによる画像分類タスクに基づいて,視覚的部分のみを考慮した実験である。
画像に関連付けられたテキストを考えることは、目標に応じて精度を向上させるのに役立つ。
論文 参考訳(メタデータ) (2021-07-08T10:54:59Z) - AugNet: End-to-End Unsupervised Visual Representation Learning with
Image Augmentation [3.6790362352712873]
我々は、未ラベル画像の集合から画像特徴を学習するための新しいディープラーニングトレーニングパラダイムであるAugNetを提案する。
実験により,低次元空間における画像の表現が可能であることを実証した。
多くのディープラーニングベースの画像検索アルゴリズムとは異なり、我々のアプローチは外部アノテーション付きデータセットへのアクセスを必要としない。
論文 参考訳(メタデータ) (2021-06-11T09:02:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。