Fugu-MT 論文翻訳(概要): Zero-shot sketch-based remote sensing image retrieval based on multi-level and attention-guided tokenization

論文の概要: Zero-shot sketch-based remote sensing image retrieval based on multi-level and attention-guided tokenization

arxiv url: http://arxiv.org/abs/2402.02141v3
Date: Thu, 16 May 2024 03:00:22 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-17 18:55:01.334288
Title: Zero-shot sketch-based remote sensing image retrieval based on multi-level and attention-guided tokenization
Title（参考訳）: マルチレベル・アテンション誘導トークン化に基づくゼロショットスケッチに基づくリモートセンシング画像検索
Authors: Bo Yang, Chen Wang, Xiaoshuang Ma, Beiping Song, Zhuang Liu, Fangde Sun,
Abstract要約: 本研究では,リモートセンシング画像を対象としたゼロショット・スケッチベース検索手法を提案する。マルチレベルの特徴抽出、自己アテンション誘導トークン化とフィルタリング、モダリティ間のアテンション更新が採用されている。本手法は,既存のスケッチベースリモートセンシング画像検索技術よりも優れている。
参考スコア（独自算出の注目度）: 8.678089483952474
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Effectively and efficiently retrieving images from remote sensing databases is a critical challenge in the realm of remote sensing big data. Utilizing hand-drawn sketches as retrieval inputs offers intuitive and user-friendly advantages, yet the potential of multi-level feature integration from sketches remains underexplored, leading to suboptimal retrieval performance. To address this gap, our study introduces a novel zero-shot, sketch-based retrieval method for remote sensing images, leveraging multi-level feature extraction, self-attention-guided tokenization and filtering, and cross-modality attention update. This approach employs only vision information and does not require semantic knowledge concerning the sketch and image. It starts by employing multi-level self-attention guided feature extraction to tokenize the query sketches, as well as self-attention feature extraction to tokenize the candidate images. It then employs cross-attention mechanisms to establish token correspondence between these two modalities, facilitating the computation of sketch-to-image similarity. Our method significantly outperforms existing sketch-based remote sensing image retrieval techniques, as evidenced by tests on multiple datasets. Notably, it also exhibits robust zero-shot learning capabilities and strong generalizability in handling unseen categories and novel remote sensing data. The method's scalability can be further enhanced by the pre-calculation of retrieval tokens for all candidate images in a database. This research underscores the significant potential of multi-level, attention-guided tokenization in cross-modal remote sensing image retrieval. For broader accessibility and research facilitation, we have made the code and dataset used in this study publicly available online. Code and dataset are available at https://github.com/Snowstormfly/Cross-modal-retrieval-MLAGT.
Abstract（参考訳）: リモートセンシングビッグデータの領域では,リモートセンシングデータベースから画像を効果的かつ効率的に取得することが重要な課題である。手書きのスケッチを検索入力として利用すると、直感的でユーザフレンドリな利点があるが、スケッチからのマルチレベル機能統合の可能性はまだ探索されていないため、サブ最適検索性能に繋がる。このギャップに対処するため,リモートセンシング画像のゼロショット・スケッチベース検索手法を導入し,マルチレベル特徴抽出,自己注意誘導型トークン化とフィルタリング,モダリティ間アテンション更新を実現した。このアプローチでは視覚情報のみを使用し、スケッチや画像に関する意味的な知識を必要としない。まず、クエリスケッチのトークン化にマルチレベルな自己意図的特徴抽出、および候補画像のトークン化に自己意識的特徴抽出を採用する。次に、これらの2つのモード間のトークン対応を確立するために、クロスアテンション機構を使用し、スケッチと画像の類似性の計算を容易にする。提案手法は,既存のスケッチベースリモートセンシング画像検索技術よりも優れている。特に、目に見えないカテゴリや新しいリモートセンシングデータを扱う際に、堅牢なゼロショット学習能力と強力な一般化性を示す。この手法のスケーラビリティは、データベース内のすべての候補画像に対する検索トークンの事前計算によってさらに向上することができる。本研究は,マルチレベル・アテンション誘導型トークン化によるリモートセンシング画像検索の意義を裏付けるものである。より広範なアクセシビリティと研究のファシリテーションのために、この研究で使用されるコードとデータセットをオンラインで公開しました。コードとデータセットはhttps://github.com/Snowstormfly/Cross-modal-retrieval-MLAGTで公開されている。

関連論文リスト

Towards Text-Image Interleaved Retrieval [49.96332254241075]
テキスト画像検索(TIIR)タスクを導入し、クエリと文書をインターリーブしたテキスト画像シーケンスとする。我々は、自然にインターリーブされたwikiHowチュートリアルに基づいてTIIRベンチマークを構築し、インターリーブされたクエリを生成するために特定のパイプラインを設計する。異なる粒度で視覚トークンの数を圧縮する新しいMMEを提案する。
論文参考訳（メタデータ） (2025-02-18T12:00:47Z)
Graph-Based Cross-Domain Knowledge Distillation for Cross-Dataset Text-to-Image Person Retrieval [25.760438764541867]
ビデオ監視システムは、スマートシティにおける公共の安全と管理を確保するための重要な要素である。テキスト・トゥ・イメージ・パーソン検索は、与えられたテキスト記述に最もよくマッチする画像ギャラリーから対象人物を検索することを目的としている。既存のテキスト・画像人物検索手法の多くは、対象領域に十分なラベル付きデータを必要とする教師付き方法で訓練されている。
論文参考訳（メタデータ） (2025-01-25T03:24:34Z)
Revolutionizing Text-to-Image Retrieval as Autoregressive Token-to-Voken Generation [90.71613903956451]
テキスト・ツー・イメージ検索はマルチメディア処理における基本的な課題である。本稿では,AVGという自己回帰ボウケン生成手法を提案する。 AVGは有効性と有効性の両方において優れた結果が得られることを示す。
論文参考訳（メタデータ） (2024-07-24T13:39:51Z)
Knowledge-aware Text-Image Retrieval for Remote Sensing Images [6.4527372338977]
クロスモーダルテキストイメージ検索は、しばしばテキストと画像の間の情報非対称性に悩まされる。外部知識グラフから関連情報をマイニングすることにより,知識を考慮したテキスト画像検索手法を提案する。提案手法は, 知識認識手法により多様かつ一貫した検索が実現され, 最先端の検索方法よりも優れていることを示す。
論文参考訳（メタデータ） (2024-05-06T11:27:27Z)
Object-Centric Open-Vocabulary Image-Retrieval with Aggregated Features [12.14013374452918]
本稿では,オブジェクト中心のオープン語彙画像検索に対して,シンプルながら効果的なアプローチを提案する。提案手法は,CLIPから抽出した濃密な埋め込みをコンパクトな表現に集約する。 3つのデータセットのグローバルな特徴的アプローチよりもはるかに優れた結果を得ることで,タスクに対する提案手法の有効性を示す。
論文参考訳（メタデータ） (2023-09-26T15:13:09Z)
Self-Correlation and Cross-Correlation Learning for Few-Shot Remote Sensing Image Semantic Segmentation [27.59330408178435]
リモートセマンティックセマンティックセマンティックセマンティクスは、クエリイメージからターゲットオブジェクトをセグメントすることを学ぶことを目的としている。本稿では,数発のリモートセンシング画像セマンティックセマンティックセグメンテーションのための自己相関・相互相関学習ネットワークを提案する。本モデルは,サポート画像とクエリ画像の自己相関と相互相関の両方を考慮し,一般化を促進させる。
論文参考訳（メタデータ） (2023-09-11T21:53:34Z)
Learning Transferable Pedestrian Representation from Multimodal Information Supervision [174.5150760804929]
VAL-PATは、移動可能な表現を学習し、様々な歩行者分析タスクをマルチモーダル情報で強化する新しいフレームワークである。まず、LUPerson-TAデータセットで事前トレーニングを行い、各画像にはテキストと属性アノテーションが含まれている。次に、学習した表現を、人物のreID、人物属性認識、テキストベースの人物検索など、さまざまな下流タスクに転送する。
論文参考訳（メタデータ） (2023-04-12T01:20:58Z)
Unleash the Potential of Image Branch for Cross-modal 3D Object Detection [67.94357336206136]
画像分岐のポテンシャルを2つの側面から解き放つことを目的として,新しい3Dオブジェクト検出器UPIDetを提案する。まず、UPIDetは正規化された局所座標写像推定と呼ばれる新しい2次元補助タスクを導入する。第2に,イメージブランチのトレーニング目標から逆転する勾配によって,ポイントクラウドバックボーンの表現能力を向上できることを見出した。
論文参考訳（メタデータ） (2023-01-22T08:26:58Z)
Cross-Modal Fusion Distillation for Fine-Grained Sketch-Based Image Retrieval [55.21569389894215]
本稿では,視覚変換器(XModalViT)のクロスアテンションフレームワークを提案する。我々のフレームワークはまず、個々の写真からペア化されたデータポイントをマッピングし、両方のモダリティから情報を統一する融合表現にスケッチする。次に、上記のモダリティ融合ネットワークの入力空間を、コントラストおよびリレーショナルなクロスモーダル知識蒸留により個々のモダリティの独立エンコーダに分離する。
論文参考訳（メタデータ） (2022-10-19T11:50:14Z)
LEAD: Self-Supervised Landmark Estimation by Aligning Distributions of Feature Similarity [49.84167231111667]
自己監督型ランドマーク検出における既存の研究は、画像から高密度(ピクセルレベルの)特徴表現を学習することに基づいている。自己教師付き方式で高密度同変表現の学習を強化するアプローチを提案する。機能抽出器にそのような先行性があることは,アノテーションの数が大幅に制限されている場合でも,ランドマーク検出に役立ちます。
論文参考訳（メタデータ） (2022-04-06T17:48:18Z)
Correlation-Aware Deep Tracking [83.51092789908677]
本稿では,自己/横断的意図に着想を得た,新たなターゲット依存型特徴ネットワークを提案する。我々のネットワークは機能ネットワークの複数の層にクロスイメージの特徴相関を深く埋め込んでいる。我々のモデルは、豊富な未ペア画像に対して柔軟に事前訓練が可能であり、既存の手法よりも顕著に高速な収束をもたらす。
論文参考訳（メタデータ） (2022-03-03T11:53:54Z)
Exploiting the relationship between visual and textual features in social networks for image classification with zero-shot deep learning [0.0]
本稿では,CLIPニューラルネットワークアーキテクチャの伝達可能な学習能力に基づく分類器アンサンブルを提案する。本研究は,Placesデータセットのラベルによる画像分類タスクに基づいて,視覚的部分のみを考慮した実験である。画像に関連付けられたテキストを考えることは、目標に応じて精度を向上させるのに役立つ。
論文参考訳（メタデータ） (2021-07-08T10:54:59Z)
AugNet: End-to-End Unsupervised Visual Representation Learning with Image Augmentation [3.6790362352712873]
我々は、未ラベル画像の集合から画像特徴を学習するための新しいディープラーニングトレーニングパラダイムであるAugNetを提案する。実験により,低次元空間における画像の表現が可能であることを実証した。多くのディープラーニングベースの画像検索アルゴリズムとは異なり、我々のアプローチは外部アノテーション付きデータセットへのアクセスを必要としない。
論文参考訳（メタデータ） (2021-06-11T09:02:30Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。