論文の概要: Scale-Semantic Joint Decoupling Network for Image-text Retrieval in
Remote Sensing
- arxiv url: http://arxiv.org/abs/2212.05752v1
- Date: Mon, 12 Dec 2022 08:02:35 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-13 15:18:06.924566
- Title: Scale-Semantic Joint Decoupling Network for Image-text Retrieval in
Remote Sensing
- Title(参考訳): リモートセンシングにおける画像テキスト検索のためのスケール・semantic joint decoupling network
- Authors: Chengyu Zheng, Ning song, Ruoyu Zhang, Lei Huang, Zhiqiang Wei, Jie
Nie (corresponding author)
- Abstract要約: リモートセンシング画像テキスト検索のためのSJDN(Scale-Semantic Joint Decoupling Network)を提案する。
提案するSSJDNは,4つのベンチマークリモートセンシングデータセットを用いて行った数値実験において,最先端の手法よりも優れている。
- 参考スコア(独自算出の注目度): 23.598273691455503
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Image-text retrieval in remote sensing aims to provide flexible information
for data analysis and application. In recent years, state-of-the-art methods
are dedicated to ``scale decoupling'' and ``semantic decoupling'' strategies to
further enhance the capability of representation. However, these previous
approaches focus on either the disentangling scale or semantics but ignore
merging these two ideas in a union model, which extremely limits the
performance of cross-modal retrieval models. To address these issues, we
propose a novel Scale-Semantic Joint Decoupling Network (SSJDN) for remote
sensing image-text retrieval. Specifically, we design the Bidirectional Scale
Decoupling (BSD) module, which exploits Salience Feature Extraction (SFE) and
Salience-Guided Suppression (SGS) units to adaptively extract potential
features and suppress cumbersome features at other scales in a bidirectional
pattern to yield different scale clues. Besides, we design the Label-supervised
Semantic Decoupling (LSD) module by leveraging the category semantic labels as
prior knowledge to supervise images and texts probing significant
semantic-related information. Finally, we design a Semantic-guided Triple Loss
(STL), which adaptively generates a constant to adjust the loss function to
improve the probability of matching the same semantic image and text and
shorten the convergence time of the retrieval model. Our proposed SSJDN
outperforms state-of-the-art approaches in numerical experiments conducted on
four benchmark remote sensing datasets.
- Abstract(参考訳): リモートセンシングにおける画像テキスト検索は、データ分析と応用のための柔軟な情報を提供することを目的としている。
近年、最先端の手法は「スケールデカップリング」と「セマンティックデカップリング」の戦略に特化して表現能力をさらに強化している。
しかしながら、これらの以前のアプローチは、スケールやセマンティクスの分離に焦点をあてるが、これらの2つのアイデアを結合モデルにマージすることを無視し、クロスモーダル検索モデルの性能を極端に制限している。
そこで,本稿では,リモートセンシング画像テキスト検索のための新しいスケール・セマンティクス・ジョイント・デカップリング・ネットワーク(ssjdn)を提案する。
具体的には、Salience Feature extract (SFE) とSalience-Guided Suppression (SGS) のユニットを利用した双方向スケールデカップリング(BSD) モジュールを設計し、潜在的な特徴を適応的に抽出し、異なるスケールの手がかりを得るために、他のスケールでの煩雑な特徴を抑圧する。
さらに,分類セマンティック・デカップリング(LSD)モジュールを,カテゴリセマンティック・ラベルを事前知識として活用して,重要なセマンティック関連情報を示す画像やテキストを監督する。
最後に,stl(semantic-guided triple loss)の設計を行った。stlは損失関数を調整する定数を適応的に生成し,同じ意味画像とテキストにマッチする確率を改善し,検索モデルの収束時間を短縮する。
提案するssjdnは,4つのベンチマークリモートセンシングデータセットで実施した数値実験で最先端のアプローチを上回っている。
関連論文リスト
- Semantic-aware Representation Learning for Homography Estimation [28.70450397793246]
本研究では,検出不要な特徴マッチング手法であるSRMatcherを提案する。
マッチングペアにおける意味的不整合に起因するエラーを減らすことで、提案したSRMatcherはより正確で現実的な結果をもたらすことができる。
論文 参考訳(メタデータ) (2024-07-18T08:36:28Z) - Dual-stream contrastive predictive network with joint handcrafted
feature view for SAR ship classification [9.251342335645765]
本稿では,新しいデュアルストリームコントラスト予測ネットワーク(DCPNet)を提案する。
最初のタスクは正のサンプルペアを構築し、コアエンコーダにより一般的な表現を学習させることである。
第2の課題は, 深部特徴と手話特徴との対応を適応的に把握し, モデル内での知識伝達を実現し, 特徴融合による冗長性を効果的に改善することである。
論文 参考訳(メタデータ) (2023-11-26T05:47:01Z) - Contrastive Transformer Learning with Proximity Data Generation for
Text-Based Person Search [60.626459715780605]
記述的なテキストクエリーを与えられたテキストベースの人物検索は、画像ギャラリーからベストマッチした人物を検索することを目的としている。
このようなクロスモーダル検索タスクは、重要なモダリティギャップ、きめ細かい相違、注釈付きデータの不十分さのため、かなり難しい。
本稿では,テキストに基づく人物検索のための2つのトランスフォーマーモデルを提案する。
論文 参考訳(メタデータ) (2023-11-15T16:26:49Z) - USER: Unified Semantic Enhancement with Momentum Contrast for Image-Text
Retrieval [115.28586222748478]
Image-Text Retrieval (ITR) は、与えられたクエリに意味のあるターゲットインスタンスを、他のモダリティから検索することを目的としている。
既存のアプローチは通常、2つの大きな制限に悩まされる。
論文 参考訳(メタデータ) (2023-01-17T12:42:58Z) - ContraFeat: Contrasting Deep Features for Semantic Discovery [102.4163768995288]
StyleGANは、アンタングル化セマンティックコントロールの強い可能性を示している。
StyleGANの既存の意味発見手法は、修正された潜在層を手作業で選択することで、良好な操作結果が得られる。
本稿では,このプロセスを自動化し,最先端のセマンティック発見性能を実現するモデルを提案する。
論文 参考訳(メタデータ) (2022-12-14T15:22:13Z) - Similarity-Aware Fusion Network for 3D Semantic Segmentation [87.51314162700315]
本研究では,3次元セマンティックセグメンテーションのための2次元画像と3次元点雲を適応的に融合する類似性認識融合ネットワーク(SAFNet)を提案する。
我々は、入力とバックプロジェクションされた(2Dピクセルから)点雲の間の幾何学的および文脈的類似性を初めて学習する、後期融合戦略を採用している。
SAFNetは、様々なデータ完全性にまたがって、既存の最先端の核融合ベースのアプローチを著しく上回っている。
論文 参考訳(メタデータ) (2021-07-04T09:28:18Z) - Graph Pattern Loss based Diversified Attention Network for Cross-Modal
Retrieval [10.420129873840578]
クロスモーダル検索は、画像、ビデオ、テキスト、オーディオなどのマルチメディアデータを組み合わせることで、柔軟な検索体験を実現することを目的としている。
教師なしアプローチのコアの1つは、高価なラベルを必要とすることなく、異なるオブジェクト表現間の相関関係を掘り下げて、満足度の高い検索性能を完成させることである。
教師なしクロスモーダル検索のためのグラフパターン損失に基づく分散注意ネットワーク(GPLDAN)を提案する。
論文 参考訳(メタデータ) (2021-06-25T10:53:07Z) - Dual Attention GANs for Semantic Image Synthesis [101.36015877815537]
本稿では,写真リアリスティック・セマンティック・一貫性のあるイメージを合成するための新しいデュアルアテンションGAN(DAGAN)を提案する。
また,2つの新しいモジュール,すなわち位置対応空間アテンションモジュール(SAM)と規模対応チャネルアテンションモジュール(CAM)を提案する。
DAGANは、より少ないモデルパラメータを使用しながら、最先端のメソッドよりも驚くほど優れた結果が得られる。
論文 参考訳(メタデータ) (2020-08-29T17:49:01Z) - Deep Semantic Matching with Foreground Detection and Cycle-Consistency [103.22976097225457]
深層ネットワークに基づく弱い教師付きセマンティックマッチングに対処する。
本研究では,背景乱れの影響を抑えるために,前景領域を明示的に推定する。
複数の画像にまたがって予測変換を強制し、幾何的に可視かつ一貫したサイクル一貫性の損失を発生させる。
論文 参考訳(メタデータ) (2020-03-31T22:38:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。