論文の概要: LuoJiaHOG: A Hierarchy Oriented Geo-aware Image Caption Dataset for Remote Sensing Image-Text Retrival
- arxiv url: http://arxiv.org/abs/2403.10887v1
- Date: Sat, 16 Mar 2024 10:46:14 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-19 21:15:47.020274
- Title: LuoJiaHOG: A Hierarchy Oriented Geo-aware Image Caption Dataset for Remote Sensing Image-Text Retrival
- Title(参考訳): LuoJiaHOG:リモートセンシング画像テキスト検索のための階層指向ジオアウェア画像キャプチャデータセット
- Authors: Yuanxin Zhao, Mi Zhang, Bingnan Yang, Zhan Zhang, Jiaju Kang, Jianya Gong,
- Abstract要約: 画像キャプションデータセットであるLuojiaHOGを導入する。
LuojiaHOGには階層的な空間サンプリング、Open Geospatial Consortium(OGC)標準への分類システム、詳細なキャプション生成が含まれる。
また,CLIPをベースとした画像セマンティックエンハンスメントネットワーク(CISEN)を提案する。
- 参考スコア(独自算出の注目度): 8.656768875730904
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Image-text retrieval (ITR) plays a significant role in making informed decisions for various remote sensing (RS) applications. Nonetheless, creating ITR datasets containing vision and language modalities not only requires significant geo-spatial sampling area but also varing categories and detailed descriptions. To this end, we introduce an image caption dataset LuojiaHOG, which is geospatial-aware, label-extension-friendly and comprehensive-captioned. LuojiaHOG involves the hierarchical spatial sampling, extensible classification system to Open Geospatial Consortium (OGC) standards, and detailed caption generation. In addition, we propose a CLIP-based Image Semantic Enhancement Network (CISEN) to promote sophisticated ITR. CISEN consists of two components, namely dual-path knowledge transfer and progressive cross-modal feature fusion. Comprehensive statistics on LuojiaHOG reveal the richness in sampling diversity, labels quantity and descriptions granularity. The evaluation on LuojiaHOG is conducted across various state-of-the-art ITR models, including ALBEF, ALIGN, CLIP, FILIP, Wukong, GeoRSCLIP and CISEN. We use second- and third-level labels to evaluate these vision-language models through adapter-tuning and CISEN demonstrates superior performance. For instance, it achieves the highest scores with WMAP@5 of 88.47\% and 87.28\% on third-level ITR tasks, respectively. In particular, CISEN exhibits an improvement of approximately 1.3\% and 0.9\% in terms of WMAP@5 compared to its baseline. These findings highlight CISEN advancements accurately retrieving pertinent information across image and text. LuojiaHOG and CISEN can serve as a foundational resource for future RS image-text alignment research, facilitating a wide range of vision-language applications.
- Abstract(参考訳): 画像テキスト検索(ITR)は、様々なリモートセンシング(RS)アプリケーションに対して情報決定を行う上で重要な役割を果たしている。
それにもかかわらず、視覚と言語モダリティを含むITRデータセットを作成するには、重要な地理空間サンプリング領域だけでなく、カテゴリや詳細な記述も必要である。
この目的のために,画像キャプションデータセットLuojiaHOGを導入する。
LuojiaHOGには階層的な空間サンプリング、Open Geospatial Consortium(OGC)標準への拡張可能な分類システム、詳細なキャプション生成が含まれる。
さらに,CLIPをベースとした画像セマンティックエンハンスメントネットワーク(CISEN)を提案する。
CISENは2つのコンポーネント、すなわちデュアルパスの知識伝達とプログレッシブなクロスモーダルな特徴融合で構成されている。
LuojiaHOGに関する総合統計は、多様性のサンプリング、ラベルの量、粒度の記述の豊かさを明らかにしている。
LuojiaHOGの評価は、ALBEF、ALIGN、CLIP、FILIP、Wukong、GeoRSCLIP、CISENなどの最先端ITRモデルで行われている。
我々は,アダプタチューニングによる視覚モデルの評価に第2レベル,第3レベルのラベルを使用し,CISENは優れた性能を示す。
例えば、WMAP@5で最高スコアは88.47\%、第3レベルのITRタスクでは87.28\%である。
特に、CISENはベースラインに比べてWMAP@5の約1.3\%と0.9\%の改善を示している。
これらの結果から,CISENの進歩が画像とテキスト間の関係情報を正確に検索できることが示唆された。
LuojiaHOG と CISEN は将来の RS 画像テキストアライメント研究の基盤として機能し、幅広い視覚言語アプリケーションを容易にする。
関連論文リスト
- AddressCLIP: Empowering Vision-Language Models for City-wide Image Address Localization [57.34659640776723]
そこで我々は,より意味論的に問題を解決するために,AddressCLIPというエンドツーエンドのフレームワークを提案する。
われわれはピッツバーグとサンフランシスコに3つのデータセットを構築した。
論文 参考訳(メタデータ) (2024-07-11T03:18:53Z) - TorchSpatial: A Location Encoding Framework and Benchmark for Spatial Representation Learning [36.725822223732635]
位置(ポイント)エンコーディングのための学習フレームワークとベンチマークであるTorchSpatialを提案する。
TorchSpatialには3つの重要なコンポーネントが含まれている: 1) 一般的に認識されている15のロケーションエンコーダを統合する統合されたロケーションエンコーダフレームワーク、2) LocBenchベンチマークタスクは、7つのジオアウェアイメージ分類と4つのジオアウェアイメージ回帰データセットを含む。
論文 参考訳(メタデータ) (2024-06-21T21:33:16Z) - DF4LCZ: A SAM-Empowered Data Fusion Framework for Scene-Level Local Climate Zone Classification [2.088672652658465]
LCZ分類のための新しいDual-stream Fusionフレームワーク(DF4LCZ)を提案する。
このフレームワークには、Segment Anything Model (SAM) によって強化された Graph Convolutional Network (GCN) モジュールが含まれており、Googleイメージからの機能抽出を強化する。
提案するDF4LCZの有効性を検証するため,LCZ分類に特化して設計されたマルチソースリモートセンシング画像データセットを用いて実験を行った。
論文 参考訳(メタデータ) (2024-03-14T13:15:46Z) - ChatEarthNet: A Global-Scale Image-Text Dataset Empowering
Vision-Language Geo-Foundation Models [26.583783910846723]
ChatEarthNetは、グローバルカバレッジ、高品質、広範囲の多様性、詳細な説明を特徴とする大規模な画像テキストデータセットである。
ChatEarthNetは、ChatGPT-3.5で生成されたキャプション付き163,488のイメージテキストペアと、ChatGPT-4Vで生成されたキャプション付き1万のイメージテキストペアで構成される。
論文 参考訳(メタデータ) (2024-02-17T16:38:40Z) - MetaSegNet: Metadata-collaborative Vision-Language Representation Learning for Semantic Segmentation of Remote Sensing Images [7.0622873873577054]
リモートセンシング画像のセグメンテーションのための新しいメタデータ協調セグメンテーションネットワーク(MetaSegNet)を提案する。
一元的視覚データのみを使用する一般的なモデル構造とは異なり、我々は自由に利用可能なリモートセンシング画像メタデータから重要な特徴を抽出する。
画像エンコーダ,テキストエンコーダ,およびクロスモーダルアテンション融合サブネットワークを構築し,画像とテキストの特徴を抽出する。
論文 参考訳(メタデータ) (2023-12-20T03:16:34Z) - CSP: Self-Supervised Contrastive Spatial Pre-Training for
Geospatial-Visual Representations [90.50864830038202]
ジオタグ付き画像の自己教師型学習フレームワークであるContrastive Spatial Pre-Training(CSP)を提案する。
デュアルエンコーダを用いて画像とその対応する位置情報を別々に符号化し、コントラスト目的を用いて画像から効果的な位置表現を学習する。
CSPは、様々なラベル付きトレーニングデータサンプリング比と10~34%の相対的な改善で、モデル性能を大幅に向上させる。
論文 参考訳(メタデータ) (2023-05-01T23:11:18Z) - DCN-T: Dual Context Network with Transformer for Hyperspectral Image
Classification [109.09061514799413]
複雑な撮像条件による空間変動のため,HSI分類は困難である。
本稿では,HSIを高品質な三スペクトル画像に変換する三スペクトル画像生成パイプラインを提案する。
提案手法は,HSI分類における最先端手法よりも優れている。
論文 参考訳(メタデータ) (2023-04-19T18:32:52Z) - HGAN: Hierarchical Graph Alignment Network for Image-Text Retrieval [13.061063817876336]
画像テキスト検索のための階層型グラフアライメントネットワーク(HGAN)を提案する。
まず、包括的マルチモーダル特徴を捉えるために、画像の特徴グラフとテキストのモダリティをそれぞれ構築する。
そして、MFAR(Multi-granularity Feature Aggregation and Rearrangement)モジュールを設計した多粒性共有空間を構築する。
最後に、最終的な画像とテキストの特徴は、階層的アライメントを達成するために、3レベル類似関数によってさらに洗練される。
論文 参考訳(メタデータ) (2022-12-16T05:08:52Z) - Adjacent Context Coordination Network for Salient Object Detection in
Optical Remote Sensing Images [102.75699068451166]
本稿では,光RSI-SODのためのエンコーダ・デコーダアーキテクチャにおいて,隣接した特徴のコーディネートを探索するための新しいアジャセントコンテキストコーディネートネットワーク(ACCoNet)を提案する。
提案されたACCoNetは、9つの評価基準の下で22の最先端メソッドを上回り、1つのNVIDIA Titan X GPU上で81fpsで動作する。
論文 参考訳(メタデータ) (2022-03-25T14:14:55Z) - Multi-Level Graph Convolutional Network with Automatic Graph Learning
for Hyperspectral Image Classification [63.56018768401328]
HSI分類のための自動グラフ学習法(MGCN-AGL)を用いたマルチレベルグラフ畳み込みネットワーク(GCN)を提案する。
空間的に隣接する領域における重要度を特徴付けるために注意機構を利用することで、最も関連性の高い情報を適応的に組み込んで意思決定を行うことができる。
MGCN-AGLは局所的に生成した表現表現に基づいて画像領域間の長距離依存性を符号化する。
論文 参考訳(メタデータ) (2020-09-19T09:26:20Z) - Campus3D: A Photogrammetry Point Cloud Benchmark for Hierarchical
Understanding of Outdoor Scene [76.4183572058063]
複数の屋外シーン理解タスクに対して,リッチな注釈付き3Dポイントクラウドデータセットを提案する。
データセットは階層型ラベルとインスタンスベースのラベルの両方でポイントワイズアノテートされている。
本稿では,3次元点雲分割のための階層的学習問題を定式化し,様々な階層間の整合性を評価することを提案する。
論文 参考訳(メタデータ) (2020-08-11T19:10:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。