論文の概要: LRSCLIP: A Vision-Language Foundation Model for Aligning Remote Sensing Image with Longer Text
- arxiv url: http://arxiv.org/abs/2503.19311v1
- Date: Tue, 25 Mar 2025 03:17:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-26 16:51:50.201302
- Title: LRSCLIP: A Vision-Language Foundation Model for Aligning Remote Sensing Image with Longer Text
- Title(参考訳): LRSCLIP:長いテキストによるリモートセンシング画像のアライメントのための視覚言語基礎モデル
- Authors: Weizhi Chen, Jingbo Chen, Yupeng Deng, Jiansheng Chen, Yuman Feng, Zhihao Xi, Diyou Liu, Kai Li, Yu Meng,
- Abstract要約: 本研究は、長文処理における技術的ボトルネックと、短文情報の不足に起因する「幻覚」の問題に対処する。
本稿では,新しい視覚言語基盤モデル LRSCLIP とマルチモーダルデータセット LRS2M を提案する。
- 参考スコア(独自算出の注目度): 14.525300627242132
- License:
- Abstract: This study addresses the technical bottlenecks in handling long text and the "hallucination" issue caused by insufficient short text information in remote sensing vision-language foundation models (VLFM). We propose a novel vision-language foundation model, LRSCLIP, and a multimodal dataset, LRS2M. The main contributions are as follows: (1) By integrating multi-source remote sensing data and adopting a large language model labeling strategy, we construct the LRS2M dataset, which contains 2 million image-text pairs, providing both short and long texts for the first time, thus solving the problem of semantic granularity limitations in existing datasets; (2) The design of the LRSCLIP architecture based on Long-CLIP's KPS module, which extends CLIP's text processing capacity and achieves fine-grained cross-modal feature alignment through a dual-text loss weighting mechanism. Experimental results show that LRSCLIP improves retrieval accuracy by 10\%-20\% over the Long-CLIP baseline in the zero-shot long-text cross-modal retrieval task. For the zero-shot short-text cross-modal retrieval task, LRSCLIP achieves improvements over the current best model, GeoRSCLIP, with increases of 0.17\%, 0.67\%, and 0.92\% in Text to Image R@1, Image to Text R@1, and mR on RSITMD, respectively, and 0.04\%, 2.93\%, and 1.28\% on RSICD. In the zero-shot image classification task (average accuracy=75.75\%) and semantic localization task (Rmi=0.7653), LRSCLIP achieves state-of-the-art performance. These results validate the dual advantages of fine-grained semantic understanding and global feature matching in LRSCLIP. This work provides a new benchmark model and data support for remote sensing multimodal learning. The related code has been open source and is available at https://github.com/MitsuiChen14/LRSCLIP.
- Abstract(参考訳): 本研究は、遠隔センシング視覚言語基礎モデル(VLFM)において、長文処理における技術的ボトルネックと短文情報の不足に起因する「ハロシン化」の問題に対処する。
本稿では,新しい視覚言語基盤モデル LRSCLIP とマルチモーダルデータセット LRS2M を提案する。
主なコントリビューションは,(1)複数ソースのリモートセンシングデータを統合し,大規模な言語モデルラベリング戦略を採用することにより,200万のイメージテキストペアを含むLRS2Mデータセットの構築,(2)Long-CLIPのKPSモジュールをベースとしたLRSCLIPアーキテクチャの設計,2)CLIPのテキスト処理能力を拡張し,デュアルテキストのロス重み付け機構を通じて細粒度のクロスモーダル特徴アライメントを実現する。
LRSCLIPは、ゼロショット長文クロスモーダル検索タスクにおいて、Long-CLIPベースラインに対して10\%-20\%の精度で検索精度を向上させることを示す。
ゼロショットのショートテキストのクロスモーダル検索タスクにおいて、RSCLIPは現在のベストモデルであるGeoRSCLIPよりも改善され、画像R@1へのテキストの読み込みは0.17\%、0.67\%、画像R@1への画像変換は0.92\%、RSITMDは0.04\%、2.93\%、RSICD上では1.28\%となる。
ゼロショット画像分類タスク(平均精度=75.75\%)とセマンティックローカライゼーションタスク(Rmi=0.7653)では、RSCLIPは最先端のパフォーマンスを達成する。
これらの結果は,LRSCLIPにおける微細な意味理解とグローバルな特徴マッチングの2つの利点を検証した。
この研究は、リモートセンシングマルチモーダル学習のための新しいベンチマークモデルとデータサポートを提供する。
関連コードは、https://github.com/MitsuiChen14/LRSCLIPで公開されている。
関連論文リスト
- LaRA: Benchmarking Retrieval-Augmented Generation and Long-Context LLMs -- No Silver Bullet for LC or RAG Routing [70.35888047551643]
本稿では,RAGとLC LLMを厳格に比較するための新しいベンチマークであるLaRAを提案する。
LaRAは4つのQAタスクカテゴリと3種類の自然発生長文の2326のテストケースを含んでいる。
RAGとLCの最適選択は,モデルのパラメータサイズ,長文機能,コンテキスト長,タスクタイプ,取得したチャンクの特性など,複雑な相互作用に依存する。
論文 参考訳(メタデータ) (2025-02-14T08:04:22Z) - Deciphering the Underserved: Benchmarking LLM OCR for Low-Resource Scripts [0.0]
本研究では、ウルドゥー語、アルバニア語、タジク語などの低リソーススクリプトにおける光学文字認識(OCR)のための大規模言語モデル(LLM)、特にGPT-4oの可能性について検討する。
テキストの長さ、フォントサイズ、背景色、ぼやけなど、制御されたバリエーションを取り入れた2,520の画像を精巧にキュレートしたデータセットを使用して、研究はさまざまな現実世界の課題をシミュレートする。
論文 参考訳(メタデータ) (2024-12-20T18:05:22Z) - DiffCLIP: Few-shot Language-driven Multimodal Classifier [19.145645804307566]
DiffCLIPはContrastive Language-Image Pretrainingを拡張する新しいフレームワークである。
高次元マルチモーダルリモートセンシング画像の正確な分類のための包括的言語駆動意味情報を提供する。
DiffCLIPはCLIPと比較して3つのリモートセンシングデータセットで10.65%の全体的な精度向上を実現している。
論文 参考訳(メタデータ) (2024-12-10T02:21:39Z) - LLaVA-MR: Large Language-and-Vision Assistant for Video Moment Retrieval [14.136397687227111]
モーメント検索のためのLarge Language-and-Vision Assistant(LLaVA-MR)を提案する。
LLaVA-MRはマルチモーダル大言語モデル(MLLM)を用いたビデオにおける正確なモーメント検索と文脈グラウンド化を可能にする
Charades-STAやQVHighlightsのようなベンチマークによる評価は、LLaVA-MRが11の最先端メソッドより優れていることを示している。
論文 参考訳(メタデータ) (2024-11-21T09:34:23Z) - VEGA: Learning Interleaved Image-Text Comprehension in Vision-Language Large Models [76.94378391979228]
我々は、Interleaved Image-Text (IITC) と呼ばれる、より要求の多い新しいタスクを導入する。
この課題は、画像とテキストの両方の過剰な要素を識別・無視し、質問に正確に答えるためにモデルに挑戦する。
このタスクを支援するために、科学コンテンツに関するIITCタスクに適した新しいVEGAデータセットを構築し、サブタスクである画像テキストアソシエーション(ITA)を考案した。
論文 参考訳(メタデータ) (2024-06-14T17:59:40Z) - CFIR: Fast and Effective Long-Text To Image Retrieval for Large Corpora [3.166549403591528]
本稿では,高速かつ効率的な画像検索のための2段階の粗度指数共有検索(CFIR)フレームワークを提案する。
CFIRは、Recall@1000で既存のMLLMを最大11.06%上回り、トレーニング時間と検索時間をそれぞれ68.75%、99.79%削減している。
論文 参考訳(メタデータ) (2024-02-23T11:47:16Z) - VeCLIP: Improving CLIP Training via Visual-enriched Captions [63.547204530720705]
本研究は,ノイズキャプション書き換えのためのスケーラブルパイプラインを提案する。
視覚豊かなキャプション(VeCap)と呼ばれるキャプションへの視覚概念の組み入れを強調した。
本稿では,大規模なWebクローリングデータセットであるVeCLIP上でCLIPをトレーニングするためのこの手法の適用について紹介する。
論文 参考訳(メタデータ) (2023-10-11T17:49:13Z) - Symmetrical Linguistic Feature Distillation with CLIP for Scene Text
Recognition [77.93678598476149]
CLIP-OCR(Symmetrical Linguistic Feature Distillation framework)を新たに構築する。
CLIP画像エンコーダを逆CLIPテキストエンコーダでカスケードすることにより、画像からテキストまでの特徴フローで対称構造を構築する。
大規模な実験では、CLIP-OCRが6つのSTRベンチマークで平均精度93.8%で有効であることが示されている。
論文 参考訳(メタデータ) (2023-10-08T04:00:20Z) - Turning a CLIP Model into a Scene Text Spotter [73.63953542526917]
我々は,大規模コントラスト言語-画像事前学習(CLIP)モデルの可能性を活用し,シーンテキストの検出とスポッティング作業を強化する。
このバックボーンは、CLIPにおける視覚的プロンプト学習とクロスアテンションを利用して、画像とテキストベースの事前知識を抽出する。
FastTCM-CR50では、画像とテキストの埋め込みのシナジーを高めるために、インスタンス言語マッチングプロセスが導入されている。
論文 参考訳(メタデータ) (2023-08-21T01:25:48Z) - RemoteCLIP: A Vision Language Foundation Model for Remote Sensing [13.814076157988225]
遠隔センシングのための視覚言語基盤モデルであるRemoteCLIPを提案する。
リッチなセマンティクスと、シームレスなダウンストリームアプリケーションのためのアライメントされたテキスト埋め込みによって、堅牢なビジュアル機能を学ぶことを目指している。
リモートCLIPは、ゼロショット画像分類、線形探索、$textitk$-NN分類、少数ショット分類、画像テキスト検索、リモートセンシング画像におけるオブジェクトカウントなど、さまざまなダウンストリームタスクに適用できる。
論文 参考訳(メタデータ) (2023-06-19T15:46:41Z) - DetCLIPv2: Scalable Open-Vocabulary Object Detection Pre-training via
Word-Region Alignment [104.54362490182335]
DetCLIPv2は、大規模な画像テキストペアを組み込んでオープン語彙オブジェクト検出を実現する、効率的なトレーニングフレームワークである。
DetCLIPv2は、大量の画像テキスト対から端から端まで、粒度の細かい単語領域アライメントを直接学習する。
DetCLIPv2は1300万のイメージテキストペアを事前トレーニングすることで、より優れたオープン語彙検出性能を示す。
論文 参考訳(メタデータ) (2023-04-10T11:08:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。