論文の概要: DGTRSD & DGTRS-CLIP: A Dual-Granularity Remote Sensing Image-Text Dataset and Vision Language Foundation Model for Alignment
- arxiv url: http://arxiv.org/abs/2503.19311v2
- Date: Wed, 29 Oct 2025 08:14:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-30 15:50:42.996009
- Title: DGTRSD & DGTRS-CLIP: A Dual-Granularity Remote Sensing Image-Text Dataset and Vision Language Foundation Model for Alignment
- Title(参考訳): DGTRSD & DGTRS-CLIP: 画像テキストデータセットと視覚言語によるアライメントのためのデュアルグラニュラリティリモートセンシングモデル
- Authors: Weizhi Chen, Yupeng Deng, Jin Wei, Jingbo Chen, Jiansheng Chen, Yuman Feng, Zhihao Xi, Diyou Liu, Kai Li, Yu Meng,
- Abstract要約: 両粒度リモートセンシング画像テキストデータセットであるDGTRSDと、二重粒度学習フレームワークであるDGTRS-CLIPを紹介する。
4つの典型的なゼロショットタスクの実験では、DGTRS-CLIPはすべてのタスクで既存のメソッドよりも一貫して優れていた。
- 参考スコア(独自算出の注目度): 27.370513209656906
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision Language Foundation Models based on CLIP architecture for remote sensing primarily rely on short text captions, which often result in incomplete semantic representations. Although longer captions convey richer information, existing models struggle to process them effectively because of limited text-encoding capacity, and there remains a shortage of resources that align remote sensing images with both short text and long text captions. To address this gap, we introduce DGTRSD, a dual-granularity remote sensing image-text dataset, where each image is paired with both a short text caption and a long text description, providing a solid foundation for dual-granularity semantic modeling. Based on this, we further propose DGTRS-CLIP, a dual-granularity curriculum learning framework that combines short text and long text supervision to achieve dual-granularity semantic alignment. Extensive experiments on four typical zero-shot tasks: long text cross-modal retrieval, short text cross-modal retrieval, image classification, and semantic localization demonstrate that DGTRS-CLIP consistently outperforms existing methods across all tasks. The code has been open-sourced and is available at https://github.com/MitsuiChen14/DGTRS.
- Abstract(参考訳): リモートセンシングのためのCLIPアーキテクチャに基づくビジョン言語基礎モデルは主に短いテキストキャプションに依存しており、しばしば不完全な意味表現をもたらす。
より長いキャプションはよりリッチな情報を伝達するが、既存のモデルではテキストエンコーディング能力が限られており、短いテキストと長いテキストキャプションの両方でリモートセンシング画像を調整するリソースが不足している。
このギャップに対処するために、DGTRSD(DGTRSD)を導入し、各画像に短いテキストキャプションと長いテキスト記述が組み合わされ、二重粒度セマンティックモデリングの基盤となる。
そこで本研究では,DGTRS-CLIPを提案する。DGTRS-CLIPは,短文と長文の教師とを組み合わせた2つの粒度意味的アライメントを実現するための2つの粒度学習フレームワークである。
長いテキストのクロスモーダル検索、短いテキストのクロスモーダル検索、画像分類、セマンティックローカライゼーションの4つの典型的なゼロショットタスクに関する大規模な実験は、DGTRS-CLIPがすべてのタスクで既存のメソッドよりも一貫して優れていることを示した。
コードは、https://github.com/MitsuiChen14/DGTRSで公開されている。
関連論文リスト
- Meta CLIP 2: A Worldwide Scaling Recipe [112.4690561863437]
私たちは,世界規模のWebスケールイメージテキストペア上でCLIPをゼロからトレーニングする最初のレシピであるMeta CLIP 2を紹介する。
ゼロショットイメージネットの分類では、Meta CLIP 2 ViT-H/14は英語のみの分類を0.8%、mSigLIPを0.7%上回る。
論文 参考訳(メタデータ) (2025-07-29T17:59:58Z) - Multimodal LLMs as Customized Reward Models for Text-to-Image Generation [60.164968941945645]
LLaVA-Rewardは、複数の視点でテキスト・ツー・イメージ(T2I)生成を自動評価する効率的な報酬モデルである。
LLaVA-Rewardはマルチモーダル大言語モデル(MLLM)の隠れ状態を直接利用する
LLaVA-Rewardは、テキストイメージアライメント、忠実さ/アーティファクト、安全性、全体的なランク付けの4つの観点でトレーニングします。
論文 参考訳(メタデータ) (2025-07-28T23:52:53Z) - Enhancing Remote Sensing Vision-Language Models Through MLLM and LLM-Based High-Quality Image-Text Dataset Generation [21.62138893025555]
重要な課題は、高品質で大規模な画像テキストペアリングトレーニングデータの不足にある。
RS画像の高品質なテキストキャプションを生成するために,MpGIという2段階の手法を提案する。
識別モデルであるCLIPと、画像からテキストへの生成モデルであるCoCaという2つのVLFMをデータセットを用いて微調整した。
論文 参考訳(メタデータ) (2025-07-22T15:54:53Z) - ContextRefine-CLIP for EPIC-KITCHENS-100 Multi-Instance Retrieval Challenge 2025 [6.945344449218478]
本稿では,視覚的マルチインスタンス検索タスクの効率的なモデルであるContextRefine-CLIPを提案する。
このアプローチは,マルチエンコーダAVIONに基づいて,モーダルなアテンションフローモジュールを導入する。
コードはhttps://github.com/delCayr/ContextRefine-Clip.comでオープンソース化される。
論文 参考訳(メタデータ) (2025-06-12T10:17:30Z) - FG-CLIP: Fine-Grained Visual and Textual Alignment [3.830067625507938]
本稿では,3つの重要なイノベーションを通じて微細な理解を深めるファイングラインドCLIPを提案する。
我々は、大容量マルチモーダルモデルを用いて、世界レベルのセマンティックディテールをキャプチャするために、160億の長いキャプションイメージペアを生成する。
我々は、高品質な領域固有のアノテーションと、きめ細かい負のサンプルを統合することで、FinHARDと呼ばれる包括的データセットを構築した。
論文 参考訳(メタデータ) (2025-05-08T09:06:53Z) - FineLIP: Extending CLIP's Reach via Fine-Grained Alignment with Longer Text Inputs [0.351124620232225]
FineLIPは textbfFine の粒度のアライメントと textbfLonger のテキスト入力を組み込むことで、クロスモーダルなテキストイメージマッピングを強化する。
FineLIPはまず、より長いテキストを扱うために位置埋め込みを拡張し、続いてローカル画像とテキストトークンの動的集約を行う。
我々は、ゼロショット・クロスモーダル検索とテキスト・ツー・イメージ生成という2つのタスクにまたがって、長い詳細なキャプションを持つデータセット上でモデルを検証した。
論文 参考訳(メタデータ) (2025-04-02T17:19:59Z) - ELIP: Enhanced Visual-Language Foundation Models for Image Retrieval [83.01358520910533]
本稿では,大規模な事前学習型視覚キュレーションモデルの性能向上を目的とした新しいフレームワークを提案する。
ELIP(Enhanced Language- Image Pre-training)と呼ばれるこのアプローチでは、単純なマッピングネットワークを通じてテキストクエリを使用して、視覚的なプロンプトのセットを予測する。
ELIPは一般的なCLIP、SigLIP、BLIP-2ネットワークに容易に適用できる。
論文 参考訳(メタデータ) (2025-02-21T18:59:57Z) - Deciphering the Underserved: Benchmarking LLM OCR for Low-Resource Scripts [0.0]
本研究では、ウルドゥー語、アルバニア語、タジク語などの低リソーススクリプトにおける光学文字認識(OCR)のための大規模言語モデル(LLM)、特にGPT-4oの可能性について検討する。
テキストの長さ、フォントサイズ、背景色、ぼやけなど、制御されたバリエーションを取り入れた2,520の画像を精巧にキュレートしたデータセットを使用して、研究はさまざまな現実世界の課題をシミュレートする。
論文 参考訳(メタデータ) (2024-12-20T18:05:22Z) - LLaVA-MR: Large Language-and-Vision Assistant for Video Moment Retrieval [14.136397687227111]
モーメント検索のためのLarge Language-and-Vision Assistant(LLaVA-MR)を提案する。
LLaVA-MRはマルチモーダル大言語モデル(MLLM)を用いたビデオにおける正確なモーメント検索と文脈グラウンド化を可能にする
Charades-STAやQVHighlightsのようなベンチマークによる評価は、LLaVA-MRが11の最先端メソッドより優れていることを示している。
論文 参考訳(メタデータ) (2024-11-21T09:34:23Z) - VEGA: Learning Interleaved Image-Text Comprehension in Vision-Language Large Models [76.94378391979228]
我々は、Interleaved Image-Text (IITC) と呼ばれる、より要求の多い新しいタスクを導入する。
この課題は、画像とテキストの両方の過剰な要素を識別・無視し、質問に正確に答えるためにモデルに挑戦する。
このタスクを支援するために、科学コンテンツに関するIITCタスクに適した新しいVEGAデータセットを構築し、サブタスクである画像テキストアソシエーション(ITA)を考案した。
論文 参考訳(メタデータ) (2024-06-14T17:59:40Z) - CFIR: Fast and Effective Long-Text To Image Retrieval for Large Corpora [3.166549403591528]
本稿では,高速かつ効率的な画像検索のための2段階の粗度指数共有検索(CFIR)フレームワークを提案する。
CFIRは、Recall@1000で既存のMLLMを最大11.06%上回り、トレーニング時間と検索時間をそれぞれ68.75%、99.79%削減している。
論文 参考訳(メタデータ) (2024-02-23T11:47:16Z) - MLLMs-Augmented Visual-Language Representation Learning [70.5293060238008]
MLLM(Multi-modal Large Language Models)が視覚言語表現学習を向上させることを実証した。
本手法は単純で,MLLMを用いて画像毎に複数のキャプションを拡張できる。
拡張キャプションの品質と可用性を維持するために,テキストシーリングを提案する。
論文 参考訳(メタデータ) (2023-11-30T18:05:52Z) - VeCLIP: Improving CLIP Training via Visual-enriched Captions [63.547204530720705]
本研究は,ノイズキャプション書き換えのためのスケーラブルパイプラインを提案する。
視覚豊かなキャプション(VeCap)と呼ばれるキャプションへの視覚概念の組み入れを強調した。
本稿では,大規模なWebクローリングデータセットであるVeCLIP上でCLIPをトレーニングするためのこの手法の適用について紹介する。
論文 参考訳(メタデータ) (2023-10-11T17:49:13Z) - Symmetrical Linguistic Feature Distillation with CLIP for Scene Text
Recognition [77.93678598476149]
CLIP-OCR(Symmetrical Linguistic Feature Distillation framework)を新たに構築する。
CLIP画像エンコーダを逆CLIPテキストエンコーダでカスケードすることにより、画像からテキストまでの特徴フローで対称構造を構築する。
大規模な実験では、CLIP-OCRが6つのSTRベンチマークで平均精度93.8%で有効であることが示されている。
論文 参考訳(メタデータ) (2023-10-08T04:00:20Z) - Turning a CLIP Model into a Scene Text Spotter [73.63953542526917]
我々は,大規模コントラスト言語-画像事前学習(CLIP)モデルの可能性を活用し,シーンテキストの検出とスポッティング作業を強化する。
このバックボーンは、CLIPにおける視覚的プロンプト学習とクロスアテンションを利用して、画像とテキストベースの事前知識を抽出する。
FastTCM-CR50では、画像とテキストの埋め込みのシナジーを高めるために、インスタンス言語マッチングプロセスが導入されている。
論文 参考訳(メタデータ) (2023-08-21T01:25:48Z) - RemoteCLIP: A Vision Language Foundation Model for Remote Sensing [13.814076157988225]
遠隔センシングのための視覚言語基盤モデルであるRemoteCLIPを提案する。
リッチなセマンティクスと、シームレスなダウンストリームアプリケーションのためのアライメントされたテキスト埋め込みによって、堅牢なビジュアル機能を学ぶことを目指している。
リモートCLIPは、ゼロショット画像分類、線形探索、$textitk$-NN分類、少数ショット分類、画像テキスト検索、リモートセンシング画像におけるオブジェクトカウントなど、さまざまなダウンストリームタスクに適用できる。
論文 参考訳(メタデータ) (2023-06-19T15:46:41Z) - DetCLIPv2: Scalable Open-Vocabulary Object Detection Pre-training via
Word-Region Alignment [104.54362490182335]
DetCLIPv2は、大規模な画像テキストペアを組み込んでオープン語彙オブジェクト検出を実現する、効率的なトレーニングフレームワークである。
DetCLIPv2は、大量の画像テキスト対から端から端まで、粒度の細かい単語領域アライメントを直接学習する。
DetCLIPv2は1300万のイメージテキストペアを事前トレーニングすることで、より優れたオープン語彙検出性能を示す。
論文 参考訳(メタデータ) (2023-04-10T11:08:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。