論文の概要: AeroLite: Tag-Guided Lightweight Generation of Aerial Image Captions
- arxiv url: http://arxiv.org/abs/2504.09528v1
- Date: Sun, 13 Apr 2025 11:29:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-15 16:49:50.838363
- Title: AeroLite: Tag-Guided Lightweight Generation of Aerial Image Captions
- Title(参考訳): AeroLite: タッグガイドによる空中画像キャプションの軽量化
- Authors: Xing Zi, Tengjun Ni, Xianjing Fan, Xian Tao, Jun Li, Ali Braytee, Mukesh Prasad,
- Abstract要約: textbfAeroLiteは、リモートセンシング画像のためのタグ付きキャプションフレームワークである。
textbfAeroLiteはGPT-4oを利用して、大規模で意味的にリッチな擬似カプセルデータセットを生成する。
本稿では,視覚的埋め込みにセマンティックタグをアライメントする,新しい多層パーセプトロン(MLP)アーキテクチャを提案する。
- 参考スコア(独自算出の注目度): 5.67477841586604
- License:
- Abstract: Accurate and automated captioning of aerial imagery is crucial for applications like environmental monitoring, urban planning, and disaster management. However, this task remains challenging due to complex spatial semantics and domain variability. To address these issues, we introduce \textbf{AeroLite}, a lightweight, tag-guided captioning framework designed to equip small-scale language models (1--3B parameters) with robust and interpretable captioning capabilities specifically for remote sensing images. \textbf{AeroLite} leverages GPT-4o to generate a large-scale, semantically rich pseudo-caption dataset by integrating multiple remote sensing benchmarks, including DLRSD, iSAID, LoveDA, WHU, and RSSCN7. To explicitly capture key semantic elements such as orientation and land-use types, AeroLite employs natural language processing techniques to extract relevant semantic tags. These tags are then learned by a dedicated multi-label CLIP encoder, ensuring precise semantic predictions. To effectively fuse visual and semantic information, we propose a novel bridging multilayer perceptron (MLP) architecture, aligning semantic tags with visual embeddings while maintaining minimal computational overhead. AeroLite's flexible design also enables seamless integration with various pretrained large language models. We adopt a two-stage LoRA-based training approach: the initial stage leverages our pseudo-caption dataset to capture broad remote sensing semantics, followed by fine-tuning on smaller, curated datasets like UCM and Sydney Captions to refine domain-specific alignment. Experimental evaluations demonstrate that AeroLite surpasses significantly larger models (e.g., 13B parameters) in standard captioning metrics, including BLEU and METEOR, while maintaining substantially lower computational costs.
- Abstract(参考訳): 航空画像の正確なキャプションと自動キャプションは、環境モニタリング、都市計画、災害管理といった応用に不可欠である。
しかし、複雑な空間的意味論とドメインの多様性のため、この課題は依然として挑戦的である。
これらの問題に対処するために,小型言語モデル(1~3Bパラメータ)に,リモートセンシング画像に特化して頑健で解釈可能なキャプション機能を持たせるために設計された,軽量なタグ誘導キャプションフレームワークである \textbf{AeroLite} を紹介する。
\textbf{AeroLite}はGPT-4oを利用して、DLRSD、iSAID、LoveDA、WHU、RSSCN7を含む複数のリモートセンシングベンチマークを統合することで、大規模で意味的にリッチな擬似カプセルデータセットを生成する。
オリエンテーションやランドユースタイプなどのキーセマンティック要素を明示的にキャプチャするために、AeroLiteは自然言語処理技術を使用して関連するセマンティックタグを抽出する。
これらのタグは、専用のマルチラベルCLIPエンコーダによって学習され、正確なセマンティック予測が保証される。
視覚的および意味的情報を効果的に融合するために,最小の計算オーバーヘッドを維持しつつ,セマンティックタグを視覚的埋め込みと整合させる,新しいブリッジング多層パーセプトロン(MLP)アーキテクチャを提案する。
AeroLiteの柔軟な設計は、事前訓練された様々な大きな言語モデルとのシームレスな統合を可能にする。
最初のステージでは、擬似キャプチャデータセットを使用して、広範なリモートセンシングセマンティクスをキャプチャし、続いて、UCMやSydney Captionsといったより小さなキュレートされたデータセットを微調整して、ドメイン固有のアライメントを洗練します。
実験により、AeroLiteはBLEUやMETEORといった標準的なキャプションの指標においてかなり大きなモデル(例えば13Bパラメータ)を上回り、計算コストは大幅に削減された。
関連論文リスト
- ViLa-MIL: Dual-scale Vision-Language Multiple Instance Learning for Whole Slide Image Classification [52.405499816861635]
多重インスタンス学習(MIL)ベースのフレームワークは、スライド画像全体(WSI)を処理する上で主流になっている。
スライド画像全体の分類のための2次元視覚言語多言語学習(ViLa-MIL)フレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-12T13:28:46Z) - Scale-wise Bidirectional Alignment Network for Referring Remote Sensing Image Segmentation [12.893224628061516]
リモートセンシング画像セグメンテーション(RRSIS)の目的は、自然言語表現を用いて、空中画像内の特定のピクセルレベル領域を抽出することである。
本稿では,これらの課題に対処するため,SBANet(Scale-wise Bidirectional Alignment Network)と呼ばれる革新的なフレームワークを提案する。
提案手法は,RRSIS-DとRefSegRSのデータセットにおける従来の最先端手法と比較して,優れた性能を実現する。
論文 参考訳(メタデータ) (2025-01-01T14:24:04Z) - DiffCLIP: Few-shot Language-driven Multimodal Classifier [19.145645804307566]
DiffCLIPはContrastive Language-Image Pretrainingを拡張する新しいフレームワークである。
高次元マルチモーダルリモートセンシング画像の正確な分類のための包括的言語駆動意味情報を提供する。
DiffCLIPはCLIPと比較して3つのリモートセンシングデータセットで10.65%の全体的な精度向上を実現している。
論文 参考訳(メタデータ) (2024-12-10T02:21:39Z) - Embodied-RAG: General Non-parametric Embodied Memory for Retrieval and Generation [69.01029651113386]
Embodied-RAGは、非パラメトリックメモリシステムによるエンボディエージェントのモデルを強化するフレームワークである。
コアとなるEmbodied-RAGのメモリはセマンティックフォレストとして構成され、言語記述を様々なレベルで詳細に保存する。
Embodied-RAGがRAGをロボット領域に効果的にブリッジし、250以上の説明とナビゲーションクエリをうまく処理できることを実証する。
論文 参考訳(メタデータ) (2024-09-26T21:44:11Z) - SSPA: Split-and-Synthesize Prompting with Gated Alignments for Multi-Label Image Recognition [71.90536979421093]
本稿では,視覚言語モデル (VLM) の可能性を増幅するために, Gated Alignments (SSPA) フレームワークを用いた分割合成プロンプトを提案する。
我々は、LLMから固有の知識を関連付けるために、文脈内学習アプローチを開発する。
次に,SSP(Split-and-Synthesize Prompting)戦略を提案する。
論文 参考訳(メタデータ) (2024-07-30T15:58:25Z) - Towards Comprehensive Multimodal Perception: Introducing the Touch-Language-Vision Dataset [50.09271028495819]
タッチに関するマルチモーダル研究は 視覚と触覚のモダリティに焦点を当てています
我々は,人機械のカスケード協調によるTLV (Touch-Language-Vision) というタッチ言語ビジョンデータセットを構築した。
論文 参考訳(メタデータ) (2024-03-14T19:01:54Z) - Augment the Pairs: Semantics-Preserving Image-Caption Pair Augmentation
for Grounding-Based Vision and Language Models [16.4010094165575]
テキスト条件付きおよびテキスト条件付きデータ拡張で訓練されたロバストな句接頭辞モデルを提案する。
近年のマスク信号再構成に着想を得て,新しいデータ拡張形式としてピクセルレベルのマスキングを提案する。
提案手法は,各種メトリクスを用いた最先端技術に対する高度な性能を示す。
論文 参考訳(メタデータ) (2023-11-05T01:14:02Z) - CLIP for Lightweight Semantic Segmentation [14.039603036741278]
本稿では,言語誘導パラダイムを軽量ネットワークに適用する機能融合モジュールを提案する。
このモジュールはモデルに依存しないため、言語誘導の軽量セマンティックセマンティックセグメンテーションを実践できるだけでなく、事前訓練された言語事前知識を完全に活用することができる。
論文 参考訳(メタデータ) (2023-10-11T11:26:35Z) - Single-Stream Multi-Level Alignment for Vision-Language Pretraining [103.09776737512078]
モーダルを複数のレベルで整列させる単一ストリームモデルを提案する。
対称的相互モダリティ再構築と擬似ラベル付きキーワード予測という2つの新しいタスクを用いてこれを実現する。
我々は、ゼロショット/ファインチューニングされた画像/テキスト検索、参照表現、VQAといった一連の視覚言語タスクにおいて、トップパフォーマンスを示す。
論文 参考訳(メタデータ) (2022-03-27T21:16:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。