論文の概要: AeroLite: Tag-Guided Lightweight Generation of Aerial Image Captions
- arxiv url: http://arxiv.org/abs/2504.09528v1
- Date: Sun, 13 Apr 2025 11:29:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-23 04:37:19.344787
- Title: AeroLite: Tag-Guided Lightweight Generation of Aerial Image Captions
- Title(参考訳): AeroLite: タッグガイドによる空中画像キャプションの軽量化
- Authors: Xing Zi, Tengjun Ni, Xianjing Fan, Xian Tao, Jun Li, Ali Braytee, Mukesh Prasad,
- Abstract要約: textbfAeroLiteは、リモートセンシング画像のためのタグ付きキャプションフレームワークである。
textbfAeroLiteはGPT-4oを利用して、大規模で意味的にリッチな擬似カプセルデータセットを生成する。
本稿では,視覚的埋め込みにセマンティックタグをアライメントする,新しい多層パーセプトロン(MLP)アーキテクチャを提案する。
- 参考スコア(独自算出の注目度): 5.67477841586604
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Accurate and automated captioning of aerial imagery is crucial for applications like environmental monitoring, urban planning, and disaster management. However, this task remains challenging due to complex spatial semantics and domain variability. To address these issues, we introduce \textbf{AeroLite}, a lightweight, tag-guided captioning framework designed to equip small-scale language models (1--3B parameters) with robust and interpretable captioning capabilities specifically for remote sensing images. \textbf{AeroLite} leverages GPT-4o to generate a large-scale, semantically rich pseudo-caption dataset by integrating multiple remote sensing benchmarks, including DLRSD, iSAID, LoveDA, WHU, and RSSCN7. To explicitly capture key semantic elements such as orientation and land-use types, AeroLite employs natural language processing techniques to extract relevant semantic tags. These tags are then learned by a dedicated multi-label CLIP encoder, ensuring precise semantic predictions. To effectively fuse visual and semantic information, we propose a novel bridging multilayer perceptron (MLP) architecture, aligning semantic tags with visual embeddings while maintaining minimal computational overhead. AeroLite's flexible design also enables seamless integration with various pretrained large language models. We adopt a two-stage LoRA-based training approach: the initial stage leverages our pseudo-caption dataset to capture broad remote sensing semantics, followed by fine-tuning on smaller, curated datasets like UCM and Sydney Captions to refine domain-specific alignment. Experimental evaluations demonstrate that AeroLite surpasses significantly larger models (e.g., 13B parameters) in standard captioning metrics, including BLEU and METEOR, while maintaining substantially lower computational costs.
- Abstract(参考訳): 航空画像の正確なキャプションと自動キャプションは、環境モニタリング、都市計画、災害管理といった応用に不可欠である。
しかし、複雑な空間的意味論とドメインの多様性のため、この課題は依然として挑戦的である。
これらの問題に対処するために,小型言語モデル(1~3Bパラメータ)に,リモートセンシング画像に特化して頑健で解釈可能なキャプション機能を持たせるために設計された,軽量なタグ誘導キャプションフレームワークである \textbf{AeroLite} を紹介する。
\textbf{AeroLite}はGPT-4oを利用して、DLRSD、iSAID、LoveDA、WHU、RSSCN7を含む複数のリモートセンシングベンチマークを統合することで、大規模で意味的にリッチな擬似カプセルデータセットを生成する。
オリエンテーションやランドユースタイプなどのキーセマンティック要素を明示的にキャプチャするために、AeroLiteは自然言語処理技術を使用して関連するセマンティックタグを抽出する。
これらのタグは、専用のマルチラベルCLIPエンコーダによって学習され、正確なセマンティック予測が保証される。
視覚的および意味的情報を効果的に融合するために,最小の計算オーバーヘッドを維持しつつ,セマンティックタグを視覚的埋め込みと整合させる,新しいブリッジング多層パーセプトロン(MLP)アーキテクチャを提案する。
AeroLiteの柔軟な設計は、事前訓練された様々な大きな言語モデルとのシームレスな統合を可能にする。
最初のステージでは、擬似キャプチャデータセットを使用して、広範なリモートセンシングセマンティクスをキャプチャし、続いて、UCMやSydney Captionsといったより小さなキュレートされたデータセットを微調整して、ドメイン固有のアライメントを洗練します。
実験により、AeroLiteはBLEUやMETEORといった標準的なキャプションの指標においてかなり大きなモデル(例えば13Bパラメータ)を上回り、計算コストは大幅に削減された。
関連論文リスト
- SegEarth-R1: Geospatial Pixel Reasoning via Large Language Model [61.97017867656831]
暗黙的な問合せと推論を可能にし,対象領域のマスクを生成する新しいタスク,すなわち地理空間的画素推論を導入する。
我々は,5,434枚の手動アノテート画像マスクと3万枚以上の暗黙的な質問応答ペアからなる,EarthReasonという,最初の大規模ベンチマークデータセットを構築し,リリースする。
SegEarth-R1は、推論タスクと参照セグメンテーションタスクの両方で最先端のパフォーマンスを実現し、従来のLCMベースのセグメンテーション手法よりも大幅に優れている。
論文 参考訳(メタデータ) (2025-04-13T16:36:47Z) - Towards Visual Text Grounding of Multimodal Large Language Model [88.0588924255417]
本稿では,テキストリッチな画像グラウンドのベンチマークを行うための命令データセットを新たに設計した新しいタスクであるTRIGを紹介する。
具体的には,OCR-LLM-ヒューマンインタラクションパイプラインを提案し,800の注釈付き質問応答ペアをベンチマークとして作成する。
提案したベンチマークによる各種MLLMの包括的評価は,テキストリッチな画像上でのグラウンド化能力の大幅な制限を明らかにする。
論文 参考訳(メタデータ) (2025-04-07T12:01:59Z) - AeroReformer: Aerial Referring Transformer for UAV-based Referring Image Segmentation [9.55871636831991]
本稿では,UAV参照画像セグメンテーション(UAV-RIS)のための新しいフレームワークを提案する。
AeroReformerは、効果的なクロスモーダル理解のためのVision-Language Cross-Attention Module (VLCAM)とローテーション対応のマルチスケール核融合デコーダを備えている。
新たに開発された2つのデータセットの実験は、既存の方法よりもAeroReformerの方が優れていることを示している。
論文 参考訳(メタデータ) (2025-02-23T18:49:00Z) - ViLa-MIL: Dual-scale Vision-Language Multiple Instance Learning for Whole Slide Image Classification [52.405499816861635]
多重インスタンス学習(MIL)ベースのフレームワークは、スライド画像全体(WSI)を処理する上で主流になっている。
スライド画像全体の分類のための2次元視覚言語多言語学習(ViLa-MIL)フレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-12T13:28:46Z) - Scale-wise Bidirectional Alignment Network for Referring Remote Sensing Image Segmentation [12.893224628061516]
リモートセンシング画像セグメンテーション(RRSIS)の目的は、自然言語表現を用いて、空中画像内の特定のピクセルレベル領域を抽出することである。
本稿では,これらの課題に対処するため,SBANet(Scale-wise Bidirectional Alignment Network)と呼ばれる革新的なフレームワークを提案する。
提案手法は,RRSIS-DとRefSegRSのデータセットにおける従来の最先端手法と比較して,優れた性能を実現する。
論文 参考訳(メタデータ) (2025-01-01T14:24:04Z) - DiffCLIP: Few-shot Language-driven Multimodal Classifier [19.145645804307566]
DiffCLIPはContrastive Language-Image Pretrainingを拡張する新しいフレームワークである。
高次元マルチモーダルリモートセンシング画像の正確な分類のための包括的言語駆動意味情報を提供する。
DiffCLIPはCLIPと比較して3つのリモートセンシングデータセットで10.65%の全体的な精度向上を実現している。
論文 参考訳(メタデータ) (2024-12-10T02:21:39Z) - Embodied-RAG: General Non-parametric Embodied Memory for Retrieval and Generation [69.01029651113386]
Embodied-RAGは、非パラメトリックメモリシステムによるエンボディエージェントのモデルを強化するフレームワークである。
コアとなるEmbodied-RAGのメモリはセマンティックフォレストとして構成され、言語記述を様々なレベルで詳細に保存する。
Embodied-RAGがRAGをロボット領域に効果的にブリッジし、250以上の説明とナビゲーションクエリをうまく処理できることを実証する。
論文 参考訳(メタデータ) (2024-09-26T21:44:11Z) - SSPA: Split-and-Synthesize Prompting with Gated Alignments for Multi-Label Image Recognition [71.90536979421093]
本稿では,視覚言語モデル (VLM) の可能性を増幅するために, Gated Alignments (SSPA) フレームワークを用いた分割合成プロンプトを提案する。
我々は、LLMから固有の知識を関連付けるために、文脈内学習アプローチを開発する。
次に,SSP(Split-and-Synthesize Prompting)戦略を提案する。
論文 参考訳(メタデータ) (2024-07-30T15:58:25Z) - Towards Comprehensive Multimodal Perception: Introducing the Touch-Language-Vision Dataset [50.09271028495819]
タッチに関するマルチモーダル研究は 視覚と触覚のモダリティに焦点を当てています
我々は,人機械のカスケード協調によるTLV (Touch-Language-Vision) というタッチ言語ビジョンデータセットを構築した。
論文 参考訳(メタデータ) (2024-03-14T19:01:54Z) - CLIP for Lightweight Semantic Segmentation [14.039603036741278]
本稿では,言語誘導パラダイムを軽量ネットワークに適用する機能融合モジュールを提案する。
このモジュールはモデルに依存しないため、言語誘導の軽量セマンティックセマンティックセグメンテーションを実践できるだけでなく、事前訓練された言語事前知識を完全に活用することができる。
論文 参考訳(メタデータ) (2023-10-11T11:26:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。