論文の概要: Multilingual Training-Free Remote Sensing Image Captioning
- arxiv url: http://arxiv.org/abs/2512.00887v1
- Date: Sun, 30 Nov 2025 13:16:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-02 19:46:34.48437
- Title: Multilingual Training-Free Remote Sensing Image Captioning
- Title(参考訳): マルチ言語学習-リモートセンシング画像キャプション
- Authors: Carlos Rebelo, Gil Rocha, João Daniel Silva, Bruno Martins,
- Abstract要約: リモートセンシング画像キャプションに対するトレーニング不要なマルチ言語アプローチを提案する。
ドメイン適応型SigLIP2エンコーダを用いて,データストアから関連するキャプションやサンプルを検索する。
10言語にわたる4つのベンチマークデータセットの実験は、我々のアプローチが完全に教師付き英語のみのシステムと競合していることを示している。
- 参考スコア(独自算出の注目度): 3.5445909595817096
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Remote sensing image captioning has advanced rapidly through encoder--decoder models, although the reliance on large annotated datasets and the focus on English restricts global applicability. To address these limitations, we propose the first training-free multilingual approach, based on retrieval-augmented prompting. For a given aerial image, we employ a domain-adapted SigLIP2 encoder to retrieve related captions and few-shot examples from a datastore, which are then provided to a language model. We explore two variants: an image-blind setup, where a multilingual Large Language Model (LLM) generates the caption from textual prompts alone, and an image-aware setup, where a Vision--Language Model (VLM) jointly processes the prompt and the input image. To improve the coherence of the retrieved content, we introduce a graph-based re-ranking strategy using PageRank on a graph of images and captions. Experiments on four benchmark datasets across ten languages demonstrate that our approach is competitive with fully supervised English-only systems and generalizes to other languages. Results also highlight the importance of re-ranking with PageRank, yielding up to 35% improvements in performance metrics. Additionally, it was observed that while VLMs tend to generate visually grounded but lexically diverse captions, LLMs can achieve stronger BLEU and CIDEr scores. Lastly, directly generating captions in the target language consistently outperforms other translation-based strategies. Overall, our work delivers one of the first systematic evaluations of multilingual, training-free captioning for remote sensing imagery, advancing toward more inclusive and scalable multimodal Earth observation systems.
- Abstract(参考訳): リモートセンシング画像キャプションはエンコーダ-デコーダモデルを通じて急速に進歩しているが、大きな注釈付きデータセットへの依存と英語へのフォーカスは、グローバルな適用性を制限している。
これらの制約に対処するため,検索強化プロンプトに基づく学習自由な多言語アプローチを提案する。
本研究では, ドメイン適応型SigLIP2エンコーダを用いて, データストアから関連するキャプションやサンプルを検索し, 言語モデルに提供する。
多言語大言語モデル(LLM)がテキストプロンプトのみからキャプションを生成する画像ブラインド設定と、視覚言語モデル(VLM)がプロンプトと入力イメージを共同で処理する画像認識設定の2つのバリエーションを探索する。
検索したコンテンツのコヒーレンスを改善するため,画像とキャプションのグラフ上にPageRankを用いたグラフベースの再ランク戦略を導入する。
10言語にわたる4つのベンチマークデータセットの実験は、我々のアプローチが完全に教師付き英語のみのシステムと競合し、他の言語に一般化していることを示している。
その結果、PageRankでの再ランク付けの重要性も強調され、パフォーマンス指標が最大35%向上した。
さらに、VLMは視覚的に接地されているが、語彙的に多様であるキャプションを生成する傾向があるが、LLMはより強いBLEUとCIDErスコアを得ることができる。
最後に、ターゲット言語で直接キャプションを生成することは、他の翻訳ベースの戦略よりも一貫して優れている。
本研究は,より包括的でスケーラブルなマルチモーダル地球観測システムに向けて,リモートセンシング画像に対するマルチリンガル・トレーニングフリーキャプションの体系的評価を初めて行った。
関連論文リスト
- CONCAP: Seeing Beyond English with Concepts Retrieval-Augmented Captioning [7.439550425786999]
検索したキャプションと画像固有の概念を統合する多言語画像キャプションモデルであるConCAPを紹介する。
XM3600データセットの実験は、CONCAPが低級および中級の言語で強力なパフォーマンスを実現することを示唆している。
論文 参考訳(メタデータ) (2025-07-27T21:00:02Z) - ViLa-MIL: Dual-scale Vision-Language Multiple Instance Learning for Whole Slide Image Classification [52.405499816861635]
多重インスタンス学習(MIL)ベースのフレームワークは、スライド画像全体(WSI)を処理する上で主流になっている。
スライド画像全体の分類のための2次元視覚言語多言語学習(ViLa-MIL)フレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-12T13:28:46Z) - Multilingual Vision-Language Pre-training for the Remote Sensing Domain [4.118895088882213]
コントラスト言語-画像事前学習(CLIP)に基づく手法は、現在、リモートセンシングデータを含む視覚・言語タスクをサポートするために広く使われている。
本研究は,多言語CLIPモデルの微調整を探求する,リモートセンシング領域のための新しいビジョン・アンド・ランゲージモデルを提案する。
提案したモデルでは,Remote Sensing Multilingual CLIP (RS-M-CLIP) と名づけた。
論文 参考訳(メタデータ) (2024-10-30T18:13:11Z) - Remote Sensing Vision-Language Foundation Models without Annotations via
Ground Remote Alignment [61.769441954135246]
テキストアノテーションを使わずにリモートセンシング画像の視覚言語モデルを訓練する手法を提案する。
私たちの重要な洞察は、リモートセンシング画像と言語を接続するための仲介手段として、地上で撮影されたコロケーションのインターネットイメージを使用することです。
論文 参考訳(メタデータ) (2023-12-12T03:39:07Z) - MLLMs-Augmented Visual-Language Representation Learning [70.5293060238008]
MLLM(Multi-modal Large Language Models)が視覚言語表現学習を向上させることを実証した。
本手法は単純で,MLLMを用いて画像毎に複数のキャプションを拡張できる。
拡張キャプションの品質と可用性を維持するために,テキストシーリングを提案する。
論文 参考訳(メタデータ) (2023-11-30T18:05:52Z) - Ziya-Visual: Bilingual Large Vision-Language Model via Multi-Task
Instruction Tuning [27.544311403607786]
バイリンガルな大規模視覚言語モデル(LVLM)の集合であるZiya-Visualシリーズを紹介する。
我々のモデルは BLIP-2 から Querying Transformer を採用し,最適化手法のさらなる支援を探求している。
さらに,多モーダルシナリオにおけるGPT-4の理解能力を刺激し,収集した英語画像テキストデータセットを中国語に翻訳する。
論文 参考訳(メタデータ) (2023-10-12T09:39:17Z) - Scene Graph as Pivoting: Inference-time Image-free Unsupervised
Multimodal Machine Translation with Visual Scene Hallucination [88.74459704391214]
本研究では,より現実的なマルチモーダル機械翻訳(UMMT)について検討する。
視覚・言語シーングラフ(SG)を用いて,入力画像とテキストを表現し,その微細な視覚言語特徴が意味論の全体的理解を確実にする。
教師なし翻訳学習には,SG-pivotingに基づく学習目的がいくつか導入されている。
提案手法は,タスクとセットアップにおいて,BLEUスコアの有意な向上により,最良性能のベースラインを上回ります。
論文 参考訳(メタデータ) (2023-05-20T18:17:20Z) - UC2: Universal Cross-lingual Cross-modal Vision-and-Language
Pre-training [52.852163987208826]
UC2は、言語間クロスモーダル表現学習のための最初の機械翻訳拡張フレームワークである。
Masked Region-token Modeling (MRTM) と Visual Translation Language Modeling (VTLM) の2つの新しいプリトレーニングタスクを提案する。
提案手法は,英語タスクにおける単言語学習モデルと同等の性能を維持しつつ,多種多様な非英語ベンチマークで新たな最先端を実現する。
論文 参考訳(メタデータ) (2021-04-01T08:30:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。