論文の概要: MilChat: Introducing Chain of Thought Reasoning and GRPO to a Multimodal Small Language Model for Remote Sensing
- arxiv url: http://arxiv.org/abs/2505.07984v1
- Date: Mon, 12 May 2025 18:30:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-14 20:57:54.306188
- Title: MilChat: Introducing Chain of Thought Reasoning and GRPO to a Multimodal Small Language Model for Remote Sensing
- Title(参考訳): MilChat: リモートセンシングのためのマルチモーダル小言語モデルへの思考推論とGRPOの導入
- Authors: Aybora Koksal, A. Aydin Alatan,
- Abstract要約: MilChatと呼ばれる軽量なマルチモーダル言語モデルが導入された。
新しいデータセットであるMilDataは、専門家によるレビューを通じて何百もの空中画像を検証することでコンパイルされ、微妙な軍事施設が詳細なキャプションで強調された。
MilChatは、より大型で汎用的なマルチモーダルモデルと、既存のリモートセンシング適応アプローチの両方において、オープンエンドキャプションと分類の指標において、かなり優れていることが示されている。
- 参考スコア(独自算出の注目度): 7.14978158285611
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Remarkable capabilities in understanding and generating text-image content have been demonstrated by recent advancements in multimodal large language models (MLLMs). However, their effectiveness in specialized domains-particularly those requiring resource-efficient and domain-specific adaptations-has remained limited. In this work, a lightweight multimodal language model termed MilChat is introduced, specifically adapted to analyze remote sensing imagery in secluded areas, including challenging missile launch sites. A new dataset, MilData, was compiled by verifying hundreds of aerial images through expert review, and subtle military installations were highlighted via detailed captions. Supervised fine-tuning on a 2B-parameter open-source MLLM with chain-of-thought (CoT) reasoning annotations was performed, enabling more accurate and interpretable explanations. Additionally, Group Relative Policy Optimization (GRPO) was leveraged to enhance the model's ability to detect critical domain-specific cues-such as defensive layouts and key military structures-while minimizing false positives on civilian scenes. Through empirical evaluations, it has been shown that MilChat significantly outperforms both larger, general-purpose multimodal models and existing remote sensing-adapted approaches on open-ended captioning and classification metrics. Over 80% recall and 98% precision were achieved on the newly proposed MilData benchmark, underscoring the potency of targeted fine-tuning and reinforcement learning in specialized real-world applications.
- Abstract(参考訳): 近年,マルチモーダル大規模言語モデル (MLLM) の進歩により,テキスト画像の内容の理解と生成の顕著な能力が実証されている。
しかし、特に資源効率やドメイン固有の適応を必要とする分野において有効性は限られていた。
本研究は,MilChatと呼ばれる軽量マルチモーダル言語モデルを導入し,ミサイル発射地点を含む孤立した地域におけるリモートセンシング画像の分析に特化している。
新しいデータセットであるMilDataは、専門家によるレビューを通じて何百もの空中画像を検証することでコンパイルされ、微妙な軍事施設が詳細なキャプションで強調された。
2BパラメータのオープンソースMLLMにチェーン・オブ・ソート(CoT)推論アノテーションを用いた微調整を行い、より正確で解釈可能な説明を可能にした。
さらに、GRPO(Group Relative Policy Optimization)は、防御配置や重要な軍事構造など重要なドメイン固有の手がかりを検出する能力を高めるために、民間シーンにおける偽陽性を最小化するために利用された。
経験的評価により、MilChatは、大規模で汎用的なマルチモーダルモデルと既存のリモートセンシング適応アプローチの両方において、オープンエンドキャプションと分類の指標において、かなり優れていることが示されている。
80%以上のリコールと98%の精度が新たに提案されたMilDataベンチマークで達成された。
関連論文リスト
- AlphaMaze: Enhancing Large Language Models' Spatial Intelligence via GRPO [0.0]
大きな言語モデル(LLM)は、言語処理において印象的な能力を示してきたが、視覚的な空間的推論を必要とするタスクにしばしば苦労している。
迷路ナビゲーションのための視覚的推論能力を備えた標準LLMの2段階学習フレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-20T16:05:18Z) - Chain of Stance: Stance Detection with Large Language Models [3.528201746844624]
スタンス検出は自然言語処理(NLP)におけるアクティブタスクである
我々は、Stance (CoS) の textitChain と呼ばれる新しいプロンプト手法を提案する。
論文 参考訳(メタデータ) (2024-08-03T16:30:51Z) - Multi-modal Instruction Tuned LLMs with Fine-grained Visual Perception [63.03288425612792]
マルチモーダル参照から画素単位のオブジェクト認識と自然言語記述を生成できる汎用MLLMモデルであるbfAnyRefを提案する。
本モデルでは,領域レベルの参照表現生成とセグメンテーションの多様さを含む,複数のベンチマークにおける最先端結果を実現する。
論文 参考訳(メタデータ) (2024-03-05T13:45:46Z) - DualFocus: Integrating Macro and Micro Perspectives in Multi-modal Large
Language Models [85.4852517178828]
マルチモーダル大言語モデル(MLLM)におけるマクロ・マイクロ視点の統合フレームワークであるDualFocusについて述べる。
本研究は,DualFocusが総合的な洞察と詳細な検査のバランスをとる上で優れていることを示し,MLLMの幻覚例を著しく減らした。
論文 参考訳(メタデータ) (2024-02-22T18:26:02Z) - Pink: Unveiling the Power of Referential Comprehension for Multi-modal
LLMs [49.88461345825586]
本稿では,MLLMの微細な画像理解能力を高めるための新しい枠組みを提案する。
本稿では,既存のデータセットのアノテーションを活用して,命令チューニングデータセットを低コストで構築する手法を提案する。
本研究では,Qwen-VLよりも5.2%精度が向上し,Kosmos-2の精度が24.7%向上したことを示す。
論文 参考訳(メタデータ) (2023-10-01T05:53:15Z) - Exploiting Modality-Specific Features For Multi-Modal Manipulation
Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。
本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。
本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文 参考訳(メタデータ) (2023-09-22T06:55:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。