論文の概要: MilChat: Introducing Chain of Thought Reasoning and GRPO to a Multimodal Small Language Model for Remote Sensing
- arxiv url: http://arxiv.org/abs/2505.07984v1
- Date: Mon, 12 May 2025 18:30:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-14 20:57:54.306188
- Title: MilChat: Introducing Chain of Thought Reasoning and GRPO to a Multimodal Small Language Model for Remote Sensing
- Title(参考訳): MilChat: リモートセンシングのためのマルチモーダル小言語モデルへの思考推論とGRPOの導入
- Authors: Aybora Koksal, A. Aydin Alatan,
- Abstract要約: MilChatと呼ばれる軽量なマルチモーダル言語モデルが導入された。
新しいデータセットであるMilDataは、専門家によるレビューを通じて何百もの空中画像を検証することでコンパイルされ、微妙な軍事施設が詳細なキャプションで強調された。
MilChatは、より大型で汎用的なマルチモーダルモデルと、既存のリモートセンシング適応アプローチの両方において、オープンエンドキャプションと分類の指標において、かなり優れていることが示されている。
- 参考スコア(独自算出の注目度): 7.14978158285611
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Remarkable capabilities in understanding and generating text-image content have been demonstrated by recent advancements in multimodal large language models (MLLMs). However, their effectiveness in specialized domains-particularly those requiring resource-efficient and domain-specific adaptations-has remained limited. In this work, a lightweight multimodal language model termed MilChat is introduced, specifically adapted to analyze remote sensing imagery in secluded areas, including challenging missile launch sites. A new dataset, MilData, was compiled by verifying hundreds of aerial images through expert review, and subtle military installations were highlighted via detailed captions. Supervised fine-tuning on a 2B-parameter open-source MLLM with chain-of-thought (CoT) reasoning annotations was performed, enabling more accurate and interpretable explanations. Additionally, Group Relative Policy Optimization (GRPO) was leveraged to enhance the model's ability to detect critical domain-specific cues-such as defensive layouts and key military structures-while minimizing false positives on civilian scenes. Through empirical evaluations, it has been shown that MilChat significantly outperforms both larger, general-purpose multimodal models and existing remote sensing-adapted approaches on open-ended captioning and classification metrics. Over 80% recall and 98% precision were achieved on the newly proposed MilData benchmark, underscoring the potency of targeted fine-tuning and reinforcement learning in specialized real-world applications.
- Abstract(参考訳): 近年,マルチモーダル大規模言語モデル (MLLM) の進歩により,テキスト画像の内容の理解と生成の顕著な能力が実証されている。
しかし、特に資源効率やドメイン固有の適応を必要とする分野において有効性は限られていた。
本研究は,MilChatと呼ばれる軽量マルチモーダル言語モデルを導入し,ミサイル発射地点を含む孤立した地域におけるリモートセンシング画像の分析に特化している。
新しいデータセットであるMilDataは、専門家によるレビューを通じて何百もの空中画像を検証することでコンパイルされ、微妙な軍事施設が詳細なキャプションで強調された。
2BパラメータのオープンソースMLLMにチェーン・オブ・ソート(CoT)推論アノテーションを用いた微調整を行い、より正確で解釈可能な説明を可能にした。
さらに、GRPO(Group Relative Policy Optimization)は、防御配置や重要な軍事構造など重要なドメイン固有の手がかりを検出する能力を高めるために、民間シーンにおける偽陽性を最小化するために利用された。
経験的評価により、MilChatは、大規模で汎用的なマルチモーダルモデルと既存のリモートセンシング適応アプローチの両方において、オープンエンドキャプションと分類の指標において、かなり優れていることが示されている。
80%以上のリコールと98%の精度が新たに提案されたMilDataベンチマークで達成された。
関連論文リスト
- MGCR-Net:Multimodal Graph-Conditioned Vision-Language Reconstruction Network for Remote Sensing Change Detection [55.702662643521265]
マルチモーダルデータのセマンティックインタラクション機能を検討するために,マルチモーダルグラフ条件付き視覚言語再構成ネットワーク(MGCR-Net)を提案する。
4つの公開データセットによる実験結果から,MGCRは主流CD法に比べて優れた性能を示した。
論文 参考訳(メタデータ) (2025-08-03T02:50:08Z) - Few-Shot Vision-Language Reasoning for Satellite Imagery via Verifiable Rewards [7.14978158285611]
衛星画像に対する検証可能な報酬(RLVR)フレームワークを用いた最初の数発の強化学習を提案する。
我々は、衛星推論タスクのモデル出力の整合化のために、ポリシー段階の最適化を1つのキュレートされた例で導入する。
何千もの注釈付きサンプルで訓練されたモデルに一致または超える128のサンプルにスケールする。
論文 参考訳(メタデータ) (2025-07-29T12:23:19Z) - From Semantics, Scene to Instance-awareness: Distilling Foundation Model for Open-vocabulary Situation Recognition [14.16399307533106]
マルチモーダル大言語モデル(MLLM)は、強いゼロショット能力を示すが、複雑な接地状況認識(GSR)と競合する。
我々は,教師MLLMから小さなGSRモデルへの知識の伝達を利用して,その一般化とゼロショット能力を向上させる。
基礎モデルから豊富なマルチモーダル知識を蒸留する新しいフレームワークであるMIPD(Multimodal Interactive Prompt Distillation)を提案する。
論文 参考訳(メタデータ) (2025-07-19T16:29:02Z) - Enhanced Multimodal Aspect-Based Sentiment Analysis by LLM-Generated Rationales [7.119479942471737]
既存の方法は、画像とテキストの両方からアスペクトや感情に関連する情報を集めるために、事前訓練された小さな言語モデル(SLM)に依存している。
我々は,SLMの意思決定能力とMABSAのためのLLMが提供する付加情報を組み合わせた新しいフレームワークLRSAを提案する。
論文 参考訳(メタデータ) (2025-05-20T15:28:26Z) - AlphaMaze: Enhancing Large Language Models' Spatial Intelligence via GRPO [0.0]
大きな言語モデル(LLM)は、言語処理において印象的な能力を示してきたが、視覚的な空間的推論を必要とするタスクにしばしば苦労している。
迷路ナビゲーションのための視覚的推論能力を備えた標準LLMの2段階学習フレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-20T16:05:18Z) - Benchmarking Large and Small MLLMs [71.78055760441256]
大規模なマルチモーダル言語モデル(MLLM)は、マルチモーダルコンテンツの理解と生成において顕著な進歩を遂げている。
しかし、そのデプロイメントは、遅い推論、高い計算コスト、デバイス上のアプリケーションに対する非現実性など、重大な課題に直面している。
LLavaシリーズモデルとPhi-3-Visionによって実証された小さなMLLMは、より高速な推論、デプロイメントコストの削減、ドメイン固有のシナリオを扱う能力を備えた有望な代替手段を提供する。
論文 参考訳(メタデータ) (2025-01-04T07:44:49Z) - EAGLE: Towards Efficient Arbitrary Referring Visual Prompts Comprehension for Multimodal Large Language Models [80.00303150568696]
本稿では,既存のアプローチよりもトレーニングの少ない任意の参照視覚的プロンプトの理解を促進するための,MLLM(Multimodal Large Language Models)を提案する。
本手法は,視覚的プロンプトを,MLLMに理解可能な特定の空間領域を伝達する空間概念として応用する。
我々はまた、MLLMの領域レベルの理解を視覚的プロンプトを参照する特定の形式にさらに引き離すための幾何非依存学習パラダイム(GAL)を提案する。
論文 参考訳(メタデータ) (2024-09-25T08:22:00Z) - Chain of Stance: Stance Detection with Large Language Models [3.528201746844624]
スタンス検出は自然言語処理(NLP)におけるアクティブタスクである
我々は、Stance (CoS) の textitChain と呼ばれる新しいプロンプト手法を提案する。
論文 参考訳(メタデータ) (2024-08-03T16:30:51Z) - Multi-modal Instruction Tuned LLMs with Fine-grained Visual Perception [63.03288425612792]
マルチモーダル参照から画素単位のオブジェクト認識と自然言語記述を生成できる汎用MLLMモデルであるbfAnyRefを提案する。
本モデルでは,領域レベルの参照表現生成とセグメンテーションの多様さを含む,複数のベンチマークにおける最先端結果を実現する。
論文 参考訳(メタデータ) (2024-03-05T13:45:46Z) - DualFocus: Integrating Macro and Micro Perspectives in Multi-modal Large
Language Models [85.4852517178828]
マルチモーダル大言語モデル(MLLM)におけるマクロ・マイクロ視点の統合フレームワークであるDualFocusについて述べる。
本研究は,DualFocusが総合的な洞察と詳細な検査のバランスをとる上で優れていることを示し,MLLMの幻覚例を著しく減らした。
論文 参考訳(メタデータ) (2024-02-22T18:26:02Z) - Pink: Unveiling the Power of Referential Comprehension for Multi-modal
LLMs [49.88461345825586]
本稿では,MLLMの微細な画像理解能力を高めるための新しい枠組みを提案する。
本稿では,既存のデータセットのアノテーションを活用して,命令チューニングデータセットを低コストで構築する手法を提案する。
本研究では,Qwen-VLよりも5.2%精度が向上し,Kosmos-2の精度が24.7%向上したことを示す。
論文 参考訳(メタデータ) (2023-10-01T05:53:15Z) - Exploiting Modality-Specific Features For Multi-Modal Manipulation
Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。
本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。
本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文 参考訳(メタデータ) (2023-09-22T06:55:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。