論文の概要: TinyRS-R1: Compact Multimodal Language Model for Remote Sensing
- arxiv url: http://arxiv.org/abs/2505.12099v1
- Date: Sat, 17 May 2025 17:53:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:11.03743
- Title: TinyRS-R1: Compact Multimodal Language Model for Remote Sensing
- Title(参考訳): TinyRS-R1:リモートセンシングのためのコンパクトマルチモーダル言語モデル
- Authors: Aybora Koksal, A. Aydin Alatan,
- Abstract要約: 本稿では,リモートセンシングタスクに最適化された最初の2Bパラメータマルチモーダル小言語モデルであるTinyRSを紹介する。
TinyRSは、数百万の衛星画像の事前トレーニング、視覚的なインストラクション例のチューニング、Chain-of-Thought(CoT)アノテーションによる微調整という、4段階のパイプラインを通じてトレーニングされている。
TinyRS-R1は汎用リモートセンシングのためのGRPO整列CoT推論を持つ最初のドメイン特化MSLMである。
- 参考スコア(独自算出の注目度): 7.14978158285611
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Remote-sensing applications often run on edge hardware that cannot host today's 7B-parameter multimodal language models. This paper introduces TinyRS, the first 2B-parameter multimodal small language model (MSLM) optimized for remote sensing tasks, and TinyRS-R1, its reasoning-augmented variant. Built upon Qwen2-VL-2B, TinyRS is trained through a four-stage pipeline: pre-training on million satellite images, instruction tuning on visual instruction examples, fine-tuning with Chain-of-Thought (CoT) annotations from the proposed reasoning dataset, and alignment via Group Relative Policy Optimization (GRPO). TinyRS-R1 achieves or surpasses the performance of recent 7B-parameter remote sensing models across classification, VQA, visual grounding, and open-ended question answering-while requiring just one-third of the memory and latency. Our analysis shows that CoT reasoning substantially benefits spatial grounding and scene understanding, while the non-reasoning TinyRS excels in concise, latency-sensitive VQA tasks. TinyRS-R1 represents the first domain-specialized MSLM with GRPO-aligned CoT reasoning for general-purpose remote sensing.
- Abstract(参考訳): リモートセンシングアプリケーションは、今日の7Bパラメータマルチモーダル言語モデルをホストできないエッジハードウェア上で実行されることが多い。
本稿では、リモートセンシングタスクに最適化された最初の2Bパラメータマルチモーダル小言語モデルであるTinyRSと、その推論拡張型であるTinyRS-R1を紹介する。
Qwen2-VL-2Bをベースとして構築されたTinyRSは、数百万の衛星画像の事前トレーニング、視覚的なインストラクション例のチューニング、提案された推論データセットからのChain-of-Thought(CoT)アノテーションによる微調整、グループ相対ポリシー最適化(GRPO)によるアライメントという、4段階のパイプラインを通じてトレーニングされている。
TinyRS-R1は、最新の7Bパラメータリモートセンシングモデルの性能を、分類、VQA、視覚的接地、オープンな質問応答で達成または超える。
解析の結果,CoT推論は空間的接地やシーン理解に大きく寄与するが,非推論のTinyRSは簡潔で遅延に敏感なVQAタスクに優れていた。
TinyRS-R1は汎用リモートセンシングのためのGRPO整列CoT推論を持つ最初のドメイン特化MSLMである。
関連論文リスト
- Visual-RFT: Visual Reinforcement Fine-Tuning [75.20572976629646]
OpenAI o1のような大規模推論モデルにおける強化ファインチューニング(RFT)は、回答に対するフィードバックから学ぶ。
Visual-RFTはさらに、視覚タスクにおけるRTTの適用領域を拡張している。
論文 参考訳(メタデータ) (2025-03-03T18:16:32Z) - Towards Generalizable Trajectory Prediction Using Dual-Level Representation Learning And Adaptive Prompting [107.4034346788744]
既存の車両軌道予測モデルは、一般化可能性、予測の不確実性、複雑な相互作用を扱う。
本研究では,(1)自己拡張(SD)とマスドレコンストラクション(MR)による二重レベル表現学習,グローバルコンテキストと細部の詳細の収集,(2)レジスタベースのクエリと事前学習の強化,クラスタリングと抑圧の必要性の排除,(3)微調整中の適応型プロンプトチューニング,メインアーキテクチャの凍結,および少数のプロンプトの最適化といった,新たなトラジェクタ予測フレームワークであるPerceiverを提案する。
論文 参考訳(メタデータ) (2025-01-08T20:11:09Z) - SkySenseGPT: A Fine-Grained Instruction Tuning Dataset and Model for Remote Sensing Vision-Language Understanding [26.08043905865113]
本稿では,1,800,851個の命令サンプルを含む大規模命令チューニングデータセットFIT-RSを提案する。
FIT-RSは、一般的な解釈タスクをカバーし、難易度を増大させるいくつかの複雑な理解タスクを革新的に導入する。
我々は、FIT-RSRCと呼ばれるLMMの詳細な関係理解能力を評価するための新しいベンチマークを構築した。
論文 参考訳(メタデータ) (2024-06-14T14:57:07Z) - RS-Agent: Automating Remote Sensing Tasks through Intelligent Agent [15.836845304125436]
RS-Agentは、人間のユーザーと対話し、専門的なモデルを自律的に活用するように設計されたAIエージェントである。
RS-Agentは、大きな言語モデルに基づく中央コントローラ、ツール実行のための動的ツールキット、タスク固有のエキスパートガイダンスのためのソリューションスペース、ドメインレベルの推論のための知識スペースの4つの重要なコンポーネントを統合している。
9つのデータセットと18のリモートセンシングタスクにわたる大規模な実験により、RS-Agentは最先端のMLLMよりも大幅に優れていることが示された。
論文 参考訳(メタデータ) (2024-06-11T09:30:02Z) - RS-Mamba for Large Remote Sensing Image Dense Prediction [58.12667617617306]
本稿では,大規模なVHRリモートセンシング画像における高密度予測タスクに対するリモートセンシング・マンバ(RSM)を提案する。
RSMは、線形複雑度でリモートセンシング画像のグローバルなコンテキストを捉えるように設計されている。
我々のモデルは、大規模なリモートセンシング画像の変換器ベースモデルよりも効率と精度がよい。
論文 参考訳(メタデータ) (2024-04-03T12:06:01Z) - GeoChat: Grounded Large Vision-Language Model for Remote Sensing [65.78360056991247]
提案するGeoChatは,高解像度RS画像を用いたマルチタスク対話機能を備えた,世界初の汎用リモートセンシング大型ビジョンランゲージモデル(VLM)である。
具体的には、GeoChatは画像レベルのクエリに応答できるが、リージョン固有の対話を保持するためにリージョン入力を受け付けている。
GeoChatは、画像や領域キャプション、視覚的質問応答、シーン分類、視覚的に接地された会話、参照検出など、様々なRSタスクに対して、堅牢なゼロショット性能を示す。
論文 参考訳(メタデータ) (2023-11-24T18:59:10Z) - Pink: Unveiling the Power of Referential Comprehension for Multi-modal
LLMs [49.88461345825586]
本稿では,MLLMの微細な画像理解能力を高めるための新しい枠組みを提案する。
本稿では,既存のデータセットのアノテーションを活用して,命令チューニングデータセットを低コストで構築する手法を提案する。
本研究では,Qwen-VLよりも5.2%精度が向上し,Kosmos-2の精度が24.7%向上したことを示す。
論文 参考訳(メタデータ) (2023-10-01T05:53:15Z) - Retrieving-to-Answer: Zero-Shot Video Question Answering with Frozen
Large Language Models [69.59125732317972]
本稿では,ビデオQAのためのシンプルで効果的な検索・回答(R2A)フレームワークを提案する。
R2Aは、まず、事前訓練されたマルチモーダルモデルを用いて、ジェネリックテキストコーパスから意味論的に類似したテキストの集合を検索する。
質問と検索されたテキストの両方で、LSMを直接使用して、望ましい回答を得ることができる。
論文 参考訳(メタデータ) (2023-06-15T20:56:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。