論文の概要: Bring Remote Sensing Object Detect Into Nature Language Model: Using SFT Method
- arxiv url: http://arxiv.org/abs/2503.08144v1
- Date: Tue, 11 Mar 2025 08:02:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-12 15:43:36.324512
- Title: Bring Remote Sensing Object Detect Into Nature Language Model: Using SFT Method
- Title(参考訳): SFT法を用いた自然言語モデルへのリモートセンシングオブジェクト検出
- Authors: Fei Wang, Chengcheng Chen, Hongyu Chen, Yugang Chang, Weiming Zeng,
- Abstract要約: リモートセンシング画像における物体検出のための視覚モデルの適用について検討する。
従来のアノテーション情報を自然言語に変換し,VLMトレーニングのための命令調整データセットを構築する。
次に、VLMの様々な微調整戦略の検出性能を評価し、リモートセンシング画像における物体検出のための最適化されたモデル重みを求める。
- 参考スコア(独自算出の注目度): 10.748210940033484
- License:
- Abstract: Recently, large language models (LLMs) and visionlanguage models (VLMs) have achieved significant success, demonstrating remarkable capabilities in understanding various images and videos, particularly in classification and detection tasks. However, due to the substantial differences between remote sensing images and conventional optical images, these models face considerable challenges in comprehension, especially in detection tasks. Directly prompting VLMs with detection instructions often fails to yield satisfactory results. To address this issue, this letter explores the application of VLMs for object detection in remote sensing images. Specifically, we utilize publicly available remote sensing object detection datasets, including SSDD, HRSID, and NWPU-VHR-10, to convert traditional annotation information into natural language, thereby constructing an instruction-tuning (SFT) dataset for VLM training. We then evaluate the detection performance of different fine-tuning strategies for VLMs and obtain optimized model weights for object detection in remote sensing images. Finally, we assess the model's prior knowledge capabilities through natural language queries.Experimental results demonstrate that, without modifying the model architecture, remote sensing object detection can be effectively achieved using natural language alone. Additionally, the model exhibits the ability to perform certain vision question answering (VQA) tasks. Our dataset and relevant code will be released soon.
- Abstract(参考訳): 近年,大規模言語モデル (LLMs) と視覚言語モデル (VLMs) は大きな成功を収めており,特に分類・検出タスクにおいて,様々な画像や映像の理解において顕著な能力を発揮している。
しかし、リモートセンシング画像と従来の光学画像とは大きく異なるため、これらのモデルは、特に検出タスクにおいて、理解においてかなりの課題に直面している。
直接的にVLMを検出命令で促すと、良好な結果が得られないことが多い。
この問題に対処するため,本稿では,リモートセンシング画像におけるオブジェクト検出へのVLMの適用について検討する。
具体的には, SSDD, HRSID, NWPU-VHR-10などのリモートセンシングオブジェクト検出データセットを用いて, 従来のアノテーション情報を自然言語に変換することにより, VLMトレーニングのための命令チューニングデータセットを構築する。
次に、VLMの様々な微調整戦略の検出性能を評価し、リモートセンシング画像における物体検出のための最適化されたモデル重みを求める。
実験の結果、モデルアーキテクチャを変更することなく、自然言語のみを用いてリモートセンシングオブジェクト検出を効果的に実現できることが実証された。
さらに、このモデルは特定の視覚質問応答(VQA)タスクを実行する能力を示す。
データセットと関連するコードはまもなくリリースされます。
関連論文リスト
- Generalization-Enhanced Few-Shot Object Detection in Remote Sensing [22.411751110592842]
Few-shot Object Detection (FSOD) は、データ制限条件下でのオブジェクト検出の課題をターゲットにしている。
リモートセンシングタスクにおける一般化機能を改善するために,GE-FSODモデルを提案する。
我々のモデルでは、CFPAN(Cross-Level Fusion Pyramid Attention Network)、MRRPN(Multi-Stage Refinement Region Proposal Network)、GCL(Generalized Classification Loss)の3つの重要なイノベーションを紹介している。
論文 参考訳(メタデータ) (2025-01-05T08:12:25Z) - RSUniVLM: A Unified Vision Language Model for Remote Sensing via Granularity-oriented Mixture of Experts [17.76606110070648]
複数の粒度にまたがる包括的視覚理解のための統一型エンドツーエンドRS VLMであるRSUniVLMを提案する。
RSUniVLMは、変更検出や変更キャプションのインスタンスを含む、マルチイメージ解析において効果的に機能する。
また、RSと一般ドメインの両方の既存のデータセットに基づいて、大規模なRS命令追従データセットを構築した。
論文 参考訳(メタデータ) (2024-12-07T15:11:21Z) - Teaching VLMs to Localize Specific Objects from In-context Examples [56.797110842152]
VLM(Vision-Language Models)は、様々な視覚タスクにまたがる顕著な能力を示す。
現在のVLMには基本的な認知能力がなく、コンテキストを考慮し、シーン内のオブジェクトをローカライズすることを学ぶ。
この研究は、VLMのパーソナライズされた数ショットのローカライゼーションを探索し、ベンチマークした初めてのものである。
論文 参考訳(メタデータ) (2024-11-20T13:34:22Z) - Aquila: A Hierarchically Aligned Visual-Language Model for Enhanced Remote Sensing Image Comprehension [6.29665399879184]
本稿では、リモートセンシング画像のための高度な視覚言語基盤モデルであるAquilaを紹介する。
Aquilaはよりリッチな視覚的特徴表現とより正確な視覚的特徴アライメントを可能にする。
定量的実験と定性解析により,Aquilaの有効性を検証した。
論文 参考訳(メタデータ) (2024-11-09T05:31:56Z) - From Pixels to Prose: Advancing Multi-Modal Language Models for Remote Sensing [16.755590790629153]
本稿では,リモートセンシングにおけるマルチモーダル言語モデル(MLLM)の開発と応用について検討する。
我々は、自然言語を用いて衛星画像の解釈と記述を行う能力に焦点をあてる。
シーン記述、オブジェクト検出、変更検出、テキスト・ツー・イメージ検索、画像・ツー・テキスト生成、視覚的質問応答などの重要な応用について論じる。
論文 参考訳(メタデータ) (2024-11-05T12:14:22Z) - Learning to Ground VLMs without Forgetting [54.033346088090674]
我々は、既存の画像や言語理解スキルを忘れずに、事前訓練されたビジュアル言語モデルに視覚的接地能力を持たせるフレームワークであるLynXを紹介する。
モデルを効果的に訓練するために、私たちはSCouTと呼ばれる高品質な合成データセットを生成します。
我々はLynXを複数のオブジェクト検出および視覚的グラウンド化データセット上で評価し、オブジェクト検出、ゼロショットローカライゼーション、グラウンドド推論において強い性能を示す。
論文 参考訳(メタデータ) (2024-10-14T13:35:47Z) - Interactive Masked Image Modeling for Multimodal Object Detection in Remote Sensing [2.0528748158119434]
マルチモーダル学習は、異なるデータモダリティの機能を統合するために使用することができ、それによって検出精度が向上する。
本稿では,事前学習手法としてMasked Image Modeling (MIM) を提案する。
そこで本稿では,リモートセンシングにおけるオブジェクト検出に特に有用である,異なるトークン間のインタラクションを確立するための対話型MIM手法を提案する。
論文 参考訳(メタデータ) (2024-09-13T14:50:50Z) - Locate Anything on Earth: Advancing Open-Vocabulary Object Detection for Remote Sensing Community [58.417475846791234]
LAEタスクのための最初のオープンボキャブラリ基礎オブジェクト検出器であるLAE-DINOモデルを提案し,訓練する。
我々は、確立されたリモートセンシングベンチマークDIOR、DOTAv2.0、および新たに発表された80クラスのLEE-80Cベンチマークについて実験を行った。
その結果, LAE-1Mデータセットの利点と, LAE-DINO法の有効性が示された。
論文 参考訳(メタデータ) (2024-08-17T06:24:43Z) - Chain-of-Spot: Interactive Reasoning Improves Large Vision-Language Models [81.71651422951074]
CoS(Chain-of-Spot)法は,注目領域に着目して特徴抽出を強化する手法である。
この技術により、LVLMは元の画像解像度を変更することなく、より詳細な視覚情報にアクセスすることができる。
実験の結果,LVLMの視覚的内容の理解と推論能力は著しく改善した。
論文 参考訳(メタデータ) (2024-03-19T17:59:52Z) - Contextual Object Detection with Multimodal Large Language Models [66.15566719178327]
本稿では,コンテキストオブジェクト検出の新たな研究課題について紹介する。
言語クローゼテスト,視覚キャプション,質問応答の3つの代表的なシナリオについて検討した。
本稿では、視覚的コンテキストのエンドツーエンドの微分可能なモデリングが可能な統合マルチモーダルモデルContextDETを提案する。
論文 参考訳(メタデータ) (2023-05-29T17:50:33Z) - Visual Relationship Detection with Visual-Linguistic Knowledge from
Multimodal Representations [103.00383924074585]
視覚的関係検出は、画像内の有能なオブジェクト間の関係を推論することを目的としている。
変換器からの視覚言語表現(RVL-BERT)という新しい手法を提案する。
RVL-BERTは、自己教師付き事前学習を通じて学習した視覚的・言語的常識知識を用いて空間推論を行う。
論文 参考訳(メタデータ) (2020-09-10T16:15:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。