論文の概要: SkySenseGPT: A Fine-Grained Instruction Tuning Dataset and Model for Remote Sensing Vision-Language Understanding
- arxiv url: http://arxiv.org/abs/2406.10100v1
- Date: Fri, 14 Jun 2024 14:57:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-17 13:16:10.349036
- Title: SkySenseGPT: A Fine-Grained Instruction Tuning Dataset and Model for Remote Sensing Vision-Language Understanding
- Title(参考訳): SkySenseGPT: リモートセンシングビジョン言語理解のための微粒化インストラクションチューニングデータセットとモデル
- Authors: Junwei Luo, Zhen Pang, Yongjun Zhang, Tingzhu Wang, Linlin Wang, Bo Dang, Jiangwei Lao, Jian Wang, Jingdong Chen, Yihua Tan, Yansheng Li,
- Abstract要約: 本稿では,1,800,851個の命令サンプルを含む大規模命令チューニングデータセットFIT-RSを提案する。
FIT-RSは、一般的な解釈タスクをカバーし、難易度を増大させるいくつかの複雑な理解タスクを革新的に導入する。
我々は、FIT-RSRCと呼ばれるLMMの詳細な関係理解能力を評価するための新しいベンチマークを構築した。
- 参考スコア(独自算出の注目度): 26.08043905865113
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Remote Sensing Large Multi-Modal Models (RSLMMs) are developing rapidly and showcase significant capabilities in remote sensing imagery (RSI) comprehension. However, due to the limitations of existing datasets, RSLMMs have shortcomings in understanding the rich semantic relations among objects in complex remote sensing scenes. To unlock RSLMMs' complex comprehension ability, we propose a large-scale instruction tuning dataset FIT-RS, containing 1,800,851 instruction samples. FIT-RS covers common interpretation tasks and innovatively introduces several complex comprehension tasks of escalating difficulty, ranging from relation reasoning to image-level scene graph generation. Based on FIT-RS, we build the FIT-RSFG benchmark. Furthermore, we establish a new benchmark to evaluate the fine-grained relation comprehension capabilities of LMMs, named FIT-RSRC. Based on combined instruction data, we propose SkySenseGPT, which achieves outstanding performance on both public datasets and FIT-RSFG, surpassing existing RSLMMs. We hope the FIT-RS dataset can enhance the relation comprehension capability of RSLMMs and provide a large-scale fine-grained data source for the remote sensing community. The dataset will be available at https://github.com/Luo-Z13/SkySenseGPT
- Abstract(参考訳): リモートセンシング大規模マルチモードモデル(RSLMM)は、リモートセンシング画像(RSI)の理解において、急速に発展し、重要な機能を示している。
しかし、既存のデータセットの制限により、複雑なリモートセンシングシーンにおけるオブジェクト間のリッチな意味関係を理解するのに、RSLMMは欠点がある。
RSLMMの複雑な理解能力を解き放つために,1,800,851個の命令サンプルを含む大規模命令チューニングデータセットFIT-RSを提案する。
FIT-RSは、共通解釈タスクをカバーし、関係推論から画像レベルのシーングラフ生成まで、難易度をエスカレートするいくつかの複雑な理解タスクを革新的に導入する。
FIT-RSに基づいてFIT-RSFGベンチマークを構築した。
さらに,FIT-RSRCと呼ばれるLMMの細粒度関係理解能力を評価するための新しいベンチマークを構築した。
提案するSkySenseGPTは,公開データセットとFIT-RSFGの両方で優れた性能を示し,既存のRSLMMを超えている。
我々は、FIT-RSデータセットがRSLMMの関係理解能力を向上し、リモートセンシングコミュニティのための大規模きめ細かなデータソースを提供することを期待している。
データセットはhttps://github.com/Luo-Z13/SkySenseGPTで利用可能になる
関連論文リスト
- SpecSAR-Former: A Lightweight Transformer-based Network for Global LULC Mapping Using Integrated Sentinel-1 and Sentinel-2 [13.17346252861919]
我々はDynamic World+データセットを導入し、現在の信頼できるマルチスペクトルデータセットDynamic Worldを拡張した。
マルチスペクトルとSARデータの組み合わせを容易にするために,SpecSAR-Formerと呼ばれる軽量トランスフォーマアーキテクチャを提案する。
我々のネットワークは、既存のトランスフォーマーとCNNベースのモデルより優れており、平均的なユニオンのインターセクション(mIoU)は59.58%、総合的精度(OA)は79.48%、F1スコアは71.68%、パラメータは26.70万である。
論文 参考訳(メタデータ) (2024-10-04T22:53:25Z) - A Framework for Fine-Tuning LLMs using Heterogeneous Feedback [69.51729152929413]
ヘテロジニアスフィードバックを用いた大規模言語モデル(LLM)の微調整フレームワークを提案する。
まず、不均一なフィードバックデータをSFTやRLHFなどの手法と互換性のある単一の監視形式にまとめる。
次に、この統合されたフィードバックデータセットから、性能向上を得るために高品質で多様なサブセットを抽出する。
論文 参考訳(メタデータ) (2024-08-05T23:20:32Z) - RS-GPT4V: A Unified Multimodal Instruction-Following Dataset for Remote Sensing Image Understanding [4.266920365127677]
新しいLaGDパラダイムの下では、古いデータセットはもはや新しいタスクには適していない。
我々は、RSI理解のための高品質で多様なマルチモーダル命令追従データセットを設計した。
実験結果から, RS-GPT4Vによる微調整MLLMは, きめ細かい情報を記述できることがわかった。
論文 参考訳(メタデータ) (2024-06-18T10:34:28Z) - Frequency-Assisted Mamba for Remote Sensing Image Super-Resolution [49.902047563260496]
我々は、リモートセンシング画像(RSI)の超高解像度化のために、視覚状態空間モデル(Mamba)を統合するための最初の試みを開発した。
より優れたSR再構築を実現するため,FMSRと呼ばれる周波数支援型Mambaフレームワークを考案した。
我々のFMSRは、周波数選択モジュール(FSM)、ビジョン状態空間モジュール(VSSM)、ハイブリッドゲートモジュール(HGM)を備えた多層融合アーキテクチャを備えている。
論文 参考訳(メタデータ) (2024-05-08T11:09:24Z) - Enhancing LLM Factual Accuracy with RAG to Counter Hallucinations: A Case Study on Domain-Specific Queries in Private Knowledge-Bases [9.478012553728538]
大規模言語モデル(LLM)の現実的精度を向上させるために,検索拡張生成(RAG)を利用するエンド・ツー・エンドのシステム設計を提案する。
我々のシステムはRAGパイプラインと上流データセット処理と下流性能評価を統合している。
本実験は,ドメイン固有で時間に敏感な質問に対して,より正確な回答を生成するシステムの有効性を実証する。
論文 参考訳(メタデータ) (2024-03-15T16:30:14Z) - SARDet-100K: Towards Open-Source Benchmark and ToolKit for Large-Scale SAR Object Detection [79.23689506129733]
我々は,大規模SARオブジェクト検出のための新しいベンチマークデータセットとオープンソース手法を構築した。
私たちのデータセットであるSARDet-100Kは、10の既存のSAR検出データセットの厳格な調査、収集、標準化の結果です。
私たちの知る限りでは、SARDet-100KはCOCOレベルの大規模マルチクラスSARオブジェクト検出データセットとしては初めてのものです。
論文 参考訳(メタデータ) (2024-03-11T09:20:40Z) - SwiMDiff: Scene-wide Matching Contrastive Learning with Diffusion
Constraint for Remote Sensing Image [21.596874679058327]
SwiMDiffは、リモートセンシング画像のための新しい自己教師付き事前トレーニングフレームワークである。
ラベルを再分類し、同じシーンからのデータを偽陰性として認識する。
対照的学習(CL)と拡散モデルとをシームレスに統合する。
論文 参考訳(メタデータ) (2024-01-10T11:55:58Z) - Rotated Multi-Scale Interaction Network for Referring Remote Sensing Image Segmentation [63.15257949821558]
Referring Remote Sensing Image (RRSIS)は、コンピュータビジョンと自然言語処理を組み合わせた新しい課題である。
従来の参照画像(RIS)アプローチは、空中画像に見られる複雑な空間スケールと向きによって妨げられている。
本稿ではRMSIN(Rotated Multi-Scale Interaction Network)を紹介する。
論文 参考訳(メタデータ) (2023-12-19T08:14:14Z) - GAMUS: A Geometry-aware Multi-modal Semantic Segmentation Benchmark for
Remote Sensing Data [27.63411386396492]
本稿では,RGB-Height(RGB-H)データに基づくマルチモーダルセマンティックセマンティックセマンティクスのための新しいベンチマークデータセットを提案する。
提案するベンチマークは,1)共登録RGBとnDSMペアと画素単位のセマンティックラベルを含む大規模データセットと,2)リモートセンシングデータに基づく畳み込みとトランスフォーマーベースのネットワークのための既存のマルチモーダル融合戦略の包括的評価と解析からなる。
論文 参考訳(メタデータ) (2023-05-24T09:03:18Z) - Synergistic Interplay between Search and Large Language Models for
Information Retrieval [141.18083677333848]
InteRにより、RMはLLM生成した知識コレクションを使用してクエリの知識を拡張することができる。
InteRは、最先端手法と比較して総合的に優れたゼロショット検索性能を実現する。
論文 参考訳(メタデータ) (2023-05-12T11:58:15Z) - Learning Detail-Structure Alternative Optimization for Blind
Super-Resolution [69.11604249813304]
そこで我々は,ブラインドSRに先立ってカーネルを曖昧にすることなく,再帰的な詳細構造代替最適化を実現する,有効かつカーネルフリーなネットワークDSSRを提案する。
DSSRでは、細部構造変調モジュール(DSMM)が構築され、画像の詳細と構造の相互作用と協調を利用する。
本手法は既存の手法に対して最先端の手法を実現する。
論文 参考訳(メタデータ) (2022-12-03T14:44:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。