論文の概要: DDFAV: Remote Sensing Large Vision Language Models Dataset and Evaluation Benchmark
- arxiv url: http://arxiv.org/abs/2411.02733v1
- Date: Tue, 05 Nov 2024 02:03:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-06 14:59:58.356118
- Title: DDFAV: Remote Sensing Large Vision Language Models Dataset and Evaluation Benchmark
- Title(参考訳): DDFAV: リモートセンシングによる大規模視覚言語モデルのデータセットと評価ベンチマーク
- Authors: Haodong Li, Haicheng Qu, Xiaofeng Zhang,
- Abstract要約: 本稿では,データ拡張とデータ混合戦略を用いて,高品質なリモートセンシングLVLMデータセットDDFAVを提案する。
次に、提案したデータセットから選択した高品質なリモートセンシング画像に基づいて、トレーニング命令セットを生成する。
最後に、提案したデータセットに基づいて、リモートセンシングによるLVLMの幻覚評価手法RSPOPEを開発し、異なるLVLMのゼロショット機能を評価する。
- 参考スコア(独自算出の注目度): 11.633202976929873
- License:
- Abstract: With the rapid development of large vision language models (LVLMs), these models have shown excellent results in various multimodal tasks. Since LVLMs are prone to hallucinations and there are currently few datasets and evaluation methods specifically designed for remote sensing, their performance is typically poor when applied to remote sensing tasks. To address these issues, this paper introduces a high quality remote sensing LVLMs dataset, DDFAV, created using data augmentation and data mixing strategies. Next, a training instruction set is produced based on some high-quality remote sensing images selected from the proposed dataset. Finally, we develop a remote sensing LVLMs hallucination evaluation method RSPOPE based on the proposed dataset and evaluate the zero-shot capabilities of different LVLMs. Our proposed dataset, instruction set, and evaluation method files are available at https://github.com/HaodongLi2024/rspope.
- Abstract(参考訳): 大規模視覚言語モデル(LVLM)の急速な開発により、これらのモデルは様々なマルチモーダルタスクにおいて優れた結果を示した。
LVLMは幻覚を起こす傾向があり、現在リモートセンシング専用に設計されたデータセットや評価手法は少ないため、リモートセンシングタスクに適用する際の性能は一般的には劣っている。
これらの課題に対処するために,データ拡張とデータ混合戦略を用いて作成した高品質なリモートセンシングLVLMデータセットDDFAVを提案する。
次に、提案したデータセットから選択した高品質なリモートセンシング画像に基づいて、トレーニング命令セットを生成する。
最後に、提案したデータセットに基づいて、リモートセンシングによるLVLMの幻覚評価手法RSPOPEを開発し、異なるLVLMのゼロショット機能を評価する。
提案するデータセット,命令セット,評価方法ファイルはhttps://github.com/HaodongLi2024/rspope.comで公開されている。
関連論文リスト
- Membership Inference Attacks against Large Vision-Language Models [40.996912464828696]
大規模視覚言語モデル(VLLM)は、様々なアプリケーションシナリオにわたるマルチモーダルタスクを処理するための有望な能力を示す。
彼らの出現は、プライベート写真や医療記録などの機密情報を含む可能性があることを考えると、重要なデータセキュリティ上の懸念も引き起こす。
VLLMで不適切な使用データを検出することは、致命的かつ未解決な問題である。
論文 参考訳(メタデータ) (2024-11-05T08:35:08Z) - Video Instruction Tuning With Synthetic Data [84.64519990333406]
ビデオ命令追従のための高品質な合成データセット、すなわちLLaVA-Video-178Kを作成する。
このデータセットには、詳細なキャプション、オープンエンド質問回答(QA)、複数選択QAといった重要なタスクが含まれている。
このデータセットをトレーニングすることにより、既存の視覚的インストラクションチューニングデータと組み合わせて、新しいビデオLMMであるLLaVA-Videoを導入する。
論文 参考訳(メタデータ) (2024-10-03T17:36:49Z) - Bridge the Modality and Capability Gaps in Vision-Language Model Selection [62.26769826687365]
視覚言語モデル(VLM)は、画像とテキストのカテゴリ名とのペアリングによるゼロショット画像分類において優れている。
VLMリソースをより再利用するために、VLM Zooから適切な事前学習VLMを選択するという有望な戦略が提案されている。
本稿では,この言語のみのVLM選択において,VLMの能力を評価する上での2つの課題について分析する。
本稿では,2つのギャップの負の影響を軽減するために,gApブリッジを用いたVLM選択を提案する。
論文 参考訳(メタデータ) (2024-03-20T17:54:58Z) - Less is More: High-value Data Selection for Visual Instruction Tuning [127.38740043393527]
本稿では,視覚的命令データの冗長性を排除し,トレーニングコストを削減するために,高価値なデータ選択手法TIVEを提案する。
約15%のデータしか使用していない我々のアプローチは、8つのベンチマークで全データ微調整モデルに匹敵する平均性能を実現することができる。
論文 参考訳(メタデータ) (2024-03-14T16:47:25Z) - ALLaVA: Harnessing GPT4V-Synthesized Data for Lite Vision-Language Models [45.040292339670096]
大規模視覚言語モデル(LVLM)は、その強力な推論と一般化能力を備えた幅広い視覚言語タスクの前提を示してきた。
本研究では,従来のLVLMとリソースフレンドリなライトバージョンのパフォーマンスギャップを,高品質なトレーニングデータを用いて橋渡しすることを目的とする。
論文 参考訳(メタデータ) (2024-02-18T19:26:49Z) - Reflection-Tuning: Data Recycling Improves LLM Instruction-Tuning [79.32236399694077]
トレーニングセットの低品質データは、通常、チューニングのチューニングに有害である。
我々は「反射チューニング」と呼ばれる新しい手法を提案する。
このアプローチでは、オラクルLSMを使用して、データ内の命令や応答の質を検査し、向上することで、元のトレーニングデータをリサイクルする。
論文 参考訳(メタデータ) (2023-10-18T05:13:47Z) - MLLM-DataEngine: An Iterative Refinement Approach for MLLM [62.30753425449056]
本稿では,データ生成,モデルトレーニング,評価を橋渡しする新しいクローズドループシステムを提案する。
各ループ内で、MLLM-DataEngineはまず評価結果に基づいてモデルの弱点を分析する。
ターゲットとして,異なる種類のデータの比率を調整する適応型バッドケースサンプリングモジュールを提案する。
品質については、GPT-4を用いて、各データタイプで高品質なデータを生成する。
論文 参考訳(メタデータ) (2023-08-25T01:41:04Z) - RSGPT: A Remote Sensing Vision Language Model and Benchmark [7.279747655485913]
高品質なリモートセンシング画像キャプチャーデータセット(RSICap)を構築する。
このデータセットは、リッチで高品質な情報を備えた2,585の人称注釈付きキャプションからなる。
また、RSIEvalと呼ばれるベンチマーク評価データセットも提供します。
論文 参考訳(メタデータ) (2023-07-28T02:23:35Z) - LVLM-eHub: A Comprehensive Evaluation Benchmark for Large
Vision-Language Models [55.304181390027274]
本稿では,LVLM評価ハブ(LVLM-eHub)の構築により,一般公開された大規模マルチモーダルモデルの包括的評価を行う。
我々のLVLM-eHubは、InstructBLIPやMiniGPT-4などの代表的LVLMから成り、定量的能力評価とオンラインアリーナプラットフォームによって徹底的に評価されている。
この研究は、いくつかの革新的な発見を明らかにしている。まず、インストラクタBLIPのような膨大なドメイン内データを持つ命令調整型LVLMは、多くの既存のタスクを過度にオーバーフィットさせ、オープンワールドのシナリオでは一般化が不十分である。
論文 参考訳(メタデータ) (2023-06-15T16:39:24Z) - LOVM: Language-Only Vision Model Selection [13.857583570058392]
言語のみの視覚モデル選択(Language-Only Vision Model Selection)では,モデル選択と性能予測の両方を実行することが期待される。
次に,35個の事前学習されたVLMと23個のデータセットの地上信頼度評価からなるLOVMベンチマークを導入した。
論文 参考訳(メタデータ) (2023-06-15T06:53:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。