論文の概要: H2RSVLM: Towards Helpful and Honest Remote Sensing Large Vision Language Model
- arxiv url: http://arxiv.org/abs/2403.20213v1
- Date: Fri, 29 Mar 2024 14:50:43 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-01 15:24:49.805978
- Title: H2RSVLM: Towards Helpful and Honest Remote Sensing Large Vision Language Model
- Title(参考訳): H2RSVLM:大規模視覚言語モデルの構築に向けて
- Authors: Chao Pang, Jiang Wu, Jiayu Li, Yi Liu, Jiaxing Sun, Weijia Li, Xingxing Weng, Shuai Wang, Litong Feng, Gui-Song Xia, Conghui He,
- Abstract要約: 既存のリモートセンシング 特定の視覚言語モデル(RSVLM)は、改善の可能性がある。
HqDC-1.4Mは,大容量の高品質かつ詳細なRS画像のキャプションであり,14万枚の画像キャプションペアを含む。
RSVLMの自己認識能力向上を目的とした最初のデータセットであるRSSAを開発した。
これらのデータセットに基づいて,H2RSVLM,Helpful and Honest Remote Sensing Vision Language Modelを提案する。
- 参考スコア(独自算出の注目度): 48.06425266787859
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The generic large Vision-Language Models (VLMs) is rapidly developing, but still perform poorly in Remote Sensing (RS) domain, which is due to the unique and specialized nature of RS imagery and the comparatively limited spatial perception of current VLMs. Existing Remote Sensing specific Vision Language Models (RSVLMs) still have considerable potential for improvement, primarily owing to the lack of large-scale, high-quality RS vision-language datasets. We constructed HqDC-1.4M, the large scale High quality and Detailed Captions for RS images, containing 1.4 million image-caption pairs, which not only enhance the RSVLM's understanding of RS images but also significantly improve the model's spatial perception abilities, such as localization and counting, thereby increasing the helpfulness of the RSVLM. Moreover, to address the inevitable "hallucination" problem in RSVLM, we developed RSSA, the first dataset aimed at enhancing the Self-Awareness capability of RSVLMs. By incorporating a variety of unanswerable questions into typical RS visual question-answering tasks, RSSA effectively improves the truthfulness and reduces the hallucinations of the model's outputs, thereby enhancing the honesty of the RSVLM. Based on these datasets, we proposed the H2RSVLM, the Helpful and Honest Remote Sensing Vision Language Model. H2RSVLM has achieved outstanding performance on multiple RS public datasets and is capable of recognizing and refusing to answer the unanswerable questions, effectively mitigating the incorrect generations. We will release the code, data and model weights at https://github.com/opendatalab/H2RSVLM .
- Abstract(参考訳): 汎用的な大型ビジョン・ランゲージモデル(VLM)は急速に発展しているが、RS画像の特異性と特殊性、現在のVLMの空間的知覚の相対的制限により、リモートセンシング(RS)領域ではまだ性能が劣っている。
既存のリモートセンシング特定ビジョン言語モデル(RSVLM)は、主に大規模で高品質なRSビジョン言語データセットが欠如しているため、改善の可能性がある。
RSVLMのRS画像に対する理解を深めるだけでなく、局所化やカウントなどの空間認識能力を大幅に向上させ、RSVLMの有用性を高めた。
さらに, RSVLMにおける「ハロシン化」問題に対処するため, RSVLMの自己認識能力向上を目的とした最初のデータセットであるRSSAを開発した。
RSSAは、様々な未解決質問を一般的なRS視覚的質問応答タスクに組み込むことで、真理性を効果的に改善し、モデル出力の幻覚を低減し、RSVLMの誠実さを高める。
これらのデータセットに基づいて,H2RSVLM,Helpful and Honest Remote Sensing Vision Language Modelを提案する。
H2RSVLMは、複数のRSパブリックデータセットで優れたパフォーマンスを達成し、解決不可能な質問を認識し、拒否し、誤った世代を効果的に軽減することができる。
コード、データ、モデルの重み付けはhttps://github.com/opendatalab/H2RSVLM で公開します。
関連論文リスト
- Frequency-Assisted Mamba for Remote Sensing Image Super-Resolution [49.902047563260496]
我々は、リモートセンシング画像(RSI)の超高解像度化のために、視覚状態空間モデル(Mamba)を統合するための最初の試みを開発した。
より優れたSR再構築を実現するため,FMSRと呼ばれる周波数支援型Mambaフレームワークを考案した。
我々のFMSRは、周波数選択モジュール(FSM)、ビジョン状態空間モジュール(VSSM)、ハイブリッドゲートモジュール(HGM)を備えた多層融合アーキテクチャを備えている。
論文 参考訳(メタデータ) (2024-05-08T11:09:24Z) - Learning to Localize Objects Improves Spatial Reasoning in Visual-LLMs [38.02017186215372]
大きな言語モデル(LLM)を視覚領域タスクに統合し、視覚的なLLM(V-LLM)を実現することにより、視覚言語タスクにおける例外的なパフォーマンスを実現している。
しかし、既存のV-LLMは空間的推論と局所化認識が弱い。
画像空間座標に基づく微調整目標が空間認識をV-LLMに注入する方法について検討する。
論文 参考訳(メタデータ) (2024-04-11T03:09:34Z) - RS-Mamba for Large Remote Sensing Image Dense Prediction [58.12667617617306]
本稿では,大規模なVHRリモートセンシング画像における高密度予測タスクに対するリモートセンシング・マンバ(RSM)を提案する。
RSMは、線形複雑度でリモートセンシング画像のグローバルなコンテキストを捉えるように設計されている。
我々のモデルは、大規模なリモートセンシング画像の変換器ベースモデルよりも効率と精度がよい。
論文 参考訳(メタデータ) (2024-04-03T12:06:01Z) - Chain-of-Spot: Interactive Reasoning Improves Large Vision-Language Models [81.71651422951074]
CoS(Chain-of-Spot)法は,注目領域に着目して特徴抽出を強化する手法である。
この技術により、LVLMは元の画像解像度を変更することなく、より詳細な視覚情報にアクセスすることができる。
実験の結果,LVLMの視覚的内容の理解と推論能力は著しく改善した。
論文 参考訳(メタデータ) (2024-03-19T17:59:52Z) - Finer: Investigating and Enhancing Fine-Grained Visual Concept
Recognition in Large Vision Language Models [68.46457611340097]
詳細な分析では、命令調整されたLVLMはモダリティギャップを示し、同じ概念に対応するテキスト入力と視覚入力の相違を示す。
我々は,LVLMの細粒度視覚理解能力を評価するために,複数の属性中心評価ベンチマークであるFinerを提案し,説明可能性を大幅に改善した。
論文 参考訳(メタデータ) (2024-02-26T05:43:51Z) - LHRS-Bot: Empowering Remote Sensing with VGI-Enhanced Large Multimodal Language Model [10.280417075859141]
本稿では,新しい視覚言語アライメント戦略とカリキュラム学習手法を通じて,RS画像理解に適したMLLMであるLHRS-Botを紹介する。
総合的な実験により、LHRS-BotはRS画像の深い理解と、RS領域内でニュアンス推論を行う能力を示すことが示された。
論文 参考訳(メタデータ) (2024-02-04T15:46:43Z) - Rephrase, Augment, Reason: Visual Grounding of Questions for Vision-Language Models [59.05769810380928]
Rephrase, Augment and Reason (RepARe) は勾配のないフレームワークで、基礎となる視覚言語モデルを用いて画像に関する詳細な情報を抽出する。
その結果、VQAv2では3.85%(絶対)、A-OKVQAでは6.41%、VizWizでは7.94%の増加が見られた。
論文 参考訳(メタデータ) (2023-10-09T16:57:57Z) - RSGPT: A Remote Sensing Vision Language Model and Benchmark [7.279747655485913]
高品質なリモートセンシング画像キャプチャーデータセット(RSICap)を構築する。
このデータセットは、リッチで高品質な情報を備えた2,585の人称注釈付きキャプションからなる。
また、RSIEvalと呼ばれるベンチマーク評価データセットも提供します。
論文 参考訳(メタデータ) (2023-07-28T02:23:35Z) - RS5M and GeoRSCLIP: A Large Scale Vision-Language Dataset and A Large
Vision-Language Model for Remote Sensing [26.71560933421903]
我々は、DVLM(Domain Pre-trained Vision-Language Model)を含む新しいフレームワークを提案する。
リモートセンシング(RS)分野における画像とテキストのペア化データセットであるRS5Mについて述べる。
論文 参考訳(メタデータ) (2023-06-20T05:30:59Z) - Multilingual Augmentation for Robust Visual Question Answering in Remote
Sensing Images [19.99615698375829]
多様な質問テンプレートや単語に対して頑健なRSVQAモデルをトレーニングするための対照的な学習戦略を提案する。
実験の結果,提案手法はRSVQAモデルのロバスト性向上に有効であることが示された。
論文 参考訳(メタデータ) (2023-04-07T21:06:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。