Fugu-MT 論文翻訳(概要): H2RSVLM: Towards Helpful and Honest Remote Sensing Large Vision Language Model

論文の概要: H2RSVLM: Towards Helpful and Honest Remote Sensing Large Vision Language Model

arxiv url: http://arxiv.org/abs/2403.20213v1
Date: Fri, 29 Mar 2024 14:50:43 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-01 15:24:49.805978
Title: H2RSVLM: Towards Helpful and Honest Remote Sensing Large Vision Language Model
Title（参考訳）: H2RSVLM:大規模視覚言語モデルの構築に向けて
Authors: Chao Pang, Jiang Wu, Jiayu Li, Yi Liu, Jiaxing Sun, Weijia Li, Xingxing Weng, Shuai Wang, Litong Feng, Gui-Song Xia, Conghui He,
Abstract要約: 既存のリモートセンシング特定の視覚言語モデル(RSVLM)は、改善の可能性がある。 HqDC-1.4Mは,大容量の高品質かつ詳細なRS画像のキャプションであり,14万枚の画像キャプションペアを含む。 RSVLMの自己認識能力向上を目的とした最初のデータセットであるRSSAを開発した。これらのデータセットに基づいて,H2RSVLM,Helpful and Honest Remote Sensing Vision Language Modelを提案する。
参考スコア（独自算出の注目度）: 48.06425266787859
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The generic large Vision-Language Models (VLMs) is rapidly developing, but still perform poorly in Remote Sensing (RS) domain, which is due to the unique and specialized nature of RS imagery and the comparatively limited spatial perception of current VLMs. Existing Remote Sensing specific Vision Language Models (RSVLMs) still have considerable potential for improvement, primarily owing to the lack of large-scale, high-quality RS vision-language datasets. We constructed HqDC-1.4M, the large scale High quality and Detailed Captions for RS images, containing 1.4 million image-caption pairs, which not only enhance the RSVLM's understanding of RS images but also significantly improve the model's spatial perception abilities, such as localization and counting, thereby increasing the helpfulness of the RSVLM. Moreover, to address the inevitable "hallucination" problem in RSVLM, we developed RSSA, the first dataset aimed at enhancing the Self-Awareness capability of RSVLMs. By incorporating a variety of unanswerable questions into typical RS visual question-answering tasks, RSSA effectively improves the truthfulness and reduces the hallucinations of the model's outputs, thereby enhancing the honesty of the RSVLM. Based on these datasets, we proposed the H2RSVLM, the Helpful and Honest Remote Sensing Vision Language Model. H2RSVLM has achieved outstanding performance on multiple RS public datasets and is capable of recognizing and refusing to answer the unanswerable questions, effectively mitigating the incorrect generations. We will release the code, data and model weights at https://github.com/opendatalab/H2RSVLM .
Abstract（参考訳）: 汎用的な大型ビジョン・ランゲージモデル(VLM)は急速に発展しているが、RS画像の特異性と特殊性、現在のVLMの空間的知覚の相対的制限により、リモートセンシング(RS)領域ではまだ性能が劣っている。既存のリモートセンシング特定ビジョン言語モデル(RSVLM)は、主に大規模で高品質なRSビジョン言語データセットが欠如しているため、改善の可能性がある。 RSVLMのRS画像に対する理解を深めるだけでなく、局所化やカウントなどの空間認識能力を大幅に向上させ、RSVLMの有用性を高めた。さらに, RSVLMにおける「ハロシン化」問題に対処するため, RSVLMの自己認識能力向上を目的とした最初のデータセットであるRSSAを開発した。 RSSAは、様々な未解決質問を一般的なRS視覚的質問応答タスクに組み込むことで、真理性を効果的に改善し、モデル出力の幻覚を低減し、RSVLMの誠実さを高める。これらのデータセットに基づいて,H2RSVLM,Helpful and Honest Remote Sensing Vision Language Modelを提案する。 H2RSVLMは、複数のRSパブリックデータセットで優れたパフォーマンスを達成し、解決不可能な質問を認識し、拒否し、誤った世代を効果的に軽減することができる。コード、データ、モデルの重み付けはhttps://github.com/opendatalab/H2RSVLM で公開します。

関連論文リスト

Bring Remote Sensing Object Detect Into Nature Language Model: Using SFT Method [10.748210940033484]
大規模言語モデル(LLM)と視覚言語モデル(VLM)は大きな成功を収めた。リモートセンシング画像と従来の光学画像とは大きく異なるため、これらのモデルは理解の難しさに直面している。リモートセンシング画像におけるオブジェクト検出へのVLMの適用について検討する。
論文参考訳（メタデータ） (2025-03-11T08:02:54Z)
Learning to Ground VLMs without Forgetting [54.033346088090674]
我々は、既存の画像や言語理解スキルを忘れずに、事前訓練されたビジュアル言語モデルに視覚的接地能力を持たせるフレームワークであるLynXを紹介する。モデルを効果的に訓練するために、私たちはSCouTと呼ばれる高品質な合成データセットを生成します。我々はLynXを複数のオブジェクト検出および視覚的グラウンド化データセット上で評価し、オブジェクト検出、ゼロショットローカライゼーション、グラウンドド推論において強い性能を示す。
論文参考訳（メタデータ） (2024-10-14T13:35:47Z)
VRSBench: A Versatile Vision-Language Benchmark Dataset for Remote Sensing Image Understanding [41.74095171149082]
本稿では、VRSBenchと呼ばれるリモートセンシング画像理解のためのVersatile視覚言語ベンチマークを提案する。このベンチマークは29,614枚の画像と29,614個の人間認証された詳細なキャプション、52,472個のオブジェクト参照、123,221個の質問応答ペアで構成されている。さらに,画像キャプション,視覚的グラウンド,視覚的質問応答という3つの視覚言語課題に対して,このベンチマークの最先端モデルについて検討した。
論文参考訳（メタデータ） (2024-06-18T08:15:21Z)
SkyScript: A Large and Semantically Diverse Vision-Language Dataset for Remote Sensing [14.79627534702196]
我々は、29Kの異なるセマンティックタグを含む260万の画像テキストペアからなる、リモートセンシング画像のための視覚言語データセットを構築した。このデータセット上で連続的な事前学習を行うことで、ゼロショットシーン分類において平均精度が6.2%のベースラインモデルを超えるVLMが得られる。また、オブジェクト属性の細粒度分類とクロスモーダル検索のためのゼロショット転送の能力を示す。
論文参考訳（メタデータ） (2023-12-20T09:19:48Z)
Remote Sensing Vision-Language Foundation Models without Annotations via Ground Remote Alignment [61.769441954135246]
テキストアノテーションを使わずにリモートセンシング画像の視覚言語モデルを訓練する手法を提案する。私たちの重要な洞察は、リモートセンシング画像と言語を接続するための仲介手段として、地上で撮影されたコロケーションのインターネットイメージを使用することです。
論文参考訳（メタデータ） (2023-12-12T03:39:07Z)
GeoChat: Grounded Large Vision-Language Model for Remote Sensing [65.78360056991247]
提案するGeoChatは,高解像度RS画像を用いたマルチタスク対話機能を備えた,世界初の汎用リモートセンシング大型ビジョンランゲージモデル(VLM)である。具体的には、GeoChatは画像レベルのクエリに応答できるが、リージョン固有の対話を保持するためにリージョン入力を受け付けている。 GeoChatは、画像や領域キャプション、視覚的質問応答、シーン分類、視覚的に接地された会話、参照検出など、様々なRSタスクに対して、堅牢なゼロショット性能を示す。
論文参考訳（メタデータ） (2023-11-24T18:59:10Z)
CtxMIM: Context-Enhanced Masked Image Modeling for Remote Sensing Image Understanding [38.53988682814626]
リモートセンシング画像理解のためのコンテキスト強化マスク画像モデリング手法(CtxMIM)を提案する。 CtxMIMは、オリジナルのイメージパッチを再構成テンプレートとして定式化し、2セットのイメージパッチを操作するために、Siameseフレームワークを使用している。シンプルでエレガントな設計により、CtxMIMは、大規模データセットでオブジェクトレベルまたはピクセルレベルの機能を学ぶための事前トレーニングモデルを奨励する。
論文参考訳（メタデータ） (2023-09-28T18:04:43Z)
Towards Grounded Visual Spatial Reasoning in Multi-Modal Vision Language Models [3.86170450233149]
画像とテキストとのマッチングを訓練した大規模視覚言語モデル(VLM)では,空間的関係の微妙な理解が欠如していることが示されている。本稿では,空間的節の認識とランク付けのための,よりきめ細かな構成的アプローチを提案する。
論文参考訳（メタデータ） (2023-08-18T18:58:54Z)
Contextual Object Detection with Multimodal Large Language Models [66.15566719178327]
本稿では,コンテキストオブジェクト検出の新たな研究課題について紹介する。言語クローゼテスト,視覚キャプション,質問応答の3つの代表的なシナリオについて検討した。本稿では、視覚的コンテキストのエンドツーエンドの微分可能なモデリングが可能な統合マルチモーダルモデルContextDETを提案する。
論文参考訳（メタデータ） (2023-05-29T17:50:33Z)
Understanding ME? Multimodal Evaluation for Fine-grained Visual Commonsense [98.70218717851665]
モデルが、限られた評価データ資源のために、視覚的シーンと基礎となるコモンセンス知識を本当に理解しているかどうかは不明だ。本稿では,視覚シーン,テキスト,関連知識に対するモデルの理解をテストするために,質問応答ペアを自動的に生成するマルチモーダル評価(ME)パイプラインを提案する。次に、MEデータによるトレーニングが標準VCR評価におけるモデルの性能を高めることを示すために、さらに一歩踏み出します。
論文参考訳（メタデータ） (2022-11-10T21:44:33Z)
RSVQA: Visual Question Answering for Remote Sensing Data [6.473307489370171]
本稿では,リモートセンシングデータ(RSVQA)における視覚的質問応答の課題を紹介する。自然言語で定式化された質問を使って画像と対話する。データセットは(教師付きメソッドを使用して)トレーニングや、RSVQAタスクを解決するためのモデル評価に使用することができる。
論文参考訳（メタデータ） (2020-03-16T17:09:31Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。