論文の概要: RSHallu: Dual-Mode Hallucination Evaluation for Remote-Sensing Multimodal Large Language Models with Domain-Tailored Mitigation
- arxiv url: http://arxiv.org/abs/2602.10799v1
- Date: Wed, 11 Feb 2026 12:41:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-12 21:44:01.879519
- Title: RSHallu: Dual-Mode Hallucination Evaluation for Remote-Sensing Multimodal Large Language Models with Domain-Tailored Mitigation
- Title(参考訳): RSHallu:Dual-Mode Hallucination Evaluation for Remote-Sensing Multimodal Large Language Models with Domain-Tailored Mitigation
- Authors: Zihui Zhou, Yong Feng, Yanying Chen, Guofan Duan, Zhenxi Song, Mingliang Zhou, Weijia Jia,
- Abstract要約: 我々は、RSの幻覚をRS指向の分類法で定式化し、画像レベルの幻覚を導入し、RS固有の不整合をオブジェクト中心の誤りを超えて捉える。
我々は、幻覚ベンチマークRSHalluEvalを構築し、デュアルモードチェックを可能にし、高精度なクラウド監査と低コストで再現可能なローカルチェックをサポートします。
RS-MLLM全体の緩和は、統一されたプロトコルの下で、幻覚のない率を最大21.63ポイント改善する。
- 参考スコア(独自算出の注目度): 19.14342958954371
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal large language models (MLLMs) are increasingly adopted in remote sensing (RS) and have shown strong performance on tasks such as RS visual grounding (RSVG), RS visual question answering (RSVQA), and multimodal dialogue. However, hallucinations, which are responses inconsistent with the input RS images, severely hinder their deployment in high-stakes scenarios (e.g., emergency management and agricultural monitoring) and remain under-explored in RS. In this work, we present RSHallu, a systematic study with three deliverables: (1) we formalize RS hallucinations with an RS-oriented taxonomy and introduce image-level hallucination to capture RS-specific inconsistencies beyond object-centric errors (e.g., modality, resolution, and scene-level semantics); (2) we build a hallucination benchmark RSHalluEval (2,023 QA pairs) and enable dual-mode checking, supporting high-precision cloud auditing and low-cost reproducible local checking via a compact checker fine-tuned on RSHalluCheck dataset (15,396 QA pairs); and (3) we introduce a domain-tailored dataset RSHalluShield (30k QA pairs) for training-friendly mitigation and further propose training-free plug-and-play strategies, including decoding-time logit correction and RS-aware prompting. Across representative RS-MLLMs, our mitigation improves the hallucination-free rate by up to 21.63 percentage points under a unified protocol, while maintaining competitive performance on downstream RS tasks (RSVQA/RSVG). Code and datasets will be released.
- Abstract(参考訳): マルチモーダル大言語モデル(MLLM)は、リモートセンシング(RS)においてますます採用され、RS視覚グラウンドリング(RSVG)、RS視覚質問応答(RSVQA)、マルチモーダル対話(マルチモーダル対話)といったタスクに強いパフォーマンスを示している。
しかし, 入力されたRS画像と矛盾しない幻覚は, 高リスクシナリオ(緊急管理や農業モニタリングなど)への展開を著しく妨げ, RSでは未探索のままである。
本稿では,RS の幻覚を RS 指向の分類法で形式化し,画像レベルの幻覚を導入し,オブジェクト中心の誤り(例えば,モダリティ,解像度,シーンレベルの意味論)を超えて RS 固有の不整合を捉えること,(2) 幻覚ベンチマーク RSHalluEval (2,023 QA pairs) を構築して,RSHalluCheck データセット (15,396 QA pairs) で微調整されたコンパクトチェッカーによるデュアルモードチェック,低コスト再現性ローカルチェックをサポートすること,(3) ドメインテールデータセット RSHalluCheck データセット (15,396 QA pairs) を用いて,RS の復号化と復号化を行う。
代表的RS-MLLM全体の緩和により、ダウンストリームRSタスク(RSVQA/RSVG)における競争性能を維持しながら、統一プロトコルの下で幻覚フリー率を最大21.63ポイント向上させる。
コードとデータセットがリリースされる。
関連論文リスト
- Co-Training Vision Language Models for Remote Sensing Multi-task Learning [68.15604397741753]
視覚言語モデル(VLM)は、RS画像理解、グラウンド化、超高解像度(UHR)画像推論において有望な結果を得た。
本稿では,RSMTLのための簡易かつ柔軟なVLMベースラインであるRSCoVLMを提案する。
本稿では、RS画像に固有の多様な画像スケールに対処する、統一された動的解像度戦略を提案する。
論文 参考訳(メタデータ) (2025-11-26T10:55:07Z) - Exploring Efficient Open-Vocabulary Segmentation in the Remote Sensing [55.291219073365546]
Open-Vocabulary Remote Sensing Image (OVRSIS)は、OVS(Open-Vocabulary)をリモートセンシング(RS)ドメインに適応させる新しいタスクである。
textbfRSKT-Segは、リモートセンシングに適した新しいオープン語彙セグメンテーションフレームワークである。
RSKT-Segは高いOVSベースラインを+3.8 mIoUと+5.9 mACCで上回り、効率的なアグリゲーションによって2倍高速な推論を実現している。
論文 参考訳(メタデータ) (2025-09-15T15:24:49Z) - A Vision Centric Remote Sensing Benchmark [21.48675282619887]
リモートセンシングタスクにおけるCLIPに基づくMLLMの限界について検討した。
リモートセンシングマルチモーダル視覚パターン(RSMMVP)ベンチマークを導入する。
CLIP-blindペアを識別することで、RSタスクのMLLMを評価するように設計されている。
我々は最先端MLLMの性能を解析し、RS特化表現学習における重要な制限を明らかにした。
論文 参考訳(メタデータ) (2025-03-20T03:03:46Z) - Learning De-Biased Representations for Remote-Sensing Imagery [27.218010145001312]
リモートセンシング(RS)画像は、特別な衛星を収集し、注釈を付けるのが困難である。
データ不足のため、スクラッチから大規模なRSモデルをトレーニングするのは現実的ではない。
提案するdebLoRAは,任意のLoRA変種で動作する汎用的なトレーニング手法である。
論文 参考訳(メタデータ) (2024-10-06T16:47:30Z) - MSRS: Training Multimodal Speech Recognition Models from Scratch with Sparse Mask Optimization [49.00754561435518]
MSRSは、RS3ベンチマークで21.1%と0.9%のWERでVSRとAVSRの競争結果を達成し、トレーニング時間を少なくとも2倍に短縮した。
我々は、他のスパースアプローチを探索し、MSRSだけが、消失する勾配によって影響を受ける重量を暗黙的に隠蔽することで、スクラッチからトレーニングできることを示す。
論文 参考訳(メタデータ) (2024-06-25T15:00:43Z) - Harnessing Massive Satellite Imagery with Efficient Masked Image Modeling [20.479011464156113]
Masked Image Modeling (MIM)は、リモートセンシング(RS)における基礎的な視覚モデル構築に欠かせない方法となっている。
本稿では,大規模RSデータセットの作成とMIMの効率的なアプローチを特徴とする,RSモデルの事前学習パイプラインを提案する。
本研究では,セマンティックにリッチなパッチトークンを動的にエンコードし,再構成する事前学習手法であるSelectiveMAEを提案する。
論文 参考訳(メタデータ) (2024-06-17T15:41:57Z) - VHM: Versatile and Honest Vision Language Model for Remote Sensing Image Analysis [48.06425266787859]
本稿では,リモートセンシング画像解析のためのVersatile and Honest Vision Language Model (VHM) を提案する。
VHMは、リッチコンテンツキャプション(VersaD)を備えた大規模リモートセンシング画像テキストデータセットと、事実と偽造的質問(HnstD)の両方からなる正直な命令データセット上に構築されている。
実験では,VHMはシーン分類,視覚的質問応答,視覚的接地といった共通タスクにおいて,様々な視覚言語モデルよりも優れていた。
論文 参考訳(メタデータ) (2024-03-29T14:50:43Z) - Rolling Shutter Inversion: Bring Rolling Shutter Images to High
Framerate Global Shutter Video [111.08121952640766]
本稿では,RS時相超解問題に対する新しいディープラーニングに基づく解法を提案する。
RSイメージングプロセスの多視点幾何関係を利用して,高フレームレートGS生成を実現する。
提案手法は,高精細で高品質なGS画像系列を生成でき,最先端の手法よりも優れている。
論文 参考訳(メタデータ) (2022-10-06T16:47:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。