Fugu-MT 論文翻訳(概要): Seeing Clearly without Training: Mitigating Hallucinations in Multimodal LLMs for Remote Sensing

論文の概要: Seeing Clearly without Training: Mitigating Hallucinations in Multimodal LLMs for Remote Sensing

arxiv url: http://arxiv.org/abs/2603.02754v1
Date: Tue, 03 Mar 2026 08:53:20 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-04 21:38:10.719571
Title: Seeing Clearly without Training: Mitigating Hallucinations in Multimodal LLMs for Remote Sensing
Title（参考訳）: トレーニング無しで明らかに見る:リモートセンシングのためのマルチモーダルLLMにおける幻覚の軽減
Authors: Yi Liu, Jing Zhang, Di Wang, Xiaoyu Tian, Haonan Guo, Bo Du,
Abstract要約: マルチモーダル大言語モデル(MLLM)は、リモートセンシング視覚質問応答(RS-VQA)において顕著な幻覚に苦しむ実例と論理的幻覚の詳細な診断のためのプロトコルベースのベンチマークであるRSHBenchを紹介する。本稿では、段階的局所化とテスト時のきめ細かい局所推論を導くために、相対的注意駆動能動推論(RADAR)を提案する。
参考スコア（独自算出の注目度）: 38.87853049845978
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Multimodal large language models (MLLMs) suffer from pronounced hallucinations in remote sensing visual question-answering (RS-VQA), primarily caused by visual grounding failures in large-scale scenes or misinterpretation of fine-grained small targets. To systematically analyze these issues, we introduce RSHBench, a protocol-based benchmark for fine-grained diagnosis of factual and logical hallucinations. To mitigate grounding-induced factual hallucinations, we further propose Relative Attention-Driven Actively Reasoning (RADAR), a training-free inference method that leverages intrinsic attention in MLLMs to guide progressive localization and fine-grained local reasoning at test time. Extensive experiments across diverse MLLMs demonstrate that RADAR consistently improves RS-VQA performance and reduces both factual and logical hallucinations. Code and data will be publicly available at: https://github.com/MiliLab/RADAR
Abstract（参考訳）: マルチモーダル大言語モデル(MLLM)は、大規模シーンにおける視覚的グラウンドリングの失敗や、きめ細かい小さなターゲットの誤解釈が原因で、リモートセンシングによる視覚的質問応答(RS-VQA)において顕著な幻覚に苦しむ。これらの問題を体系的に解析するために、実例と論理的幻覚の詳細な診断のためのプロトコルベースのベンチマークRSHBenchを紹介する。そこで本研究では,MLLMにおける本質的な注意を生かした学習自由推論手法であるRADAR(Relative Attention-Driven Actively Reasoning)を提案する。多様なMLLMにわたる大規模な実験により、RADARはRS-VQAの性能を一貫して改善し、事実と論理の両方の幻覚を減少させることが示された。コードとデータは、https://github.com/MiliLab/RADARで公開される。

関連論文リスト

Mitigating Hallucinations in Multimodal LLMs via Object-aware Preference Optimization [55.543583937522804]
MLLM(Multimodal Large Language Models)は、様々なタスクに対処するための統一インターフェースとして登場した。多くのベンチマークで最先端の結果が誇示されているにもかかわらず、長年の問題はMLLMが幻覚を起こす傾向にある。本稿では,幻覚の問題をアライメント問題として取り上げ,幻覚を伴わないコンテンツを生成するためのMLLMのステアリングを試みる。
論文参考訳（メタデータ） (2025-08-27T18:02:04Z)
Modality Bias in LVLMs: Analyzing and Mitigating Object Hallucination via Attention Lens [0.0]
大規模視覚言語モデル (LVLM) は、顕著なマルチモーダル理解と推論能力を示した。 LVLMはテキストのプロンプトと大きな言語モデルの内部知識に過度に依存し、視覚的手がかりと矛盾する記述を生成する傾向がある。物体幻覚を緩和するためのトレーニング不要な手法を提案する。
論文参考訳（メタデータ） (2025-08-04T13:40:59Z)
MIRAGE: Assessing Hallucination in Multimodal Reasoning Chains of MLLM [58.2298313720146]
マルチモーダル幻覚は多源性であり、様々な原因から生じる。既存のベンチマークでは、知覚誘発幻覚と推論誘発幻覚を適切に区別することができない。
論文参考訳（メタデータ） (2025-05-30T05:54:36Z)
The HalluRAG Dataset: Detecting Closed-Domain Hallucinations in RAG Applications Using an LLM's Internal States [0.5573267589690007]
我々は、トレーニングで使われていない情報を含む幻覚に焦点を当て、それは、カットオフ後の情報を確実にするために、正確性を用いて決定する。本研究では,様々な言語モデルの内部状態を用いて,これらの幻覚を文レベルで検出する。以上の結果から,IAVはCEVと同じくらい効果的に幻覚を検知し,解答可能なプロンプトと解答不能なプロンプトは別個の分類器としてコード化されていることが明らかとなった。
論文参考訳（メタデータ） (2024-12-22T15:08:24Z)
Combating Multimodal LLM Hallucination via Bottom-Up Holistic Reasoning [151.4060202671114]
マルチモーダル大規模言語モデル(MLLM)は、視覚言語タスクを前進させる前例のない能力を示した。本稿では,MLLMにおける幻覚に対処するためのボトムアップ推論フレームワークを提案する。本フレームワークは、認識レベル情報と認知レベルコモンセンス知識を検証・統合することにより、視覚とテキストの両方の入力における潜在的な問題に体系的に対処する。
論文参考訳（メタデータ） (2024-12-15T09:10:46Z)
Hallucination Detection: Robustly Discerning Reliable Answers in Large Language Models [70.19081534515371]
大規模言語モデル(LLM)は様々な自然言語処理タスクで広く採用されている。それらは、入力源から逸脱する不信または矛盾したコンテンツを生成し、深刻な結果をもたらす。本稿では,LLMの生成した回答の幻覚を効果的に検出するために,RelDという頑健な識別器を提案する。
論文参考訳（メタデータ） (2024-07-04T18:47:42Z)
HalluciDoctor: Mitigating Hallucinatory Toxicity in Visual Instruction Data [102.56792377624927]
機械生成データに固有の幻覚は未発見のままである。本稿では,クロスチェックパラダイムに基づく新しい幻覚検出・除去フレームワークであるHaluciDoctorを提案する。 LLaVAに比べて44.6%の幻覚を緩和し,競争性能を維持した。
論文参考訳（メタデータ） (2023-11-22T04:52:58Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。