論文の概要: Preemptive Hallucination Reduction: An Input-Level Approach for Multimodal Language Model
- arxiv url: http://arxiv.org/abs/2505.24007v1
- Date: Thu, 29 May 2025 21:09:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-02 19:47:52.666599
- Title: Preemptive Hallucination Reduction: An Input-Level Approach for Multimodal Language Model
- Title(参考訳): プリエンプティブ・ハロシン化の低減:多モーダル言語モデルに対する入力レベルアプローチ
- Authors: Nokimul Hasan Arif, Shadman Rabby, Md Hefzul Hossain Papon, Sabbir Ahmed,
- Abstract要約: 本研究では,最も適切なフィルタリング手法を適応的に選択する,アンサンブルに基づく新しい前処理フレームワークを提案する。
この手法は、自然言語推論(NLI)スコアによって測定された幻覚率を44.3%削減する。
この結果は、幻覚を緩和し、より信頼性の高いマルチモーダルシステムを実現するための適応的前処理技術の重要性を浮き彫りにした。
- 参考スコア(独自算出の注目度): 1.124958340749622
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Visual hallucinations in Large Language Models (LLMs), where the model generates responses that are inconsistent with the visual input, pose a significant challenge to their reliability, particularly in contexts where precise and trustworthy outputs are critical. Current research largely emphasizes post-hoc correction or model-specific fine-tuning strategies, with limited exploration of preprocessing techniques to address hallucination issues at the input stage. This study presents a novel ensemble-based preprocessing framework that adaptively selects the most appropriate filtering approach -- noise reduced (NR), edge enhanced (EE), or unaltered input (org) based on the type of question posed, resulting into reduced hallucination without requiring any modifications to the underlying model architecture or training pipeline. Evaluated on the `HaloQuest' dataset -- a benchmark designed to test multimodal reasoning on visually complex inputs, our method achieves a 44.3% reduction in hallucination rates, as measured by Natural Language Inference (NLI) scores using SelfCheckGPT. This demonstrates that intelligent input conditioning alone can significantly enhance factual grounding in LLM responses. The findings highlight the importance of adaptive preprocessing techniques in mitigating hallucinations, paving the way for more reliable multimodal systems capable of addressing real-world challenges.
- Abstract(参考訳): 大規模言語モデル(LLM)における視覚幻覚(英語版) - モデルが視覚入力と矛盾しない応答を生成する場合、特に正確で信頼性の高い出力が重要となる状況において、その信頼性に重大な課題を生じさせる。
現在の研究は、入力段階で幻覚に対処する前処理技術を限定的に探究することで、ポストホック補正やモデル固有の微調整戦略に重点を置いている。
本研究では,ノイズ低減(NR),エッジ強化(EE),未修正入力(org)といった,最も適切なフィルタリング手法を適応的に選択する新しいアンサンブルベースの前処理フレームワークを提案する。その結果,基礎となるモデルアーキテクチャやトレーニングパイプラインの変更を必要とせず,幻覚の低減を実現している。このベンチマークは,視覚的に複雑な入力に対するマルチモーダル推論をテストするために設計されたもので,自然言語推論(NLI)スコアによる幻覚率の44.3%の低下を達成している。
このことは、知的入力条件だけでLLM応答の事実的グラウンド化を著しく向上させることができることを示している。
この結果は、幻覚を緩和し、現実の課題に対処できる信頼性の高いマルチモーダルシステムを実現するための適応的前処理技術の重要性を強調している。
関連論文リスト
- Multimodal LLM-Guided Semantic Correction in Text-to-Image Diffusion [52.315729095824906]
MLLM Semantic-Corrected Ping-Pong-Ahead Diffusion (PPAD) は,マルチモーダル大言語モデル(MLLM)を推論中の意味的オブザーバとして導入する新しいフレームワークである。
中間世代をリアルタイムに分析し、潜在意味的不整合を識別し、フィードバックを制御可能な信号に変換し、残りの認知ステップを積極的に導く。
大規模な実験ではPPADの大幅な改善が示されている。
論文 参考訳(メタデータ) (2025-05-26T14:42:35Z) - Generate, but Verify: Reducing Hallucination in Vision-Language Models with Retrospective Resampling [67.14942827452161]
VLM(Vision-Language Models)は視覚的理解に優れ、視覚幻覚に悩まされることが多い。
本研究では,幻覚を意識したトレーニングとオンザフライの自己検証を統合した統合フレームワークREVERSEを紹介する。
論文 参考訳(メタデータ) (2025-04-17T17:59:22Z) - A Topic-level Self-Correctional Approach to Mitigate Hallucinations in MLLMs [34.71750379630014]
トピックレベルの幻覚を緩和するために,モデル自体をガイドする自己修正的アプローチであるトピックレベルの優先上書き(TPO)を導入する。
以上の結果から,TPOは信頼性の最先端性を達成し,対象幻覚の92%,全体幻覚の38%を著しく低減した。
論文 参考訳(メタデータ) (2024-11-26T09:42:07Z) - A Debate-Driven Experiment on LLM Hallucinations and Accuracy [7.821303946741665]
本研究では,大規模言語モデル(LLM)における幻覚現象について検討する。
GPT-4o-Miniモデルの複数のインスタンスは、TrathfulQAデータセットからの質問によって引き起こされた議論のような相互作用に関与している。
1つのモデルは、もっともらしいが偽の答えを生成するように故意に指示され、他のモデルは真に応答するように要求される。
論文 参考訳(メタデータ) (2024-10-25T11:41:27Z) - Debiasing Multimodal Large Language Models [61.6896704217147]
LVLM(Large Vision-Language Models)は、コンピュータビジョンや自然言語処理において欠かせないツールとなっている。
本研究は,入力画像に先行するLarge Language Models (LLM) の影響を主に受け,生成したコンテンツに有意なバイアスが生じることを示す。
これらのバイアスを是正し、視覚情報に対するモデルの焦点をリダイレクトするために、我々は2つの単純で訓練のない戦略を導入する。
論文 参考訳(メタデータ) (2024-03-08T12:35:07Z) - IBD: Alleviating Hallucinations in Large Vision-Language Models via
Image-Biased Decoding [37.16880672402059]
言語的先行性への過度な依存は幻覚に繋がる重要な要因として認識されている。
本稿では,新しい画像バイアスデコーディング手法を導入することにより,この問題を軽減することを提案する。
提案手法は,従来のLVLMと画像バイアスLVLMの予測を対比することにより,次の確率分布を導出する。
論文 参考訳(メタデータ) (2024-02-28T16:57:22Z) - HyPoradise: An Open Baseline for Generative Speech Recognition with
Large Language Models [81.56455625624041]
ASRの誤り訂正に外部の大規模言語モデル(LLM)を利用する最初のオープンソースベンチマークを導入する。
提案したベンチマークには、334,000組以上のN-best仮説を含む新しいデータセットHyPoradise (HP)が含まれている。
合理的なプロンプトと生成能力を持つLLMは、N-bestリストに欠けているトークンを修正できる。
論文 参考訳(メタデータ) (2023-09-27T14:44:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。