論文の概要: BIMA: Bijective Maximum Likelihood Learning Approach to Hallucination Prediction and Mitigation in Large Vision-Language Models
- arxiv url: http://arxiv.org/abs/2505.24649v1
- Date: Fri, 30 May 2025 14:38:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-02 19:47:53.005474
- Title: BIMA: Bijective Maximum Likelihood Learning Approach to Hallucination Prediction and Mitigation in Large Vision-Language Models
- Title(参考訳): BIMA:大規模視覚言語モデルにおける幻覚予測と緩和への客観的極大学習アプローチ
- Authors: Huu-Thien Tran, Thanh-Dat Truong, Khoa Luu,
- Abstract要約: 本稿では, 正規化フロー理論を用いた幻覚緩和のための, 主観的最大主観的学習手法を提案する。
特に、BIMAは平均F1スコア85.06%をPOPEベンチマークで達成し、CHAIRSとCHAIRIはそれぞれ7.6%、CAIRIは2.6%減少する。
- 参考スコア(独自算出の注目度): 12.257725479880458
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large vision-language models have become widely adopted to advance in various domains. However, developing a trustworthy system with minimal interpretable characteristics of large-scale models presents a significant challenge. One of the most prevalent terms associated with the fallacy functions caused by these systems is hallucination, where the language model generates a response that does not correspond to the visual content. To mitigate this problem, several approaches have been developed, and one prominent direction is to ameliorate the decoding process. In this paper, we propose a new Bijective Maximum Likelihood Learning (BIMA) approach to hallucination mitigation using normalizing flow theories. The proposed BIMA method can efficiently mitigate the hallucination problem in prevailing vision-language models, resulting in significant improvements. Notably, BIMA achieves the average F1 score of 85.06% on POPE benchmark and remarkably reduce CHAIRS and CHAIRI by 7.6% and 2.6%, respectively. To the best of our knowledge, this is one of the first studies that contemplates the bijection means to reduce hallucination induced by large vision-language models.
- Abstract(参考訳): 大きな視覚言語モデルは、様々な領域で進歩するために広く採用されている。
しかし、大規模モデルの最小の解釈可能な特性を持つ信頼性の高いシステムを開発することは、大きな課題である。
これらのシステムによって引き起こされる誤用関数に関連する最も一般的な用語の1つは幻覚であり、そこでは言語モデルが視覚的内容に対応しない応答を生成する。
この問題を軽減するために、いくつかのアプローチが開発され、デコードプロセスを改善することが大きな方向となっている。
本稿では,正規化フロー理論を用いた幻覚緩和のためのBijective Maximum Likelihood Learning (BIMA)アプローチを提案する。
提案手法は,視覚言語モデルにおける幻覚の問題を効果的に軽減し,大幅な改善をもたらす。
特に、BIMAは平均F1スコア85.06%をPOPEベンチマークで達成し、CHAIRSとCHAIRIはそれぞれ7.6%、CAIRIは2.6%減少する。
私たちの知る限りでは、大規模な視覚言語モデルによって引き起こされる幻覚を減らすことを目的としている最初の研究の1つである。
関連論文リスト
- Mitigating Low-Level Visual Hallucinations Requires Self-Awareness: Database, Model and Training Strategy [53.07517728420411]
低レベル視覚タスクにおける幻覚に焦点を当てた最初のインストラクションデータベースを提案する。
低レベル視覚タスクにおけるモデルの知覚と理解能力を向上させるための自己認識障害除去(SAFEQA)モデルを提案する。
低レベルの視覚課題に対する総合的な実験を行い、提案手法がこれらの課題におけるモデルの自己認識を著しく向上し、幻覚を低減させることを示す。
論文 参考訳(メタデータ) (2025-03-26T16:05:01Z) - PerturboLLaVA: Reducing Multimodal Hallucinations with Perturbative Visual Training [56.172959986096316]
本稿では,マルチモーダル大規模言語モデル(MLLM)における幻覚の課題を解決することを目的とする。
HalFscoreは言語グラフ上に構築された新しい計量であり、密度の高いキャプションの精度と完全性の両方を粒度レベルで評価するように設計されている。
PerturboLLaVAは、生成されたキャプションの忠実度を著しく改善し、マルチモーダル幻覚に対する既存のアプローチよりも優れている。
論文 参考訳(メタデータ) (2025-03-09T07:07:03Z) - Fine-grained Hallucination Detection and Editing for Language Models [109.56911670376932]
大規模言語モデル(LM)は、しばしば幻覚と呼ばれる事実的誤りを引き起こす傾向にある。
我々は,幻覚の包括的分類を導入し,幻覚が多様な形態で現れることを議論する。
本稿では, 幻覚自動検出のための新しいタスクを提案し, 新たな評価ベンチマークであるFavaBenchを構築した。
論文 参考訳(メタデータ) (2024-01-12T19:02:48Z) - Beyond Hallucinations: Enhancing LVLMs through Hallucination-Aware
Direct Preference Optimization [45.53216822981202]
本稿では,Halucination-Aware Direct Preference Optimization (HA-DPO)を提案する。
3つの主要なマルチモーダルモデルに適用すると、HA-DPOは幻覚の問題を著しく減らし、モデルの一般化能力を増幅した。
論文 参考訳(メタデータ) (2023-11-28T14:54:37Z) - Fine-tuning Language Models for Factuality [96.5203774943198]
大規模な事前訓練型言語モデル(LLM)は、しばしば伝統的な検索エンジンの代替として、広く使われるようになった。
しかし、言語モデルは説得力のあるが事実的に不正確な主張をしがちである(しばしば「幻覚」と呼ばれる)。
本研究では,人間のラベル付けなしに,より現実的な言語モデルを微調整する。
論文 参考訳(メタデータ) (2023-11-14T18:59:15Z) - Zero-Resource Hallucination Prevention for Large Language Models [45.4155729393135]
ハロシン化(Hallucination)とは、大規模言語モデル(LLM)が事実的に不正確な情報を生成する事例を指す。
本稿では,SELF-FAMILIARITYと呼ばれる,入力命令に含まれる概念に対するモデルの親しみ度を評価する新しい自己評価手法を提案する。
4つの異なる大言語モデルでSELF-FAMILIARITYを検証し、既存の手法と比較して一貫して優れた性能を示す。
論文 参考訳(メタデータ) (2023-09-06T01:57:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。