論文の概要: Evaluating and Mitigating Number Hallucinations in Large Vision-Language
Models: A Consistency Perspective
- arxiv url: http://arxiv.org/abs/2403.01373v1
- Date: Sun, 3 Mar 2024 02:31:11 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-06 21:45:25.228508
- Title: Evaluating and Mitigating Number Hallucinations in Large Vision-Language
Models: A Consistency Perspective
- Title(参考訳): 大規模視覚言語モデルにおける数幻覚の評価と緩和:一貫性の観点から
- Authors: Huixuan Zhang, Junzhe Zhang, Xiaojun Wan
- Abstract要約: 本稿では,画像中の物体の量を正確に識別できない場合を例示する,新しい幻覚,特に数幻覚と呼ばれるものに焦点を当てる。
本研究では,このような幻覚を緩和する手段としての一貫性トレーニング手法を提案する。
- 参考スコア(独自算出の注目度): 64.5433181220184
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large vision language models have demonstrated remarkable efficacy in
addressing challenges related to both textual and visual content. Nevertheless,
these models are susceptible to various hallucinations. In this paper, we focus
on a new form of hallucination, specifically termed as number hallucination,
which denotes instances where models fail to accurately identify the quantity
of objects in an image. We establish a dataset and employ evaluation metrics to
assess number hallucination, revealing a pronounced prevalence of this issue
across mainstream large vision language models (LVLMs). Additionally, we delve
into a thorough analysis of number hallucination, examining inner and outer
inconsistency problem from two related perspectives. We assert that this
inconsistency is one cause of number hallucination and propose a consistency
training method as a means to alleviate such hallucination, which achieves an
average improvement of 8\% compared with direct finetuning method.
- Abstract(参考訳): 大きな視覚言語モデルは、テキストコンテンツと視覚コンテンツの両方に関連する課題に対処する上で、顕著な効果を示した。
しかしながら、これらのモデルは様々な幻覚に影響を受けやすい。
本稿では,モデルが画像中の物体の量を正確に識別できない場合を例として,特に数幻覚と呼ぶ新しい形態の幻覚に焦点を当てる。
我々は,データセットを確立し,評価指標を用いて数幻覚を評価することにより,この問題が主流の大規模視覚言語モデル(lvlms)において顕著に広まることを明らかにする。
さらに,数幻覚の徹底的な分析を行い,二つの関連点から内外矛盾問題を考察した。
この矛盾は幻覚の1つの原因であると主張し、そのような幻覚を和らげる手段として一貫性の訓練法を提案し、直接微調整法と比較して平均8\%の改善を達成している。
関連論文リスト
- H-POPE: Hierarchical Polling-based Probing Evaluation of Hallucinations in Large Vision-Language Models [0.0]
対象物の存在と属性の幻覚を評価する粗粒度ベンチマークであるH-POPEを提案する。
評価の結果,モデルが物体の存在に幻覚を与える傾向がみられ,さらに微粒な属性が生じる傾向が示唆された。
論文 参考訳(メタデータ) (2024-11-06T17:55:37Z) - Investigating and Mitigating Object Hallucinations in Pretrained Vision-Language (CLIP) Models [22.42712853647949]
本稿では,CLIPモデル内での物体幻覚問題について詳細に検討する。
孤立しても、CLIPモデルは対象の幻覚に傾向があり、幻覚問題は単に視覚と言語モダリティの相互作用によるものではないことを示唆する。
拡張モデルは視覚エンコーダとして利用でき、LVLMにおける物体幻覚の問題を効果的に緩和できることを示す。
論文 参考訳(メタデータ) (2024-10-04T06:24:49Z) - Knowledge Overshadowing Causes Amalgamated Hallucination in Large Language Models [65.32990889402927]
「我々はこの現象を知識の誇張として造る。」
その結果, 幻覚率の増大は, 不均衡比と支配的条件記述の長さに左右されることがわかった。
本稿では,その発生前に幻覚をキャッチするための信号として,オーバーシェーディング条件を用いることを提案する。
論文 参考訳(メタデータ) (2024-07-10T20:37:42Z) - VideoHallucer: Evaluating Intrinsic and Extrinsic Hallucinations in Large Video-Language Models [59.05674402770661]
本稿では,大規模ビデオ言語モデル(LVLM)における幻覚検出のための最初の総合的ベンチマークであるVideoHallucerを紹介する。
VideoHallucerは幻覚を2つの主なタイプに分類する。
論文 参考訳(メタデータ) (2024-06-24T06:21:59Z) - VALOR-EVAL: Holistic Coverage and Faithfulness Evaluation of Large Vision-Language Models [57.43276586087863]
LVLM(Large Vision-Language Models)は幻覚に悩まされ、このモデルでは可聴音を発生させるが、実際には誤出力を発生させる。
既存のベンチマークはスコープに限られており、主にオブジェクト幻覚に焦点を当てている。
対象,属性,関係を多次元のベンチマークで表現し,連想バイアスに基づいて画像を選択する。
論文 参考訳(メタデータ) (2024-04-22T04:49:22Z) - Hallucination Augmented Contrastive Learning for Multimodal Large
Language Model [53.65682783591723]
マルチモーダル大規模言語モデル(MLLM)は、自然言語と視覚情報を効率的に統合し、マルチモーダルタスクを処理できることが示されている。
しかし、MLLMは幻覚の基本的な限界に直面しており、誤った情報や偽情報を生成する傾向がある。
本稿では,MLLMにおける幻覚を表現学習の新たな視点から論じる。
論文 参考訳(メタデータ) (2023-12-12T04:05:15Z) - Detecting and Preventing Hallucinations in Large Vision Language Models [4.7264116948935975]
M-HalDetectは、詳細な画像記述のための最初のマルチモーダル幻覚検出データセットである。
InstructBLIPから細粒度マルチモーダル報酬モデルを訓練し,その有効性を評価する。
LLaVAとmPLUG-OWLの幻覚をそれぞれ15%と57%低減する。
論文 参考訳(メタデータ) (2023-08-11T21:35:20Z) - Plausible May Not Be Faithful: Probing Object Hallucination in
Vision-Language Pre-training [66.0036211069513]
大規模視覚言語事前学習モデルは、テキストを生成する際に、存在しない視覚オブジェクトを幻覚させる傾向がある。
標準メトリクスでより良いスコアを得るモデルは、オブジェクトをより頻繁に幻覚させる可能性があることを示す。
驚いたことに、パッチベースの機能が最も良く、より小さなパッチ解決は、オブジェクト幻覚の非自明な減少をもたらす。
論文 参考訳(メタデータ) (2022-10-14T10:27:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。