論文の概要: BEAF: Observing BEfore-AFter Changes to Evaluate Hallucination in Vision-language Models
- arxiv url: http://arxiv.org/abs/2407.13442v1
- Date: Thu, 18 Jul 2024 12:11:12 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-19 15:30:45.980510
- Title: BEAF: Observing BEfore-AFter Changes to Evaluate Hallucination in Vision-language Models
- Title(参考訳): BEAF:視覚言語モデルにおける幻覚評価のための時間的変化の観察
- Authors: Moon Ye-Bin, Nam Hyeon-Woo, Wonseok Choi, Tae-Hyun Oh,
- Abstract要約: 視覚言語モデル(VLM)は、視覚エンコーダと大型言語モデル(LLM)を組み合わせて世界を認識する。
近年の研究では、VLMは幻覚に弱いことが示されている。
我々は、True Understanding (TU)、IGnorance (IG)、StuBbornness (SB)、InDecision (ID)といった新しいメトリクスを紹介します。
- 参考スコア(独自算出の注目度): 20.697019266074747
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision language models (VLMs) perceive the world through a combination of a visual encoder and a large language model (LLM). The visual encoder, pre-trained on large-scale vision-text datasets, provides zero-shot generalization to visual data, and the LLM endows its high reasoning ability to VLMs. It leads VLMs to achieve high performance on wide benchmarks without fine-tuning, exhibiting zero or few-shot capability. However, recent studies show that VLMs are vulnerable to hallucination. This undesirable behavior degrades reliability and credibility, thereby making users unable to fully trust the output from VLMs. To enhance trustworthiness and better tackle the hallucination of VLMs, we curate a new evaluation dataset, called the BEfore-AFter hallucination dataset (BEAF), and introduce new metrics: True Understanding (TU), IGnorance (IG), StuBbornness (SB), and InDecision (ID). Unlike prior works that focus only on constructing questions and answers, the key idea of our benchmark is to manipulate visual scene information by image editing models and to design the metrics based on scene changes. This allows us to clearly assess whether VLMs correctly understand a given scene by observing the ability to perceive changes. We also visualize image-wise object relationship by virtue of our two-axis view: vision and text. Upon evaluating VLMs with our dataset, we observed that our metrics reveal different aspects of VLM hallucination that have not been reported before. Project page: \url{https://beafbench.github.io/}
- Abstract(参考訳): 視覚言語モデル(VLM)は、視覚エンコーダと大型言語モデル(LLM)を組み合わせて世界を認識する。
視覚エンコーダは、大規模な視覚テキストデータセットに基づいて事前訓練されており、視覚データに対するゼロショットの一般化を提供し、LLMはその高い推論能力をVLMに与えている。
これにより、VLMは微調整をせず、ゼロまたは少数ショットの能力を示すことなく、広範囲のベンチマークで高いパフォーマンスを達成することができる。
しかし、最近の研究では、VLMは幻覚に弱いことが示されている。
この望ましくない振る舞いは信頼性と信頼性を低下させ、ユーザがVLMからの出力を完全に信頼できないようにする。
信頼性を高め,VLMの幻覚への取り組みを改善するため,BEAF(Before-AFter Hallucination dataset)と呼ばれる新たな評価データセットをキュレートし,True Understanding (TU), IG(IG), StuBbornness (SB), InDecision (ID)という新たな指標を導入する。
質問や回答のみに焦点を絞った以前の研究とは異なり、我々のベンチマークのキーとなる考え方は、画像編集モデルによって視覚的なシーン情報を操作し、シーンの変化に基づいてメトリクスを設計することである。
これにより、VLMが特定のシーンを正しく理解しているかどうかを、変化を知覚する能力を観察することで明確に評価することができる。
また、視覚とテキストという2軸の視点により、画像と物体の関係を可視化する。
我々のデータセットを用いてVLMを評価すると、これまでに報告されていないVLM幻覚のさまざまな側面が明らかになる。
プロジェクトページ: \url{https://beafbench.github.io/}
関連論文リスト
- Cambrian-1: A Fully Open, Vision-Centric Exploration of Multimodal LLMs [56.391404083287235]
視覚中心のアプローチで設計したマルチモーダルLLM(MLLM)のファミリーであるCambrian-1を紹介する。
本研究は,様々な視覚表現を評価するためのインタフェースとして,LLMとビジュアルインストラクションチューニングを用いた。
モデルウェイト、コード、サポートツール、データセット、詳細なインストラクションチューニングと評価のレシピを提供しています。
論文 参考訳(メタデータ) (2024-06-24T17:59:42Z) - MetaToken: Detecting Hallucination in Image Descriptions by Meta Classification [1.3654846342364308]
トークンレベルの幻覚を無視可能なコストで検出する軽量バイナリ分類器であるMetaTokenを紹介する。
統計的解析から,これまでの研究で注目されていたLVLMの幻覚の要因を明らかにした。
提案手法の有効性を示す4種類のLVLMについて検討した。
論文 参考訳(メタデータ) (2024-05-29T15:28:42Z) - VALOR-EVAL: Holistic Coverage and Faithfulness Evaluation of Large Vision-Language Models [57.43276586087863]
LVLM(Large Vision-Language Models)は幻覚に悩まされ、このモデルでは可聴音を発生させるが、実際には誤出力を発生させる。
既存のベンチマークはスコープに限られており、主にオブジェクト幻覚に焦点を当てている。
対象,属性,関係を多次元のベンチマークで表現し,連想バイアスに基づいて画像を選択する。
論文 参考訳(メタデータ) (2024-04-22T04:49:22Z) - Prometheus-Vision: Vision-Language Model as a Judge for Fine-Grained
Evaluation [31.062433484245684]
Prometheus-Visionは,評価中のユーザ定義スコアの理解が可能な,オープンソースのVLM評価モデルである。
Prometheus-Visionは、オープンソースのモデルの中で、人間の評価器とGPT-4Vとピアソンの相関が最も高いことを示している。
論文 参考訳(メタデータ) (2024-01-12T14:19:23Z) - VCoder: Versatile Vision Encoders for Multimodal Large Language Models [46.95488342139727]
MLLM(Multimodal Large Language Models)は近年,視覚言語タスクにおける優れたパフォーマンスを実現している。
しかし、ある画像内のエンティティを識別またはカウントするよう促された場合、既存のMLLMシステムは失敗する。
We propose using Versatile vision enCoders (VCoder) as perception eyes for Multimodal LLMs。
論文 参考訳(メタデータ) (2023-12-21T18:49:47Z) - Synthesize, Diagnose, and Optimize: Towards Fine-Grained Vision-Language Understanding [33.33424214458285]
視覚言語モデル(VLM)は、様々な下流タスクで顕著な性能を示した。
しかし、属性やオブジェクト間の関係など、きめ細かい視覚言語概念を理解することは、依然として重要な課題である。
他のすべての面において一貫性を確保しつつ、特定の属性で異なる画像を合成するプログレッシブパイプラインを導入する。
論文 参考訳(メタデータ) (2023-11-30T03:20:37Z) - Mitigating Object Hallucinations in Large Vision-Language Models through
Visual Contrastive Decoding [125.05295513481035]
本稿では,オリジナルおよび歪曲された視覚入力から出力分布を対比する,シンプルでトレーニングのないVisual Contrastive Decoding(VCD)を紹介する。
提案したVCDは, 対象幻覚の2つの重要な原因である, 統計的偏見と単調な先行性に対する信頼度を効果的に低減する。
実験の結果,付加的なトレーニングや外部ツールの使用がなければ,異なるLVLMファミリーにおける物体幻覚の問題を著しく軽減できることがわかった。
論文 参考訳(メタデータ) (2023-11-28T16:26:35Z) - Visual Data-Type Understanding does not emerge from Scaling
Vision-Language Models [31.69213233651326]
視覚データ型識別の新しい課題について紹介する。
39の視覚言語モデル(VLM)の広範囲なゼロショット評価は、微妙なパフォーマンスランドスケープを示している。
論文 参考訳(メタデータ) (2023-10-12T17:59:30Z) - Analyzing and Mitigating Object Hallucination in Large Vision-Language Models [110.12460299261531]
大規模視覚言語モデル(LVLM)は、人間の言語で視覚情報を理解する際、顕著な能力を示した。
LVLMは依然として物体幻覚に悩まされており、画像に実際に存在しない物体を含む記述を生成するという問題である。
そこで我々は,LVLMの幻覚を再現するアルゴリズム LVLM Hallucination Revisor (LURE) を提案する。
論文 参考訳(メタデータ) (2023-10-01T18:10:53Z) - Evaluating Object Hallucination in Large Vision-Language Models [122.40337582958453]
本研究は,大規模視覚言語モデル(LVLM)の物体幻覚に関する最初の体系的研究である。
LVLMは、記述中の対象画像と矛盾しないオブジェクトを生成する傾向がある。
対象の幻覚を評価するために,POPEと呼ばれるポーリングに基づくクエリ手法を提案する。
論文 参考訳(メタデータ) (2023-05-17T16:34:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。