論文の概要: Negative Object Presence Evaluation (NOPE) to Measure Object
Hallucination in Vision-Language Models
- arxiv url: http://arxiv.org/abs/2310.05338v1
- Date: Mon, 9 Oct 2023 01:52:27 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-12 08:20:55.797194
- Title: Negative Object Presence Evaluation (NOPE) to Measure Object
Hallucination in Vision-Language Models
- Title(参考訳): 視覚言語モデルにおける物体幻覚測定のための否定的物体存在評価(nope)
- Authors: Holy Lovenia, Wenliang Dai, Samuel Cahyawijaya, Ziwei Ji, Pascale Fung
- Abstract要約: NOPE(Negative Object Presence Evaluation)は、視覚言語(VL)モデルにおける物体幻覚を評価するために設計された新しいベンチマークである。
視覚的問題における物体の非存在を識別するために,10種類の最先端VLモデルの性能を広範囲に検討する。
- 参考スコア(独自算出の注目度): 72.74157242401981
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Object hallucination poses a significant challenge in vision-language (VL)
models, often leading to the generation of nonsensical or unfaithful responses
with non-existent objects. However, the absence of a general measurement for
evaluating object hallucination in VL models has hindered our understanding and
ability to mitigate this issue. In this work, we present NOPE (Negative Object
Presence Evaluation), a novel benchmark designed to assess object hallucination
in VL models through visual question answering (VQA). We propose a
cost-effective and scalable approach utilizing large language models to
generate 29.5k synthetic negative pronoun (NegP) data of high quality for NOPE.
We extensively investigate the performance of 10 state-of-the-art VL models in
discerning the non-existence of objects in visual questions, where the ground
truth answers are denoted as NegP (e.g., "none"). Additionally, we evaluate
their standard performance on visual questions on 9 other VQA datasets. Through
our experiments, we demonstrate that no VL model is immune to the vulnerability
of object hallucination, as all models achieve accuracy below 10\% on NegP.
Furthermore, we uncover that lexically diverse visual questions, question types
with large scopes, and scene-relevant objects capitalize the risk of object
hallucination in VL models.
- Abstract(参考訳): 物体幻覚は視覚言語(VL)モデルにおいて重要な課題となり、しばしば存在しない物体との非感覚的あるいは不誠実な反応を生み出す。
しかしながら、VLモデルにおける物体幻覚評価のための一般的な測定方法がないため、この問題を緩和する理解と能力が妨げられている。
本研究では,視覚的質問応答(VQA)を用いて,VLモデルの物体幻覚を評価するための新しいベンチマークであるNOPE(Negative Object Presence Evaluation)を提案する。
大規模言語モデルを用いて,高品質のnope合成陰性代名詞(negp)データを生成するためのコスト効率が高くスケーラブルな手法を提案する。
視覚的問題における物体の非存在を識別する10種類の最先端VLモデルの性能について,基礎的真理解をNegP("none"など)と表す。
さらに、他の9つのVQAデータセットの視覚的質問に対して、それらの標準性能を評価する。
実験により、全てのモデルがNegP上で10倍未満の精度を達成するため、VLモデルが物体幻覚の脆弱性に免疫しないことを示した。
さらに、語彙的に多様な視覚的質問、広い範囲の質問タイプ、シーン関連オブジェクトが、VLモデルにおける物体幻覚のリスクを負うことを明らかにする。
関連論文リスト
- Evaluating and Mitigating Number Hallucinations in Large Vision-Language
Models: A Consistency Perspective [64.5433181220184]
本稿では,画像中の物体の量を正確に識別できない場合を例示する,新しい幻覚,特に数幻覚と呼ばれるものに焦点を当てる。
本研究では,このような幻覚を緩和する手段としての一貫性トレーニング手法を提案する。
論文 参考訳(メタデータ) (2024-03-03T02:31:11Z) - WinoViz: Probing Visual Properties of Objects Under Different States [39.92628807477848]
本稿では,異なる文脈や状態下でのオブジェクトの異種視覚特性に関する言語モデルの推論能力を探索する,1,380の例からなるテキストのみの評価データセットを提案する。
我々の課題は、現実的な推論(意図した意味を表現)と視覚的知識推論を必要とするため、難しい。
また、タスクを解決するには、複数のステップの推論チェーンを必要とする、より難しいバージョンのマルチホップデータも提示します。
論文 参考訳(メタデータ) (2024-02-21T07:31:47Z) - Analyzing and Mitigating Object Hallucination in Large Vision-Language
Models [114.86769234616902]
大規模視覚言語モデル(LVLM)は、人間の言語で視覚情報を理解する際、顕著な能力を示した。
LVLMは依然として物体幻覚に悩まされており、画像に実際に存在しない物体を含む記述を生成するという問題である。
そこで我々は,LVLMの幻覚を再現するアルゴリズム LVLM Hallucination Revisor (LURE) を提案する。
論文 参考訳(メタデータ) (2023-10-01T18:10:53Z) - Evaluating Object Hallucination in Large Vision-Language Models [122.40337582958453]
本研究は,大規模視覚言語モデル(LVLM)の物体幻覚に関する最初の体系的研究である。
LVLMは、記述中の対象画像と矛盾しないオブジェクトを生成する傾向がある。
対象の幻覚を評価するために,POPEと呼ばれるポーリングに基づくクエリ手法を提案する。
論文 参考訳(メタデータ) (2023-05-17T16:34:01Z) - Plausible May Not Be Faithful: Probing Object Hallucination in
Vision-Language Pre-training [66.0036211069513]
大規模視覚言語事前学習モデルは、テキストを生成する際に、存在しない視覚オブジェクトを幻覚させる傾向がある。
標準メトリクスでより良いスコアを得るモデルは、オブジェクトをより頻繁に幻覚させる可能性があることを示す。
驚いたことに、パッチベースの機能が最も良く、より小さなパッチ解決は、オブジェクト幻覚の非自明な減少をもたらす。
論文 参考訳(メタデータ) (2022-10-14T10:27:22Z) - VinVL: Revisiting Visual Representations in Vision-Language Models [96.39332942534368]
画像のオブジェクト中心表現を提供するための改良されたオブジェクト検出モデルを開発した。
新しい視覚機能は、すべての視覚言語(VL)タスクのパフォーマンスを大幅に改善する。
新しいオブジェクト検出モデルを公開します。
論文 参考訳(メタデータ) (2021-01-02T23:35:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。