論文の概要: Holistic Analysis of Hallucination in GPT-4V(ision): Bias and
Interference Challenges
- arxiv url: http://arxiv.org/abs/2311.03287v2
- Date: Tue, 7 Nov 2023 02:18:48 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-08 12:26:51.348969
- Title: Holistic Analysis of Hallucination in GPT-4V(ision): Bias and
Interference Challenges
- Title(参考訳): GPT-4Vにおける幻覚の全体的解析 : バイアスと干渉問題
- Authors: Chenhang Cui, Yiyang Zhou, Xinyu Yang, Shirley Wu, Linjun Zhang, James
Zou, Huaxiu Yao
- Abstract要約: このベンチマークは、視覚言語モデルにおける2つの一般的な幻覚、すなわちバイアスと干渉を評価するために設計されている。
偏見はモデルがある種の反応を幻覚させる傾向を示すもので、おそらくはトレーニングデータの不均衡によるものである。
干渉とは、テキストプロンプトのフレーズ化や入力画像の表示方法によって、GPT-4V(ision)の判定が破壊されるシナリオである。
- 参考スコア(独自算出の注目度): 54.42256219010956
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While GPT-4V(ision) impressively models both visual and textual information
simultaneously, it's hallucination behavior has not been systematically
assessed. To bridge this gap, we introduce a new benchmark, namely, the Bias
and Interference Challenges in Visual Language Models (Bingo). This benchmark
is designed to evaluate and shed light on the two common types of
hallucinations in visual language models: bias and interference. Here, bias
refers to the model's tendency to hallucinate certain types of responses,
possibly due to imbalance in its training data. Interference pertains to
scenarios where the judgment of GPT-4V(ision) can be disrupted due to how the
text prompt is phrased or how the input image is presented. We identify a
notable regional bias, whereby GPT-4V(ision) is better at interpreting Western
images or images with English writing compared to images from other countries
or containing text in other languages. Moreover, GPT-4V(ision) is vulnerable to
leading questions and is often confused when interpreting multiple images
together. Popular mitigation approaches, such as self-correction and
chain-of-thought reasoning, are not effective in resolving these challenges. We
also identified similar biases and interference vulnerabilities with LLaVA and
Bard. Our results characterize the hallucination challenges in GPT-4V(ision)
and state-of-the-art visual-language models, and highlight the need for new
solutions. The Bingo benchmark is available at https://github.com/gzcch/Bingo.
- Abstract(参考訳): GPT-4Vは視覚情報とテキスト情報を同時にモデル化するが、幻覚行動は体系的に評価されていない。
このギャップを埋めるため、Visual Language Models (Bingo) の Bias and Interference Challenges という新しいベンチマークを導入する。
このベンチマークは、ビジュアル言語モデルにおける2つの一般的なタイプの幻覚、バイアスと干渉を評価するために設計されている。
ここで、バイアスはモデルが特定のタイプの応答を幻覚する傾向を示しており、おそらくトレーニングデータの不均衡のためにである。
干渉は、テキストプロンプトのフレーズ化や入力画像の表示方法によって、GPT-4V(ision)の判断を妨害することができるシナリオに関するものである。
GPT-4V(ision)は、他国の画像や他の言語にテキストを含むものと比較して、西洋のイメージやイメージを英語で解釈するのに優れている。
さらに、GPT-4V(ision)は主要な問題に対して脆弱であり、複数の画像をまとめて解釈する際にはしばしば混乱する。
自己修正や思考の連鎖といった一般的な緩和アプローチは、これらの課題を解決する上では有効ではない。
また、LLaVAとBardで同様のバイアスや干渉の脆弱性を特定しました。
gpt-4v(ision)と最先端のビジュアル言語モデルの幻覚課題を特徴とし,新しいソリューションの必要性を強調した。
bingoベンチマークはhttps://github.com/gzcch/bingoで入手できる。
関連論文リスト
- A Unified Hallucination Mitigation Framework for Large Vision-Language Models [18.595958586621943]
幻覚緩和のための統一的な枠組みであるデンティストを提示する。
中心となるステップは、まずクエリを分類し、次に分類結果に基づいて幻覚緩和の異なるプロセスを実行することである。
MMbenchでは、画像品質の精度が13.44%/10.2%/15.8%向上した。
論文 参考訳(メタデータ) (2024-09-24T22:36:58Z) - ConTextual: Evaluating Context-Sensitive Text-Rich Visual Reasoning in Large Multimodal Models [92.60282074937305]
テキストリッチな画像に対して文脈に敏感な推論を必要とする人為的な命令を特徴とする新しいデータセットであるConTextualを紹介した。
そこで本研究では,14の基盤モデルの性能評価実験を行い,人為的な性能基準を確立する。
GPT-4Vとヒトのパフォーマンスの30.8%の有意な性能差を観察した。
論文 参考訳(メタデータ) (2024-01-24T09:07:11Z) - Fine-grained Hallucination Detection and Editing for Language Models [109.56911670376932]
大規模言語モデル(LM)は、しばしば幻覚と呼ばれる事実的誤りを引き起こす傾向にある。
我々は,幻覚の包括的分類を導入し,幻覚が多様な形態で現れることを議論する。
本稿では, 幻覚自動検出のための新しいタスクを提案し, 新たな評価ベンチマークであるFavaBenchを構築した。
論文 参考訳(メタデータ) (2024-01-12T19:02:48Z) - Evaluating GPT-4's Vision Capabilities on Brazilian University Admission
Exams [14.801853435122908]
本稿では,文章要素と視覚要素の両方を組み込んだ,入学試験における言語モデルの評価フレームワークを提案する。
ブラジルの大学が採用している入学試験であるExame Nacional do Ensino M'edio(ENEM)の2つの最新版を評価した。
ハイライトの1つは、視覚コンテンツを翻訳するテキストキャプションが画像の直接使用よりも優れており、視覚モデルに改善の余地があることである。
論文 参考訳(メタデータ) (2023-11-23T19:20:59Z) - An Early Evaluation of GPT-4V(ision) [40.866323649060696]
我々は,GPT-4Vの視覚的理解,言語理解,視覚パズルの解法,深度,熱,映像,音声などの他のモダリティの理解など,様々な能力を評価する。
GPT-4Vの性能を評価するため、656の試験インスタンスを手動で構築し、GPT-4Vの結果を慎重に評価する。
論文 参考訳(メタデータ) (2023-10-25T10:33:17Z) - HallusionBench: An Advanced Diagnostic Suite for Entangled Language Hallucination and Visual Illusion in Large Vision-Language Models [69.52245481329899]
本稿では,画像コンテキスト推論評価のためのベンチマークであるHalusionBenchを紹介する。
このベンチマークは、1129の質問と組み合わせた346の画像で構成されており、すべて人間の専門家によって細心の注意を払って作成されている。
HallusionBenchの評価では、15種類のモデルをベンチマークし、最先端のGPT-4Vによって達成された31.42%の質問対精度を強調した。
論文 参考訳(メタデータ) (2023-10-23T04:49:09Z) - Evaluating Hallucinations in Chinese Large Language Models [65.4771562909392]
我々は,中国大言語モデルにおける幻覚現象を測定するために,HaluQA(中国語幻覚質問回答)というベンチマークを構築した。
GLM-130B と ChatGPT の2種類の幻覚について考察した。
評価のために,モデル出力が幻覚的かどうかを判定するために,GPT-4を用いた自動評価手法を設計する。
論文 参考訳(メタデータ) (2023-10-05T07:57:09Z) - VALHALLA: Visual Hallucination for Machine Translation [64.86515924691899]
VALHALLAと呼ばれる視覚幻覚フレームワークを導入する。
推論時にのみソース文を必要とし、代わりにマルチモーダル機械翻訳に幻覚的視覚表現を使用する。
特に、ソース文が与えられた場合、入力テキストから離散的な視覚表現を予測するために自己回帰幻覚変換器が使用される。
論文 参考訳(メタデータ) (2022-05-31T20:25:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。