Fugu-MT 論文翻訳(概要): HallusionBench: You See What You Think? Or You Think What You See? An Image-Context Reasoning Benchmark Challenging for GPT-4V(ision), LLaVA-1.5, and Other Multi-modality Models

論文の概要: HallusionBench: You See What You Think? Or You Think What You See? An Image-Context Reasoning Benchmark Challenging for GPT-4V(ision), LLaVA-1.5, and Other Multi-modality Models

arxiv url: http://arxiv.org/abs/2310.14566v1
Date: Mon, 23 Oct 2023 04:49:09 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-24 22:29:24.821302
Title: HallusionBench: You See What You Think? Or You Think What You See? An Image-Context Reasoning Benchmark Challenging for GPT-4V(ision), LLaVA-1.5, and Other Multi-modality Models
Title（参考訳）: HallusionBench: 自分がどう思うか分かるか? それとも何が見えるか? GPT-4V(ision), LLaVA-1.5, その他の多モードモデルに対する画像文脈推論ベンチマークチェアリング
Authors: Fuxiao Liu, Tianrui Guan, Zongxia Li, Lichang Chen, Yaser Yacoob, Dinesh Manocha, Tianyi Zhou
Abstract要約: HallusionBenchは画像コンテキスト推論のベンチマークで、GPT-4VやLLaVA-1.5でもまだ難しい。言語幻覚と視覚錯覚の2種類のVLM誤りについて検討する。
参考スコア（独自算出の注目度）: 61.83300375777228
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large language models (LLMs), after being aligned with vision models and integrated into vision-language models (VLMs), can bring impressive improvement in image reasoning tasks. This was shown by the recently released GPT-4V(ison), LLaVA-1.5, etc. However, the strong language prior in these SOTA LVLMs can be a double-edged sword: they may ignore the image context and solely rely on the (even contradictory) language prior for reasoning. In contrast, the vision modules in VLMs are weaker than LLMs and may result in misleading visual representations, which are then translated to confident mistakes by LLMs. To study these two types of VLM mistakes, i.e., language hallucination and visual illusion, we curated HallusionBench, an image-context reasoning benchmark that is still challenging to even GPT-4V and LLaVA-1.5. We provide a detailed analysis of examples in HallusionBench, which sheds novel insights on the illusion or hallucination of VLMs and how to improve them in the future. The benchmark and codebase will be released at https://github.com/tianyi-lab/HallusionBench.
Abstract（参考訳）: 大規模言語モデル(LLM)は、視覚モデルと整合し、視覚言語モデル(VLM)に統合された後、画像推論タスクにおいて驚くべき改善をもたらす。これは最近リリースされたGPT-4V(ison), LLaVA-1.5などによって示された。しかし、これらSOTA LVLMの前の強い言語は、イメージコンテキストを無視し、推論に先立って(矛盾した)言語にのみ依存する、二重刃の剣である可能性がある。対照的に、VLM の視覚モジュールは LLM よりも弱いため、誤った視覚表現をもたらす可能性がある。言語幻覚と視覚錯覚という2つのVLMの誤りを研究するために,GPT-4V や LLaVA-1.5 さえも困難な画像コンテキスト推論ベンチマークである HallusionBench をキュレートした。本稿では, VLMの錯覚や幻覚に関する新たな知見と, 将来どのように改善していくのかをまとめたHalusionBenchの例を詳細に分析する。ベンチマークとコードベースはhttps://github.com/tianyi-lab/hallusionbenchでリリースされる。

関連論文リスト

Seeing is Believing? Mitigating OCR Hallucinations in Multimodal Large Language Models [22.43132625619281]
劣化文書理解におけるOCR幻覚評価のための最初のベンチマークであるKIE-HVQAを提案する。このデータセットには、IDカードと請求書にまたがるテストサンプルが含まれており、OCR信頼性のための実世界の劣化をシミュレートしている。 Qwen2.5-VL 実験により,GPT-4o に対して 7B-パラメータモデルでは幻覚のない精度が 22% 向上していることが示された。
論文参考訳（メタデータ） (2025-06-25T06:44:07Z)
A Comprehensive Analysis for Visual Object Hallucination in Large Vision-Language Models [30.037505914306504]
視覚言語モデル(LVLM)はマルチモーダルタスクにおいて顕著な機能を示す。 LVLMはクエリ入力に基づいて不正確なビジュアルオブジェクト関連情報を生成し、安全性と信頼性に関する誤った情報や懸念を引き起こす可能性がある。本稿では,LLaVAライクなLVLMの各コンポーネントを分析し,潜在的なエラーの発生源とその影響を同定する。
論文参考訳（メタデータ） (2025-05-04T01:47:58Z)
Mitigating Low-Level Visual Hallucinations Requires Self-Awareness: Database, Model and Training Strategy [53.07517728420411]
低レベル視覚タスクにおける幻覚に焦点を当てた最初のインストラクションデータベースを提案する。低レベル視覚タスクにおけるモデルの知覚と理解能力を向上させるための自己認識障害除去(SAFEQA)モデルを提案する。低レベルの視覚課題に対する総合的な実験を行い、提案手法がこれらの課題におけるモデルの自己認識を著しく向上し、幻覚を低減させることを示す。
論文参考訳（メタデータ） (2025-03-26T16:05:01Z)
IllusionBench: A Large-scale and Comprehensive Benchmark for Visual Illusion Understanding in Vision-Language Models [56.34742191010987]
現在のビジュアル言語モデル(VLM)は印象的なイメージ理解を示すが、視覚錯覚に苦慮している。我々はIllusionBenchを紹介した。IllusionBenchは、古典的な認知錯覚と現実のシーン錯覚を含む包括的視覚錯覚データセットである。我々は従来のパターンに似ているが現実に異なるトラップイリュージョンを設計し、SOTAモデルの問題を強調する。
論文参考訳（メタデータ） (2025-01-01T14:10:25Z)
Towards a Systematic Evaluation of Hallucinations in Large-Vision Language Models [57.58426038241812]
LVLM(Large Vision-Language Models)は、複雑なマルチモーダルタスクにおいて顕著な性能を示す。これらのモデルは、画像から様々な視覚的実体を暗黙的に認識または推測する必要がある場合、まだ幻覚に悩まされている。本稿では,視覚的質問応答(VQA)ベンチマークを提案する。
論文参考訳（メタデータ） (2024-12-29T23:56:01Z)
A Unified Hallucination Mitigation Framework for Large Vision-Language Models [18.595958586621943]
幻覚緩和のための統一的な枠組みであるデンティストを提示する。中心となるステップは、まずクエリを分類し、次に分類結果に基づいて幻覚緩和の異なるプロセスを実行することである。 MMbenchでは、画像品質の精度が13.44%/10.2%/15.8%向上した。
論文参考訳（メタデータ） (2024-09-24T22:36:58Z)
Explore the Hallucination on Low-level Perception for MLLMs [83.12180878559295]
低レベルの視覚知覚と理解タスクにおけるMLLMの自己認識性を定義し,評価することを目的としている。低レベルの視覚に対する人間の反応をシミュレートするベンチマーク設定であるQL-Benchを提案する。いくつかのモデルでは、ロバストな低レベル視覚能力を示すが、その自己認識性は比較的未発達である。
論文参考訳（メタデータ） (2024-09-15T14:38:29Z)
VideoHallucer: Evaluating Intrinsic and Extrinsic Hallucinations in Large Video-Language Models [59.05674402770661]
本稿では,大規模ビデオ言語モデル(LVLM)における幻覚検出のための最初の総合的ベンチマークであるVideoHallucerを紹介する。 VideoHallucerは幻覚を2つの主なタイプに分類する。
論文参考訳（メタデータ） (2024-06-24T06:21:59Z)
AutoHallusion: Automatic Generation of Hallucination Benchmarks for Vision-Language Models [91.78328878860003]
視覚言語モデル(LVLM)は幻覚の傾向が強い。ベンチマークは多くの場合、障害パターンが一般化できない手作りのコーナーケースに依存します。最初の自動ベンチマーク生成手法であるAutoHallusionを開発した。
論文参考訳（メタデータ） (2024-06-16T11:44:43Z)
Mitigating Hallucination in Visual Language Models with Visual Supervision [33.05550629039951]
大きな視覚言語モデル(LVLM)は幻覚に悩まされている。鍵となる問題は、マルチモーダルなコンテキストで詳細なコンテンツを理解できないことだ。本稿では,LVLMのトレーニングを容易にするために,より詳細な視覚アノテーションとより識別可能な視覚モデルを提案する。
論文参考訳（メタデータ） (2023-11-27T09:30:02Z)
Q-Instruct: Improving Low-level Visual Abilities for Multi-modality Foundation Models [81.20804369985376]
我々は,低レベルの視覚に対する多数の人間のフィードバックを収集する大規模主観的実験を行う。構築された**Q-Pathway**データセットには、18,973イメージに関する58万の詳細な人間のフィードバックが含まれている。我々は、GPT参加型変換を設計し、これらのフィードバックを多種多様な200K命令応答対に処理する。
論文参考訳（メタデータ） (2023-11-12T09:10:51Z)
Holistic Analysis of Hallucination in GPT-4V(ision): Bias and Interference Challenges [54.42256219010956]
このベンチマークは、視覚言語モデルにおける2つの一般的な幻覚、すなわちバイアスと干渉を評価するために設計されている。偏見はモデルがある種の反応を幻覚させる傾向を示すもので、おそらくはトレーニングデータの不均衡によるものである。干渉とは、テキストプロンプトのフレーズ化や入力画像の表示方法によって、GPT-4V(ision)の判定が破壊されるシナリオである。
論文参考訳（メタデータ） (2023-11-06T17:26:59Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。