論文の概要: Evaluating and Analyzing Relationship Hallucinations in Large Vision-Language Models
- arxiv url: http://arxiv.org/abs/2406.16449v4
- Date: Thu, 18 Jul 2024 04:39:29 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-19 20:22:33.553089
- Title: Evaluating and Analyzing Relationship Hallucinations in Large Vision-Language Models
- Title(参考訳): 大規模視覚言語モデルにおける関係幻覚の評価と解析
- Authors: Mingrui Wu, Jiayi Ji, Oucheng Huang, Jiale Li, Yuhang Wu, Xiaoshuai Sun, Rongrong Ji,
- Abstract要約: 視覚関係の幻覚を評価するための新しいベンチマークであるR-Benchを紹介する。
R-Benchは、関係の存在に焦点を当てたイメージレベルの質問と、局所的な視覚的理解を評価するインスタンスレベルの質問を特徴としている。
我々は,関係関連性,主観関連性,関係対象性という,幻覚につながる3つの関係共起関係を同定する。
- 参考スコア(独自算出の注目度): 69.79709804046325
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The issue of hallucinations is a prevalent concern in existing Large Vision-Language Models (LVLMs). Previous efforts have primarily focused on investigating object hallucinations, which can be easily alleviated by introducing object detectors. However, these efforts neglect hallucinations in inter-object relationships, which is essential for visual comprehension. In this work, we introduce R-Bench, a novel benchmark for evaluating Vision Relationship Hallucination. R-Bench features image-level questions that focus on the existence of relationships and instance-level questions that assess local visual comprehension. We identify three types of relationship co-occurrences that lead to hallucinations: relationship-relationship, subject-relationship, and relationship-object. The visual instruction tuning dataset's long-tail distribution significantly impacts LVLMs' understanding of visual relationships. Furthermore, our analysis reveals that current LVLMs tend to disregard visual content and overly rely on the common sense knowledge of Large Language Models. They also struggle with reasoning about spatial relationships based on contextual information.
- Abstract(参考訳): 幻覚の問題は、既存のLVLM(Large Vision-Language Models)の関心事である。
これまでは主に、物体検出装置を導入することで容易に緩和できる物体幻覚の研究に重点を置いてきた。
しかし、これらの努力は、視覚的理解に欠かせない対象間の関係における幻覚を無視している。
本稿では,視覚関係の幻覚を評価するための新しいベンチマークであるR-Benchを紹介する。
R-Benchは、関係の存在に焦点を当てたイメージレベルの質問と、局所的な視覚的理解を評価するインスタンスレベルの質問を特徴としている。
我々は,関係関連性,主観関連性,関係対象性という,幻覚につながる3つの関係共起関係を同定する。
ビジュアルインストラクションチューニングデータセットのロングテール分布は、LVLMの視覚的関係に対する理解に大きな影響を及ぼす。
さらに,現在のLVLMは視覚的内容を無視し,大言語モデルの常識知識を過度に依存する傾向にあることを明らかにした。
また、文脈情報に基づく空間関係の推論にも苦労している。
関連論文リスト
- Devils in Middle Layers of Large Vision-Language Models: Interpreting, Detecting and Mitigating Object Hallucinations via Attention Lens [7.806633929976787]
LVLM(Large Vision-Language Models)の幻覚は、その信頼性を著しく損なう。
本稿では,LVLMが視覚情報をどのように処理し,その処理が幻覚を引き起こすかについて述べる。
本稿では,様々な頭部に情報を統合することで視覚的注意を調節する簡易な推論時間手法を提案する。
論文 参考訳(メタデータ) (2024-11-23T03:40:05Z) - Unified Triplet-Level Hallucination Evaluation for Large Vision-Language Models [22.996176483599868]
我々は,LVLM(Large Vision-Language Models)における対象と関係の幻覚を同時に測定するための統一的なフレームワークを設計する。
本稿では,トリプルトレベルの幻覚評価ベンチマークTri-HEを紹介する。
論文 参考訳(メタデータ) (2024-10-30T15:25:06Z) - Reefknot: A Comprehensive Benchmark for Relation Hallucination Evaluation, Analysis and Mitigation in Multimodal Large Language Models [13.48296910438554]
現在のマルチモーダル大言語モデル(MLLM)に悩まされる幻覚
実世界のシナリオから得られた20,000以上のサンプルからなる関係幻覚を対象とするベンチマークであるReefknotを紹介する。
3つの異なるタスクに対する比較評価の結果、関係幻覚を緩和する現在のMLLMの能力に重大な欠点があることが判明した。
論文 参考訳(メタデータ) (2024-08-18T10:07:02Z) - VALOR-EVAL: Holistic Coverage and Faithfulness Evaluation of Large Vision-Language Models [57.43276586087863]
LVLM(Large Vision-Language Models)は幻覚に悩まされ、このモデルでは可聴音を発生させるが、実際には誤出力を発生させる。
既存のベンチマークはスコープに限られており、主にオブジェクト幻覚に焦点を当てている。
対象,属性,関係を多次元のベンチマークで表現し,連想バイアスに基づいて画像を選択する。
論文 参考訳(メタデータ) (2024-04-22T04:49:22Z) - RelationVLM: Making Large Vision-Language Models Understand Visual Relations [66.70252936043688]
本稿では,複数の画像にまたがっても動画内でも,様々なレベルの関係を解釈できる大規模視覚言語モデルであるRelationVLMを提案する。
具体的には,多段階的な関係認識学習手法とそれに対応するデータ構成戦略を考案し,意味的関係を理解する能力を備えた関係VLMを提案する。
論文 参考訳(メタデータ) (2024-03-19T15:01:19Z) - Mitigating Hallucination in Visual Language Models with Visual
Supervision [33.05550629039951]
大きな視覚言語モデル(LVLM)は幻覚に悩まされている。
鍵となる問題は、マルチモーダルなコンテキストで詳細なコンテンツを理解できないことだ。
本稿では,LVLMのトレーニングを容易にするために,より詳細な視覚アノテーションとより識別可能な視覚モデルを提案する。
論文 参考訳(メタデータ) (2023-11-27T09:30:02Z) - Towards Mitigating Hallucination in Large Language Models via
Self-Reflection [63.2543947174318]
大規模言語モデル(LLM)は、質問応答(QA)タスクを含む生成的および知識集約的なタスクを約束している。
本稿では,広範に採用されているLCMとデータセットを用いた医療再生QAシステムにおける幻覚現象を解析する。
論文 参考訳(メタデータ) (2023-10-10T03:05:44Z) - Constellation: Learning relational abstractions over objects for
compositional imagination [64.99658940906917]
静的な視覚シーンのリレーショナル抽象化を学習するネットワークであるConstellationを紹介する。
この研究は、視覚的関係を明確に表現し、それらを複雑な認知手続きに使用するための第一歩である。
論文 参考訳(メタデータ) (2021-07-23T11:59:40Z) - Visual Relationship Detection with Visual-Linguistic Knowledge from
Multimodal Representations [103.00383924074585]
視覚的関係検出は、画像内の有能なオブジェクト間の関係を推論することを目的としている。
変換器からの視覚言語表現(RVL-BERT)という新しい手法を提案する。
RVL-BERTは、自己教師付き事前学習を通じて学習した視覚的・言語的常識知識を用いて空間推論を行う。
論文 参考訳(メタデータ) (2020-09-10T16:15:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。