Fugu-MT 論文翻訳(概要): Evaluating and Analyzing Relationship Hallucinations in LVLMs

論文の概要: Evaluating and Analyzing Relationship Hallucinations in LVLMs

arxiv url: http://arxiv.org/abs/2406.16449v1
Date: Mon, 24 Jun 2024 08:42:42 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-25 15:33:48.968632
Title: Evaluating and Analyzing Relationship Hallucinations in LVLMs
Title（参考訳）: LVLMにおける関係幻覚の評価と解析
Authors: Mingrui Wu, Jiayi Ji, Oucheng Huang, Jiale Li, Yuhang Wu, Xiaoshuai Sun, Rongrong Ji,
Abstract要約: 視覚関係の幻覚を評価するための新しいベンチマークであるR-Benchを紹介する。 R-Benchは、関係の存在に焦点を当てたイメージレベルの質問と、局所的な視覚的理解を評価するインスタンスレベルの質問を特徴としている。我々は,関係関連性,主観関連性,関係対象性という,幻覚につながる3つの関係共起関係を同定する。
参考スコア（独自算出の注目度）: 69.79709804046325
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The issue of hallucinations is a prevalent concern in existing Large Vision-Language Models (LVLMs). Previous efforts have primarily focused on investigating object hallucinations, which can be easily alleviated by introducing object detectors. However, these efforts neglect hallucinations in inter-object relationships, which is essential for visual comprehension. In this work, we introduce R-Bench, a novel benchmark for evaluating Vision Relationship Hallucination. R-Bench features image-level questions that focus on the existence of relationships and instance-level questions that assess local visual comprehension. We identify three types of relationship co-occurrences that lead to hallucinations: relationship-relationship, subject-relationship, and relationship-object. The visual instruction tuning dataset's long-tail distribution significantly impacts LVLMs' understanding of visual relationships. Furthermore, our analysis reveals that current LVLMs tend to disregard visual content and overly rely on the common sense knowledge of Large Language Models. They also struggle with reasoning about spatial relationships based on contextual information.
Abstract（参考訳）: 幻覚の問題は、既存のLVLM(Large Vision-Language Models)の関心事である。これまでは主に、物体検出装置を導入することで容易に緩和できる物体幻覚の研究に重点を置いてきた。しかし、これらの努力は、視覚的理解に欠かせない対象間の関係における幻覚を無視している。本稿では,視覚関係の幻覚を評価するための新しいベンチマークであるR-Benchを紹介する。 R-Benchは、関係の存在に焦点を当てたイメージレベルの質問と、局所的な視覚的理解を評価するインスタンスレベルの質問を特徴としている。我々は,関係関連性,主観関連性,関係対象性という,幻覚につながる3つの関係共起関係を同定する。ビジュアルインストラクションチューニングデータセットのロングテール分布は、LVLMの視覚的関係に対する理解に大きな影響を及ぼす。さらに,現在のLVLMは視覚的内容を無視し,大言語モデルの常識知識を過度に依存する傾向にあることを明らかにした。また、文脈情報に基づく空間関係の推論にも苦労している。

関連論文リスト

CAI: Caption-Sensitive Attention Intervention for Mitigating Object Hallucination in Large Vision-Language Models [60.0300765815417]
LVLM(Large Vision-Language Models)は、視覚情報から逸脱するコンテンツをしばしば生成し、物体の幻覚を引き起こす。本稿では,CAI (Caption-sensitive Attention Intervention) を提案する。
論文参考訳（メタデータ） (2025-06-30T07:52:36Z)
A Comprehensive Analysis for Visual Object Hallucination in Large Vision-Language Models [30.037505914306504]
視覚言語モデル(LVLM)はマルチモーダルタスクにおいて顕著な機能を示す。 LVLMはクエリ入力に基づいて不正確なビジュアルオブジェクト関連情報を生成し、安全性と信頼性に関する誤った情報や懸念を引き起こす可能性がある。本稿では,LLaVAライクなLVLMの各コンポーネントを分析し,潜在的なエラーの発生源とその影響を同定する。
論文参考訳（メタデータ） (2025-05-04T01:47:58Z)
Mitigating Hallucinations in Large Vision-Language Models by Adaptively Constraining Information Flow [32.039946174953236]
大きな視覚言語モデルは、人間の言語を通して視覚情報を理解する大きな可能性を示している。それらは、物体の幻覚に苦しむ傾向があり、すなわち、生成された画像記述には、画像の中に存在しない物体が含まれている。本稿では,幻覚雑音の導入による過信を軽減するため,変分情報ボトルネック(VIB)を提案する。
論文参考訳（メタデータ） (2025-02-28T05:56:23Z)
Towards a Systematic Evaluation of Hallucinations in Large-Vision Language Models [57.58426038241812]
LVLM(Large Vision-Language Models)は、複雑なマルチモーダルタスクにおいて顕著な性能を示す。これらのモデルは、画像から様々な視覚的実体を暗黙的に認識または推測する必要がある場合、まだ幻覚に悩まされている。本稿では,視覚的質問応答(VQA)ベンチマークを提案する。
論文参考訳（メタデータ） (2024-12-29T23:56:01Z)
Cracking the Code of Hallucination in LVLMs with Vision-aware Head Divergence [69.86946427928511]
大型視覚言語モデル(LVLM)における幻覚を駆動する内部メカニズムについて検討する。本稿では,視覚的コンテキストに対する注目ヘッド出力の感度を定量化する指標として,視覚認識型頭部偏差(VHD)を紹介する。視覚認識型頭部強化(VHR)は,視覚認識型頭部機能を高めることで幻覚を緩和するための訓練不要なアプローチである。
論文参考訳（メタデータ） (2024-12-18T15:29:30Z)
Devils in Middle Layers of Large Vision-Language Models: Interpreting, Detecting and Mitigating Object Hallucinations via Attention Lens [7.806633929976787]
LVLM(Large Vision-Language Models)の幻覚は、その信頼性を著しく損なう。本稿では,LVLMが視覚情報をどのように処理し,その処理が幻覚を引き起こすかについて述べる。本稿では,様々な頭部に情報を統合することで視覚的注意を調節する簡易な推論時間手法を提案する。
論文参考訳（メタデータ） (2024-11-23T03:40:05Z)
Unified Triplet-Level Hallucination Evaluation for Large Vision-Language Models [22.996176483599868]
我々は,LVLM(Large Vision-Language Models)における対象と関係の幻覚を同時に測定するための統一的なフレームワークを設計する。本稿では,トリプルトレベルの幻覚評価ベンチマークTri-HEを紹介する。
論文参考訳（メタデータ） (2024-10-30T15:25:06Z)
Do Vision-Language Models Really Understand Visual Language? [43.893398898373995]
ダイアグラムは、複雑な概念とその関係をイメージとして表現した視覚言語の典型例である。近年の研究では、LVLM(Large Vision-Language Models)が図を含む複雑な推論タスクに対処できることが示唆されている。本稿では,LVLMのダイアグラム理解能力を評価するための総合的なテストスイートを開発する。
論文参考訳（メタデータ） (2024-09-30T19:45:11Z)
Reefknot: A Comprehensive Benchmark for Relation Hallucination Evaluation, Analysis and Mitigation in Multimodal Large Language Models [13.48296910438554]
現在のマルチモーダル大言語モデル(MLLM)に悩まされる幻覚実世界のシナリオから得られた20,000以上のサンプルからなる関係幻覚を対象とするベンチマークであるReefknotを紹介する。 3つの異なるタスクに対する比較評価の結果、関係幻覚を緩和する現在のMLLMの能力に重大な欠点があることが判明した。
論文参考訳（メタデータ） (2024-08-18T10:07:02Z)
VALOR-EVAL: Holistic Coverage and Faithfulness Evaluation of Large Vision-Language Models [57.43276586087863]
LVLM(Large Vision-Language Models)は幻覚に悩まされ、このモデルでは可聴音を発生させるが、実際には誤出力を発生させる。既存のベンチマークはスコープに限られており、主にオブジェクト幻覚に焦点を当てている。対象,属性,関係を多次元のベンチマークで表現し,連想バイアスに基づいて画像を選択する。
論文参考訳（メタデータ） (2024-04-22T04:49:22Z)
RelationVLM: Making Large Vision-Language Models Understand Visual Relations [66.70252936043688]
本稿では,複数の画像にまたがっても動画内でも,様々なレベルの関係を解釈できる大規模視覚言語モデルであるRelationVLMを提案する。具体的には,多段階的な関係認識学習手法とそれに対応するデータ構成戦略を考案し,意味的関係を理解する能力を備えた関係VLMを提案する。
論文参考訳（メタデータ） (2024-03-19T15:01:19Z)
Mitigating Hallucination in Visual Language Models with Visual Supervision [33.05550629039951]
大きな視覚言語モデル(LVLM)は幻覚に悩まされている。鍵となる問題は、マルチモーダルなコンテキストで詳細なコンテンツを理解できないことだ。本稿では,LVLMのトレーニングを容易にするために,より詳細な視覚アノテーションとより識別可能な視覚モデルを提案する。
論文参考訳（メタデータ） (2023-11-27T09:30:02Z)
Towards Mitigating Hallucination in Large Language Models via Self-Reflection [63.2543947174318]
大規模言語モデル(LLM)は、質問応答(QA)タスクを含む生成的および知識集約的なタスクを約束している。本稿では,広範に採用されているLCMとデータセットを用いた医療再生QAシステムにおける幻覚現象を解析する。
論文参考訳（メタデータ） (2023-10-10T03:05:44Z)
Constellation: Learning relational abstractions over objects for compositional imagination [64.99658940906917]
静的な視覚シーンのリレーショナル抽象化を学習するネットワークであるConstellationを紹介する。この研究は、視覚的関係を明確に表現し、それらを複雑な認知手続きに使用するための第一歩である。
論文参考訳（メタデータ） (2021-07-23T11:59:40Z)
Visual Relationship Detection with Visual-Linguistic Knowledge from Multimodal Representations [103.00383924074585]
視覚的関係検出は、画像内の有能なオブジェクト間の関係を推論することを目的としている。変換器からの視覚言語表現(RVL-BERT)という新しい手法を提案する。 RVL-BERTは、自己教師付き事前学習を通じて学習した視覚的・言語的常識知識を用いて空間推論を行う。
論文参考訳（メタデータ） (2020-09-10T16:15:09Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。