Fugu-MT 論文翻訳(概要): Multi-Object Hallucination in Vision-Language Models

論文の概要: Multi-Object Hallucination in Vision-Language Models

arxiv url: http://arxiv.org/abs/2407.06192v1
Date: Mon, 8 Jul 2024 17:59:57 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-09 14:30:11.002196
Title: Multi-Object Hallucination in Vision-Language Models
Title（参考訳）: 視覚言語モデルにおける多目的幻覚
Authors: Xuweiyi Chen, Ziqiao Ma, Xuejun Zhang, Sihan Xu, Shengyi Qian, Jianing Yang, David F. Fouhey, Joyce Chai,
Abstract要約: 大型視覚言語モデル(LVLM)は、しばしば物体幻覚に悩まされる。幻覚行動は、データ固有の要因、サリエンスと周波数、および本質的な行動のモデルによって影響される。
参考スコア（独自算出の注目度）: 28.135215173793785
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large vision language models (LVLMs) often suffer from object hallucination, producing objects not present in the given images. While current benchmarks for object hallucination primarily concentrate on the presence of a single object class rather than individual entities, this work systematically investigates multi-object hallucination, examining how models misperceive (e.g., invent nonexistent objects or become distracted) when tasked with focusing on multiple objects simultaneously. We introduce Recognition-based Object Probing Evaluation (ROPE), an automated evaluation protocol that considers the distribution of object classes within a single image during testing and uses visual referring prompts to eliminate ambiguity. With comprehensive empirical studies and analysis of potential factors leading to multi-object hallucination, we found that (1) LVLMs suffer more hallucinations when focusing on multiple objects compared to a single object. (2) The tested object class distribution affects hallucination behaviors, indicating that LVLMs may follow shortcuts and spurious correlations.(3) Hallucinatory behaviors are influenced by data-specific factors, salience and frequency, and model intrinsic behaviors. We hope to enable LVLMs to recognize and reason about multiple objects that often occur in realistic visual scenes, provide insights, and quantify our progress towards mitigating the issues.
Abstract（参考訳）: 大型視覚言語モデル(LVLM)は、しばしばオブジェクト幻覚に悩まされ、与えられた画像に存在しないオブジェクトを生成する。オブジェクト幻覚に関する現在のベンチマークは、主に個々のエンティティではなく、単一のオブジェクトクラスの存在に焦点を当てているが、この研究は、複数のオブジェクトを同時にフォーカスするタスクにおいて、モデルがどのように誤認識(例えば、存在しないオブジェクトを発明したり、注意をそらす)するかを、体系的に調査する。本稿では,テスト中の単一画像内のオブジェクトクラスの分布を考慮した自動評価プロトコルである認識ベースオブジェクト探索評価(ROPE)を導入し,視覚的参照プロンプトを用いて曖昧さを解消する。総合的な実証研究と多目的幻覚に繋がる潜在的な要因の分析により,(1)LVLMは1つの物体と比較して複数の物体に焦点を合わせると,より幻覚に悩まされることがわかった。 2)テスト対象のクラス分布は幻覚行動に影響を及ぼし,LVLMはショートカットやスプリアス相関に追従する可能性が示唆された。 3) 幻覚行動はデータ固有の要因, 塩分と頻度, 内因性行動のモデルによって影響される。 LVLMが現実的な視覚シーンでしばしば発生する複数のオブジェクトを認識し、推論し、洞察を提供し、問題を緩和するための進捗状況を定量化できるようにしたいと考えています。

関連論文リスト

What Makes "Good" Distractors for Object Hallucination Evaluation in Large Vision-Language Models? [95.46087552542998]
本稿では,Halucination検索を用いたObject Probing Evaluationベンチマークを紹介する。これは、大きな視覚ランゲージモデルで幻覚を誘発する最も誤解を招きやすいイントラクタを生成することを目的としている。実験結果から, HOPEの精度は少なくとも9%低下し, 最先端のLVLMでは最大23%低下した。
論文参考訳（メタデータ） (2025-08-03T03:11:48Z)
MIHBench: Benchmarking and Mitigating Multi-Image Hallucinations in Multimodal Large Language Models [73.20126092411776]
マルチイメージMLLMにおける幻覚に関する最初の体系的研究を行う。複数の画像に対してオブジェクト関連幻覚を評価するためのベンチマークであるMIHBenchを提案する。 MIHBenchは、Multi-Image Object Existence Hallucination、Multi-Image Object Count Hallucination、Object Identity Consistency Hallucinationの3つのコアタスクから構成される。
論文参考訳（メタデータ） (2025-08-01T15:49:29Z)
Stop learning it all to mitigate visual hallucination, Focus on the hallucination target [0.10571493942475592]
MLLM(Multimodal Large Language Models)はしばしば幻覚に悩まされる。幻覚は、実用的な応用においてモデルの信頼性を損なう。 Mymethodは、目標とする領域にフォーカスすることで幻覚を緩和する嗜好学習アプローチである。
論文参考訳（メタデータ） (2025-06-13T02:35:03Z)
A Comprehensive Analysis for Visual Object Hallucination in Large Vision-Language Models [30.037505914306504]
視覚言語モデル(LVLM)はマルチモーダルタスクにおいて顕著な機能を示す。 LVLMはクエリ入力に基づいて不正確なビジュアルオブジェクト関連情報を生成し、安全性と信頼性に関する誤った情報や懸念を引き起こす可能性がある。本稿では,LLaVAライクなLVLMの各コンポーネントを分析し,潜在的なエラーの発生源とその影響を同定する。
論文参考訳（メタデータ） (2025-05-04T01:47:58Z)
Understanding and Evaluating Hallucinations in 3D Visual Language Models [42.355169504378246]
3D-LLMは、インテリジェンスとシーン理解の複雑なタスクに取り組むために提案されている。幻覚の影響が大きい。本研究は、3D-LLMにおける幻覚に関する最初の体系的研究である。
論文参考訳（メタデータ） (2025-02-18T07:15:43Z)
Evaluating Hallucination in Large Vision-Language Models based on Context-Aware Object Similarities [5.602853217226167]
大規模視覚言語モデル(LVLM)における物体幻覚評価のための新しいアプローチである文脈認識オブジェクト類似性(CAOS)を提案する。 CAOSは、オブジェクト統計とキャプション内のオブジェクト間の意味的関係を統合する。これを解決するために、言語モデルに基づくオブジェクト認識を用いて、潜在的にドメイン外幻覚オブジェクトを検出する。
論文参考訳（メタデータ） (2025-01-25T03:03:18Z)
Towards a Systematic Evaluation of Hallucinations in Large-Vision Language Models [57.58426038241812]
LVLM(Large Vision-Language Models)は、複雑なマルチモーダルタスクにおいて顕著な性能を示す。これらのモデルは、画像から様々な視覚的実体を暗黙的に認識または推測する必要がある場合、まだ幻覚に悩まされている。本稿では,視覚的質問応答(VQA)ベンチマークを提案する。
論文参考訳（メタデータ） (2024-12-29T23:56:01Z)
Combating Multimodal LLM Hallucination via Bottom-Up Holistic Reasoning [151.4060202671114]
マルチモーダル大規模言語モデル(MLLM)は、視覚言語タスクを前進させる前例のない能力を示した。本稿では,MLLMにおける幻覚に対処するためのボトムアップ推論フレームワークを提案する。本フレームワークは、認識レベル情報と認知レベルコモンセンス知識を検証・統合することにより、視覚とテキストの両方の入力における潜在的な問題に体系的に対処する。
論文参考訳（メタデータ） (2024-12-15T09:10:46Z)
Devils in Middle Layers of Large Vision-Language Models: Interpreting, Detecting and Mitigating Object Hallucinations via Attention Lens [7.806633929976787]
LVLM(Large Vision-Language Models)の幻覚は、その信頼性を著しく損なう。本稿では,LVLMが視覚情報をどのように処理し,その処理が幻覚を引き起こすかについて述べる。本稿では,様々な頭部に情報を統合することで視覚的注意を調節する簡易な推論時間手法を提案する。
論文参考訳（メタデータ） (2024-11-23T03:40:05Z)
Investigating and Mitigating Object Hallucinations in Pretrained Vision-Language (CLIP) Models [22.42712853647949]
本稿では,CLIPモデル内での物体幻覚問題について詳細に検討する。孤立しても、CLIPモデルは対象の幻覚に傾向があり、幻覚問題は単に視覚と言語モダリティの相互作用によるものではないことを示唆する。拡張モデルは視覚エンコーダとして利用でき、LVLMにおける物体幻覚の問題を効果的に緩和できることを示す。
論文参考訳（メタデータ） (2024-10-04T06:24:49Z)
Explore the Hallucination on Low-level Perception for MLLMs [83.12180878559295]
低レベルの視覚知覚と理解タスクにおけるMLLMの自己認識性を定義し,評価することを目的としている。低レベルの視覚に対する人間の反応をシミュレートするベンチマーク設定であるQL-Benchを提案する。いくつかのモデルでは、ロバストな低レベル視覚能力を示すが、その自己認識性は比較的未発達である。
論文参考訳（メタデータ） (2024-09-15T14:38:29Z)
Logical Closed Loop: Uncovering Object Hallucinations in Large Vision-Language Models [52.957842999317506]
オブジェクト幻覚(Object Hallucination)とは、LVLMが画像に存在しない物体を主張する現象である。本稿では,物体の幻覚検出と緩和,すなわちLogicCheckGPTのための論理閉ループベースのフレームワークを提案する。プラグアンドプレイ法として、既存のすべてのLVLMにシームレスに適用することができる。
論文参考訳（メタデータ） (2024-02-18T15:28:39Z)
Negative Object Presence Evaluation (NOPE) to Measure Object Hallucination in Vision-Language Models [67.8024390595066]
NOPE(Negative Object Presence Evaluation)は、視覚言語(VL)モデルにおける物体幻覚を評価するために設計された新しいベンチマークである。視覚的問題における物体の非存在を識別するために,10種類の最先端VLモデルの性能を広範囲に検討する。
論文参考訳（メタデータ） (2023-10-09T01:52:27Z)
Analyzing and Mitigating Object Hallucination in Large Vision-Language Models [110.12460299261531]
大規模視覚言語モデル(LVLM)は、人間の言語で視覚情報を理解する際、顕著な能力を示した。 LVLMは依然として物体幻覚に悩まされており、画像に実際に存在しない物体を含む記述を生成するという問題である。そこで我々は,LVLMの幻覚を再現するアルゴリズム LVLM Hallucination Revisor (LURE) を提案する。
論文参考訳（メタデータ） (2023-10-01T18:10:53Z)
Evaluating Object Hallucination in Large Vision-Language Models [122.40337582958453]
本研究は,大規模視覚言語モデル(LVLM)の物体幻覚に関する最初の体系的研究である。 LVLMは、記述中の対象画像と矛盾しないオブジェクトを生成する傾向がある。対象の幻覚を評価するために,POPEと呼ばれるポーリングに基づくクエリ手法を提案する。
論文参考訳（メタデータ） (2023-05-17T16:34:01Z)
Plausible May Not Be Faithful: Probing Object Hallucination in Vision-Language Pre-training [66.0036211069513]
大規模視覚言語事前学習モデルは、テキストを生成する際に、存在しない視覚オブジェクトを幻覚させる傾向がある。標準メトリクスでより良いスコアを得るモデルは、オブジェクトをより頻繁に幻覚させる可能性があることを示す。驚いたことに、パッチベースの機能が最も良く、より小さなパッチ解決は、オブジェクト幻覚の非自明な減少をもたらす。
論文参考訳（メタデータ） (2022-10-14T10:27:22Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。