論文の概要: Don't Fight Hallucinations, Use Them: Estimating Image Realism using NLI over Atomic Facts
- arxiv url: http://arxiv.org/abs/2503.15948v1
- Date: Thu, 20 Mar 2025 08:44:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-21 15:30:52.327753
- Title: Don't Fight Hallucinations, Use Them: Estimating Image Realism using NLI over Atomic Facts
- Title(参考訳): 幻覚と戦うな, テーマを使う - NLIによる原子間力によるイメージリアリズムの推定
- Authors: Elisei Rykov, Kseniia Petrushina, Kseniia Titova, Alexander Panchenko, Vasily Konovalov,
- Abstract要約: LVLM(Large Vision-Language Models)と自然言語推論(NLI)を用いた画像リアリズム評価手法を提案する。
我々のアプローチは、LVLMが常識に反するイメージに直面すると幻覚を引き起こすという前提に基づいている。
WHOOPS!データセットのゼロショットモードでは,新たな最先端性能を実現しています。
- 参考スコア(独自算出の注目度): 53.9323641017949
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Quantifying the realism of images remains a challenging problem in the field of artificial intelligence. For example, an image of Albert Einstein holding a smartphone violates common-sense because modern smartphone were invented after Einstein's death. We introduce a novel method for assessing image realism using Large Vision-Language Models (LVLMs) and Natural Language Inference (NLI). Our approach is based on the premise that LVLMs may generate hallucinations when confronted with images that defy common sense. Using LVLM to extract atomic facts from these images, we obtain a mix of accurate facts and erroneous hallucinations. We proceed by calculating pairwise entailment scores among these facts, subsequently aggregating these values to yield a singular reality score. This process serves to identify contradictions between genuine facts and hallucinatory elements, signaling the presence of images that violate common sense. Our approach has achieved a new state-of-the-art performance in zero-shot mode on the WHOOPS! dataset.
- Abstract(参考訳): 画像のリアリズムを定量化することは、人工知能の分野で難しい問題だ。
例えば、Albert Einsteinがスマートフォンを持っている画像は、アインシュタインの死後に発明されたため、常識に反する。
本稿では,LVLM(Large Vision-Language Models)とNLI(Natural Language Inference)を用いた画像リアリズム評価手法を提案する。
我々のアプローチは、LVLMが常識に反するイメージに直面すると幻覚を引き起こすという前提に基づいている。
これらの画像から原子的事実を抽出するためにLVLMを用いると、正確な事実と誤った幻覚の混合が得られる。
これらの事実のペアエンテーメントスコアを計算し、その後、これらの値を集約して単一の現実スコアを得る。
このプロセスは、真の事実と幻覚要素の矛盾を識別し、常識に反するイメージの存在を示唆する。
WHOOPS!データセットのゼロショットモードでは,新たな最先端性能を実現しています。
関連論文リスト
- Purposefully Induced Psychosis (PIP): Embracing Hallucination as Imagination in Large Language Models [0.0]
大規模言語モデル(LLM)における幻覚は、広く誤りとみなされている。
創造的あるいは探索的な文脈では、これらの「間違い」はイノベーションの予期せぬ道を表しているかもしれない。
PIP(Powposefully induced Psychosis)は,LLM幻覚を視覚的タスクに増幅する新しいアプローチである。
論文 参考訳(メタデータ) (2025-04-16T12:13:02Z) - EAZY: Eliminating Hallucinations in LVLMs by Zeroing out Hallucinatory Image Tokens [15.479587108655393]
LVLM(Large Vision-Language Models)は、まだオブジェクト幻覚の課題に直面している。
我々の研究は、画像入力源に焦点を移し、特定の画像トークンが幻覚にどのように貢献するかを調べる。
本稿では,幻覚器画像トークンをゼロにすることで,hAllucinationsを自動的に識別し,除去する新しい学習自由化手法EAZYを紹介する。
論文 参考訳(メタデータ) (2025-03-10T18:53:39Z) - Trust Me, I'm Wrong: High-Certainty Hallucinations in LLMs [45.13670875211498]
LLM(Large Language Models)はしばしば、幻覚として知られる実世界の事実に根ざしていない出力を生成する。
モデルが正しい知識を持つ場合でも、高い確実性で幻覚できることを示す。
論文 参考訳(メタデータ) (2025-02-18T15:46:31Z) - Towards a Systematic Evaluation of Hallucinations in Large-Vision Language Models [57.58426038241812]
LVLM(Large Vision-Language Models)は、複雑なマルチモーダルタスクにおいて顕著な性能を示す。
これらのモデルは、画像から様々な視覚的実体を暗黙的に認識または推測する必要がある場合、まだ幻覚に悩まされている。
本稿では,視覚的質問応答(VQA)ベンチマークを提案する。
論文 参考訳(メタデータ) (2024-12-29T23:56:01Z) - Addressing Image Hallucination in Text-to-Image Generation through Factual Image Retrieval [14.471150840618211]
本稿では,外部から取得した実写画像を用いて現実的な画像を生成する手法を提案する。
InstructPix2Pix や IP-Adapter といった既製の画像編集ツールを使って、検索した画像の事実情報を活用する。
論文 参考訳(メタデータ) (2024-07-15T12:59:03Z) - VideoHallucer: Evaluating Intrinsic and Extrinsic Hallucinations in Large Video-Language Models [59.05674402770661]
本稿では,大規模ビデオ言語モデル(LVLM)における幻覚検出のための最初の総合的ベンチマークであるVideoHallucerを紹介する。
VideoHallucerは幻覚を2つの主なタイプに分類する。
論文 参考訳(メタデータ) (2024-06-24T06:21:59Z) - Does Object Grounding Really Reduce Hallucination of Large Vision-Language Models? [53.89380284760555]
大型視覚言語モデル(LVLM)は、画像に見つからない概念に言及するキャプションを生成する。
これらの幻覚は、LVLMの信頼性を損なうものであり、ユビキタス採用の主な障害であることは間違いない。
最近の研究は、画像領域やオブジェクトをテキストスパンに明示的にアライメントする、接地目的の追加は、LVLM幻覚の量を減らすことを示唆している。
論文 参考訳(メタデータ) (2024-06-20T16:56:11Z) - AutoHallusion: Automatic Generation of Hallucination Benchmarks for Vision-Language Models [91.78328878860003]
視覚言語モデル(LVLM)は幻覚の傾向が強い。
ベンチマークは多くの場合、障害パターンが一般化できない手作りのコーナーケースに依存します。
最初の自動ベンチマーク生成手法であるAutoHallusionを開発した。
論文 参考訳(メタデータ) (2024-06-16T11:44:43Z) - Alleviating Hallucinations in Large Vision-Language Models through Hallucination-Induced Optimization [123.54980913741828]
大規模ビジュアル言語モデル(LVLM)は、マルチモーダルデータの理解において、例外的な能力を示した。
彼らは必然的に幻覚に悩まされ、生成されたテキストと対応するイメージを切断する。
現在の視覚的コントラスト復号法のほとんどは、視覚的不確実性情報を導入して幻覚を緩和しようとするものである。
しかし、彼らは幻覚トークンを正確に誘導するのに苦労し、幻覚を緩和する効果を著しく制限した。
論文 参考訳(メタデータ) (2024-05-24T08:46:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。