論文の概要: Don't Fight Hallucinations, Use Them: Estimating Image Realism using NLI over Atomic Facts
- arxiv url: http://arxiv.org/abs/2503.15948v1
- Date: Thu, 20 Mar 2025 08:44:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-21 16:36:12.107906
- Title: Don't Fight Hallucinations, Use Them: Estimating Image Realism using NLI over Atomic Facts
- Title(参考訳): 幻覚と戦うな, テーマを使う - NLIによる原子間力によるイメージリアリズムの推定
- Authors: Elisei Rykov, Kseniia Petrushina, Kseniia Titova, Alexander Panchenko, Vasily Konovalov,
- Abstract要約: LVLM(Large Vision-Language Models)と自然言語推論(NLI)を用いた画像リアリズム評価手法を提案する。
我々のアプローチは、LVLMが常識に反するイメージに直面すると幻覚を引き起こすという前提に基づいている。
WHOOPS!データセットのゼロショットモードでは,新たな最先端性能を実現しています。
- 参考スコア(独自算出の注目度): 53.9323641017949
- License:
- Abstract: Quantifying the realism of images remains a challenging problem in the field of artificial intelligence. For example, an image of Albert Einstein holding a smartphone violates common-sense because modern smartphone were invented after Einstein's death. We introduce a novel method for assessing image realism using Large Vision-Language Models (LVLMs) and Natural Language Inference (NLI). Our approach is based on the premise that LVLMs may generate hallucinations when confronted with images that defy common sense. Using LVLM to extract atomic facts from these images, we obtain a mix of accurate facts and erroneous hallucinations. We proceed by calculating pairwise entailment scores among these facts, subsequently aggregating these values to yield a singular reality score. This process serves to identify contradictions between genuine facts and hallucinatory elements, signaling the presence of images that violate common sense. Our approach has achieved a new state-of-the-art performance in zero-shot mode on the WHOOPS! dataset.
- Abstract(参考訳): 画像のリアリズムを定量化することは、人工知能の分野で難しい問題だ。
例えば、Albert Einsteinがスマートフォンを持っている画像は、アインシュタインの死後に発明されたため、常識に反する。
本稿では,LVLM(Large Vision-Language Models)とNLI(Natural Language Inference)を用いた画像リアリズム評価手法を提案する。
我々のアプローチは、LVLMが常識に反するイメージに直面すると幻覚を引き起こすという前提に基づいている。
これらの画像から原子的事実を抽出するためにLVLMを用いると、正確な事実と誤った幻覚の混合が得られる。
これらの事実のペアエンテーメントスコアを計算し、その後、これらの値を集約して単一の現実スコアを得る。
このプロセスは、真の事実と幻覚要素の矛盾を識別し、常識に反するイメージの存在を示唆する。
WHOOPS!データセットのゼロショットモードでは,新たな最先端性能を実現しています。
関連論文リスト
- Trust Me, I'm Wrong: High-Certainty Hallucinations in LLMs [45.13670875211498]
LLM(Large Language Models)はしばしば、幻覚として知られる実世界の事実に根ざしていない出力を生成する。
モデルが正しい知識を持つ場合でも、高い確実性で幻覚できることを示す。
論文 参考訳(メタデータ) (2025-02-18T15:46:31Z) - IllusionBench: A Large-scale and Comprehensive Benchmark for Visual Illusion Understanding in Vision-Language Models [56.34742191010987]
現在のビジュアル言語モデル(VLM)は印象的なイメージ理解を示すが、視覚錯覚に苦慮している。
我々はIllusionBenchを紹介した。IllusionBenchは、古典的な認知錯覚と現実のシーン錯覚を含む包括的視覚錯覚データセットである。
我々は従来のパターンに似ているが現実に異なるトラップイリュージョンを設計し、SOTAモデルの問題を強調する。
論文 参考訳(メタデータ) (2025-01-01T14:10:25Z) - Addressing Image Hallucination in Text-to-Image Generation through Factual Image Retrieval [14.471150840618211]
本稿では,外部から取得した実写画像を用いて現実的な画像を生成する手法を提案する。
InstructPix2Pix や IP-Adapter といった既製の画像編集ツールを使って、検索した画像の事実情報を活用する。
論文 参考訳(メタデータ) (2024-07-15T12:59:03Z) - VideoHallucer: Evaluating Intrinsic and Extrinsic Hallucinations in Large Video-Language Models [59.05674402770661]
本稿では,大規模ビデオ言語モデル(LVLM)における幻覚検出のための最初の総合的ベンチマークであるVideoHallucerを紹介する。
VideoHallucerは幻覚を2つの主なタイプに分類する。
論文 参考訳(メタデータ) (2024-06-24T06:21:59Z) - Does Object Grounding Really Reduce Hallucination of Large Vision-Language Models? [53.89380284760555]
大型視覚言語モデル(LVLM)は、画像に見つからない概念に言及するキャプションを生成する。
これらの幻覚は、LVLMの信頼性を損なうものであり、ユビキタス採用の主な障害であることは間違いない。
最近の研究は、画像領域やオブジェクトをテキストスパンに明示的にアライメントする、接地目的の追加は、LVLM幻覚の量を減らすことを示唆している。
論文 参考訳(メタデータ) (2024-06-20T16:56:11Z) - AutoHallusion: Automatic Generation of Hallucination Benchmarks for Vision-Language Models [91.78328878860003]
視覚言語モデル(LVLM)は幻覚の傾向が強い。
ベンチマークは多くの場合、障害パターンが一般化できない手作りのコーナーケースに依存します。
最初の自動ベンチマーク生成手法であるAutoHallusionを開発した。
論文 参考訳(メタデータ) (2024-06-16T11:44:43Z) - Alleviating Hallucinations in Large Vision-Language Models through Hallucination-Induced Optimization [123.54980913741828]
大規模ビジュアル言語モデル(LVLM)は、マルチモーダルデータの理解において、例外的な能力を示した。
彼らは必然的に幻覚に悩まされ、生成されたテキストと対応するイメージを切断する。
現在の視覚的コントラスト復号法のほとんどは、視覚的不確実性情報を導入して幻覚を緩和しようとするものである。
しかし、彼らは幻覚トークンを正確に誘導するのに苦労し、幻覚を緩和する効果を著しく制限した。
論文 参考訳(メタデータ) (2024-05-24T08:46:31Z) - ESREAL: Exploiting Semantic Reconstruction to Mitigate Hallucinations in Vision-Language Models [6.014286500397164]
視覚言語モデルにおける幻覚は、特に長いキャプションの生成において、その信頼性に重大な課題をもたらす。
本研究では,幻覚の正確な局在化と罰則化による幻覚の発生抑制を目的とした,新しい教師なし学習フレームワークであるESREALを紹介する。
LLaVA, InstructBLIP, mPLUG-Owl2の幻覚を32.81%, 27.08%, 7.46%減少させる。
論文 参考訳(メタデータ) (2024-03-24T14:21:06Z) - In-Context Sharpness as Alerts: An Inner Representation Perspective for
Hallucination Mitigation [36.31646727970656]
大規模言語モデル(LLM)は、しばしば幻覚を起こし、事実の誤りを引き起こす。
正しい世代は、不正な世代に比べて、コンテキスト内のトークンの隠された状態において、よりシャープなコンテキストアクティベーションを持つ傾向がある。
本研究では,テキスト内隠れ状態のシャープネス'を定量化し,デコード処理に組み込むエントロピーに基づく計量法を提案する。
論文 参考訳(メタデータ) (2024-03-03T15:53:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。