論文の概要: Counting Hallucinations in Diffusion Models
- arxiv url: http://arxiv.org/abs/2510.13080v1
- Date: Wed, 15 Oct 2025 01:48:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-16 20:13:28.46837
- Title: Counting Hallucinations in Diffusion Models
- Title(参考訳): 拡散モデルにおける幻覚の数え方
- Authors: Shuai Fu, Jian Zhou, Qi Chen, Huang Jing, Huy Anh Nguyen, Xiaohan Liu, Zhixiong Zeng, Lin Ma, Quanshi Zhang, Qi Wu,
- Abstract要約: 拡散確率モデル(DPM)は、画像やビデオ合成などの生成タスクにおいて顕著な進歩を見せている。
彼らはしばしば、現実世界の知識と矛盾する幻覚的なサンプル(幻覚)を生産する。
その流行にもかかわらず、そのような幻覚を体系的に定量化するための実現可能な方法論の欠如は進歩を妨げている。
- 参考スコア(独自算出の注目度): 34.45858211220468
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion probabilistic models (DPMs) have demonstrated remarkable progress in generative tasks, such as image and video synthesis. However, they still often produce hallucinated samples (hallucinations) that conflict with real-world knowledge, such as generating an implausible duplicate cup floating beside another cup. Despite their prevalence, the lack of feasible methodologies for systematically quantifying such hallucinations hinders progress in addressing this challenge and obscures potential pathways for designing next-generation generative models under factual constraints. In this work, we bridge this gap by focusing on a specific form of hallucination, which we term counting hallucination, referring to the generation of an incorrect number of instances or structured objects, such as a hand image with six fingers, despite such patterns being absent from the training data. To this end, we construct a dataset suite CountHalluSet, with well-defined counting criteria, comprising ToyShape, SimObject, and RealHand. Using these datasets, we develop a standardized evaluation protocol for quantifying counting hallucinations, and systematically examine how different sampling conditions in DPMs, including solver type, ODE solver order, sampling steps, and initial noise, affect counting hallucination levels. Furthermore, we analyze their correlation with common evaluation metrics such as FID, revealing that this widely used image quality metric fails to capture counting hallucinations consistently. This work aims to take the first step toward systematically quantifying hallucinations in diffusion models and offer new insights into the investigation of hallucination phenomena in image generation.
- Abstract(参考訳): 拡散確率モデル(DPM)は、画像やビデオ合成などの生成タスクにおいて顕著な進歩を見せている。
しかし、彼らはしばしば、現実世界の知識と矛盾する幻覚的なサンプル(幻覚)を生成し、例えば別のカップの横に浮かんでいる不可解な二重カップを生成する。
それらの流行にもかかわらず、そのような幻覚を体系的に定量化する実現可能な方法論の欠如は、この問題に対処する進歩を妨げ、現実的な制約の下で次世代生成モデルを設計するための潜在的な経路を曖昧にする。
本研究では, 学習データから欠落しているにもかかわらず, 6本の指を持つ手画像などの不正確な事例や構造化対象の発生を参考に, 幻覚を数える特定の形態の幻覚に焦点をあてて, このギャップを埋める。
この目的のために、ToyShape、SimObject、RealHandを含むよく定義されたカウント基準を備えたデータセットスイートであるCountHalluSetを構築した。
これらのデータセットを用いて、幻覚の定量化のための標準化された評価プロトコルを開発し、解答器型、ODEソルバ次数、サンプリングステップ、初期ノイズなどのDPMの異なるサンプリング条件が幻覚のカウントレベルに与える影響を体系的に検証する。
さらに、FIDなどの一般的な評価指標との相関を解析し、この広く使われている画像品質指標が連続的に幻覚を捉えるのに失敗することを明らかにする。
本研究は,拡散モデルにおける幻覚の系統的定量化に向けての第一歩を踏み出し,画像生成における幻覚現象の研究に関する新たな知見を提供する。
関連論文リスト
- Mitigating Object Hallucinations via Sentence-Level Early Intervention [10.642552315531404]
マルチモーダルな大言語モデル(MLLM)は、多モーダルな理解に革命をもたらしたが、幻覚と闘い続けている。
人間のアノテーションに依存しないフレームワークであるSENTINELを提案する。
文レベルの早期iNtervention through IN- domain preference Learningは、オリジナルのモデルと比較して幻覚を90%以上減らすことができる。
論文 参考訳(メタデータ) (2025-07-16T17:55:43Z) - Why and How LLMs Hallucinate: Connecting the Dots with Subsequence Associations [82.42811602081692]
本稿では,幻覚を体系的に追跡・理解するサブシーケンス・アソシエーション・フレームワークを提案する。
主要な洞察は、支配的な幻覚協会が忠実なものを上回るときに生じる幻覚である。
ランダムな入力コンテキストにおける幻覚の確率を解析することにより因果列を同定するトレースアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-04-17T06:34:45Z) - Understanding Hallucinations in Diffusion Models through Mode Interpolation [89.10226585746848]
拡散モデルにおける特定の障害モードについて検討し、これをモードモードと呼ぶ。
トレーニングセット内のデータモード間の拡散モデルを円滑に"補間"し,元のトレーニング分布の支持から完全に外れたサンプルを生成する。
幻覚が、かつて存在しなかった形の組み合わせをいかに生み出すかを示す。
論文 参考訳(メタデータ) (2024-06-13T17:43:41Z) - HalluciDoctor: Mitigating Hallucinatory Toxicity in Visual Instruction Data [102.56792377624927]
機械生成データに固有の幻覚は未発見のままである。
本稿では,クロスチェックパラダイムに基づく新しい幻覚検出・除去フレームワークであるHaluciDoctorを提案する。
LLaVAに比べて44.6%の幻覚を緩和し,競争性能を維持した。
論文 参考訳(メタデータ) (2023-11-22T04:52:58Z) - AutoHall: Automated Hallucination Dataset Generation for Large Language Models [56.92068213969036]
本稿では,AutoHallと呼ばれる既存のファクトチェックデータセットに基づいて,モデル固有の幻覚データセットを自動的に構築する手法を提案する。
また,自己コントラディションに基づくゼロリソース・ブラックボックス幻覚検出手法を提案する。
論文 参考訳(メタデータ) (2023-09-30T05:20:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。