論文の概要: HalluGen: Synthesizing Realistic and Controllable Hallucinations for Evaluating Image Restoration
- arxiv url: http://arxiv.org/abs/2512.03345v1
- Date: Wed, 03 Dec 2025 01:20:00 GMT
- ステータス: 情報取得中
- システム内更新日: 2025-12-04 12:16:45.31585
- Title: HalluGen: Synthesizing Realistic and Controllable Hallucinations for Evaluating Image Restoration
- Title(参考訳): HalluGen:画像復元評価のためのリアルかつ制御可能な幻覚の合成
- Authors: Seunghoi Kim, Henry F. J. Tregidgo, Chen Jin, Matteo Figini, Daniel C. Alexander,
- Abstract要約: HalluGenは、現実的な幻覚を制御可能なタイプ、位置、重大さで合成する拡散ベースのフレームワークである。
我々は4,350個の注釈付き画像からなる最初の大規模幻覚データセットを構築した。
HalluGenとそのオープンデータセットは、安全クリティカルな画像復元における幻覚を評価するための、最初のスケーラブルな基盤を確立している。
- 参考スコア(独自算出の注目度): 8.702496582146042
- License:
- Abstract: Generative models are prone to hallucinations: plausible but incorrect structures absent in the ground truth. This issue is problematic in image restoration for safety-critical domains such as medical imaging, industrial inspection, and remote sensing, where such errors undermine reliability and trust. For example, in low-field MRI, widely used in resource-limited settings, restoration models are essential for enhancing low-quality scans, yet hallucinations can lead to serious diagnostic errors. Progress has been hindered by a circular dependency: evaluating hallucinations requires labeled data, yet such labels are costly and subjective. We introduce HalluGen, a diffusion-based framework that synthesizes realistic hallucinations with controllable type, location, and severity, producing perceptually realistic but semantically incorrect outputs (segmentation IoU drops from 0.86 to 0.36). Using HalluGen, we construct the first large-scale hallucination dataset comprising 4,350 annotated images derived from 1,450 brain MR images for low-field enhancement, enabling systematic evaluation of hallucination detection and mitigation. We demonstrate its utility in two applications: (1) benchmarking image quality metrics and developing Semantic Hallucination Assessment via Feature Evaluation (SHAFE), a feature-based metric with soft-attention pooling that improves hallucination sensitivity over traditional metrics; and (2) training reference-free hallucination detectors that generalize to real restoration failures. Together, HalluGen and its open dataset establish the first scalable foundation for evaluating hallucinations in safety-critical image restoration.
- Abstract(参考訳): 生成モデルは幻覚を起こす傾向がある。
この問題は、医療画像、産業検査、リモートセンシングなどの安全上重要な領域のイメージ復元において問題であり、そのようなエラーは信頼性と信頼性を損なう。
例えば、リソース制限された設定で広く使用される低磁場MRIでは、回復モデルは低品質スキャンの強化に不可欠であるが、幻覚は深刻な診断エラーを引き起こす可能性がある。
幻覚を評価するにはラベル付きデータが必要であるが、そのようなラベルは高価で主観的である。
本稿では,現実的な幻覚を制御可能なタイプ,位置,重大さで合成し,知覚的に現実的だが意味的に誤りのある出力を生成する拡散ベースのフレームワークであるHaluGenを紹介する(セグメンテーションIoUは0.86から0.36に低下する)。
HalluGenを用いて、1,450個の脳MR画像から得られた4,350個の注釈付き画像からなる最初の大規模幻覚データセットを構築し、幻覚検出と緩和の系統的評価を可能にした。
本研究では,(1)画像品質指標のベンチマークと特徴評価によるセマンティック幻覚評価(SHAFE)の開発,(2)実際の修復障害に一般化した基準自由幻覚検出装置の訓練,の2つの応用でその有用性を実証する。
HalluGenとそのオープンデータセットは、安全クリティカルな画像復元における幻覚を評価するための、最初のスケーラブルな基盤を確立している。
関連論文リスト
- GHOST: Hallucination-Inducing Image Generation for Multimodal LLMs [61.829473661517675]
本稿では,幻覚を誘発する画像を積極的に生成することにより,MLLMをストレステストする手法であるGHOSTを紹介する。
GHOSTは完全に自動化されており、人間の監督や事前の知識を必要としない。
GLM-4.1V-Thinkingのような推論モデルを含む様々なモデルにおいて本手法の評価を行い,従来のデータ駆動探索法と比較して28%以上の幻覚成功率を達成する。
論文 参考訳(メタデータ) (2025-09-29T17:59:23Z) - SHALE: A Scalable Benchmark for Fine-grained Hallucination Evaluation in LVLMs [52.03164192840023]
LVLM(Large Vision-Language Models)は、いまだ幻覚に悩まされている。
本稿では,スケーラブルで制御可能で多様な評価データを生成する自動データ構築パイプラインを提案する。
我々は,忠実度と事実性幻覚の両方を評価するためのベンチマークであるSHALEを構築した。
論文 参考訳(メタデータ) (2025-08-13T07:58:01Z) - HalluLens: LLM Hallucination Benchmark [49.170128733508335]
大規模言語モデル(LLM)は、しばしばユーザ入力やトレーニングデータから逸脱する応答を生成する。
本稿では,新たな内因性評価タスクと既存内因性評価タスクを併用した総合幻覚ベンチマークを提案する。
論文 参考訳(メタデータ) (2025-04-24T13:40:27Z) - Generate, but Verify: Reducing Hallucination in Vision-Language Models with Retrospective Resampling [78.78822033285938]
VLM(Vision-Language Models)は視覚的理解に優れ、視覚幻覚に悩まされることが多い。
本研究では,幻覚を意識したトレーニングとオンザフライの自己検証を統合した統合フレームワークREVERSEを紹介する。
論文 参考訳(メタデータ) (2025-04-17T17:59:22Z) - Valuable Hallucinations: Realizable Non-realistic Propositions [2.451326684641447]
本稿では,大規模言語モデル(LLM)における価値幻覚の形式的定義について紹介する。
特定の種類の幻覚が特定の文脈で提供できる潜在的な価値に焦点を当てる。
本稿では,Qwen2.5モデルとHaluQAデータセットを用いて,幻覚の制御と最適化を促進させるReActを用いて実験を行った。
論文 参考訳(メタデータ) (2025-02-16T12:59:11Z) - ESREAL: Exploiting Semantic Reconstruction to Mitigate Hallucinations in Vision-Language Models [6.014286500397164]
視覚言語モデルにおける幻覚は、特に長いキャプションの生成において、その信頼性に重大な課題をもたらす。
本研究では,幻覚の正確な局在化と罰則化による幻覚の発生抑制を目的とした,新しい教師なし学習フレームワークであるESREALを紹介する。
LLaVA, InstructBLIP, mPLUG-Owl2の幻覚を32.81%, 27.08%, 7.46%減少させる。
論文 参考訳(メタデータ) (2024-03-24T14:21:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。