論文の概要: Hallucination Score: Towards Mitigating Hallucinations in Generative Image Super-Resolution
- arxiv url: http://arxiv.org/abs/2507.14367v1
- Date: Fri, 18 Jul 2025 21:13:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-22 20:51:31.858583
- Title: Hallucination Score: Towards Mitigating Hallucinations in Generative Image Super-Resolution
- Title(参考訳): 幻覚スコア:画像超解像における幻覚の緩和に向けて
- Authors: Weiming Ren, Raghav Goyal, Zhiming Hu, Tristan Ty Aumentado-Armstrong, Iqbal Mohomed, Alex Levinshtein,
- Abstract要約: 私たちは「幻覚」の測定、分析、緩和に重点を置いている
我々は、幻覚的視覚要素を評価して「幻覚スコア」(HS)を生成するプロンプトを構築することで、MLLM(Multimodal large language model)を利用する。
我々のHSは人間の評価と密接に一致しており、超解像(SR)モデルに使用される以前の画像メトリクスに補完的な洞察を提供する。
- 参考スコア(独自算出の注目度): 4.620784952867118
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generative super-resolution (GSR) currently sets the state-of-the-art in terms of perceptual image quality, overcoming the "regression-to-the-mean" blur of prior non-generative models. However, from a human perspective, such models do not fully conform to the optimal balance between quality and fidelity. Instead, a different class of artifacts, in which generated details fail to perceptually match the low resolution image (LRI) or ground-truth image (GTI), is a critical but under studied issue in GSR, limiting its practical deployments. In this work, we focus on measuring, analyzing, and mitigating these artifacts (i.e., "hallucinations"). We observe that hallucinations are not well-characterized with existing image metrics or quality models, as they are orthogonal to both exact fidelity and no-reference quality. Instead, we take advantage of a multimodal large language model (MLLM) by constructing a prompt that assesses hallucinatory visual elements and generates a "Hallucination Score" (HS). We find that our HS is closely aligned with human evaluations, and also provides complementary insights to prior image metrics used for super-resolution (SR) models. In addition, we find certain deep feature distances have strong correlations with HS. We therefore propose to align the GSR models by using such features as differentiable reward functions to mitigate hallucinations.
- Abstract(参考訳): 生成的超解像(GSR)は、現在、知覚的画質の観点で最先端を定めており、それまでの非生成的モデルの「平均的」曖昧さを克服している。
しかしながら、人間の視点では、そのようなモデルは品質と忠実性の最適なバランスに完全には適合しない。
代わりに、生成された細部がLRI(Low resolution image)やGTI(Garth-Truth image)と知覚的に一致しない異なる種類のアーティファクトは、GSRにおいて批判的だが研究中の課題であり、実用的展開を制限している。
本研究では,これらのアーティファクト(すなわち「幻覚」)の測定,分析,緩和に焦点を当てる。
我々は、幻覚が既存の画像の指標や品質モデルとうまく一致していないことを観察し、それらが正確な忠実さと非参照品質の両方に直交していることを示した。
その代わりに、幻覚的視覚要素を評価して「幻覚スコア」(HS)を生成するプロンプトを構築することで、MLLM(Multimodal large language model)を利用する。
我々のHSは人間の評価と密接に一致しており、超解像(SR)モデルに使用される以前の画像メトリクスに相補的な洞察を提供する。
さらに,特定の特徴距離がHSと強い相関関係があることが判明した。
そこで本研究では,幻覚を緩和するために,識別可能な報酬関数などの特徴を用いてGSRモデルを整列させることを提案する。
関連論文リスト
- SynMind: Reducing Semantic Hallucination in fMRI-Based Image Reconstruction [52.34513874272676]
既存の手法は、明示的な意味的アイデンティティよりも、絡み合った視覚的埋め込みに強く依存している、と我々は主張する。
我々はfMRI信号を、人間の視覚理解の階層的・構成的性質を反映したリッチで文レベルの意味記述に解析する。
そこで我々は,これらの明示的なセマンティックエンコーディングを視覚的プリエンプションと統合したフレームワークであるSynMindを提案する。
論文 参考訳(メタデータ) (2026-01-25T14:31:23Z) - CHEM: Estimating and Understanding Hallucinations in Deep Learning for Image Processing [17.573711532387176]
U-Netや他のU字型アーキテクチャは画像のデコンボリューションタスクにおいて大きな成功を収めている。
しかし、これらの手法は非現実的なアーティファクトや幻覚を発生させ、安全クリティカルなシナリオの分析に干渉する可能性がある。
本稿では,信頼できるコンピュータビジョンモデルを保証するために,幻覚を定量化し,解釈するための新しいアプローチを提案する。
論文 参考訳(メタデータ) (2025-12-10T16:20:00Z) - HalluGen: Synthesizing Realistic and Controllable Hallucinations for Evaluating Image Restoration [8.702496582146042]
HalluGenは、現実的な幻覚を制御可能なタイプ、位置、重大さで合成する拡散ベースのフレームワークである。
我々は4,350個の注釈付き画像からなる最初の大規模幻覚データセットを構築した。
HalluGenとそのオープンデータセットは、安全クリティカルな画像復元における幻覚を評価するための、最初のスケーラブルな基盤を確立している。
論文 参考訳(メタデータ) (2025-12-03T01:20:00Z) - GHOST: Hallucination-Inducing Image Generation for Multimodal LLMs [61.829473661517675]
本稿では,幻覚を誘発する画像を積極的に生成することにより,MLLMをストレステストする手法であるGHOSTを紹介する。
GHOSTは完全に自動化されており、人間の監督や事前の知識を必要としない。
GLM-4.1V-Thinkingのような推論モデルを含む様々なモデルにおいて本手法の評価を行い,従来のデータ駆動探索法と比較して28%以上の幻覚成功率を達成する。
論文 参考訳(メタデータ) (2025-09-29T17:59:23Z) - Generate, but Verify: Reducing Hallucination in Vision-Language Models with Retrospective Resampling [67.14942827452161]
VLM(Vision-Language Models)は視覚的理解に優れ、視覚幻覚に悩まされることが多い。
本研究では,幻覚を意識したトレーニングとオンザフライの自己検証を統合した統合フレームワークREVERSEを紹介する。
論文 参考訳(メタデータ) (2025-04-17T17:59:22Z) - Mitigating Low-Level Visual Hallucinations Requires Self-Awareness: Database, Model and Training Strategy [53.07517728420411]
低レベル視覚タスクにおける幻覚に焦点を当てた最初のインストラクションデータベースを提案する。
低レベル視覚タスクにおけるモデルの知覚と理解能力を向上させるための自己認識障害除去(SAFEQA)モデルを提案する。
低レベルの視覚課題に対する総合的な実験を行い、提案手法がこれらの課題におけるモデルの自己認識を著しく向上し、幻覚を低減させることを示す。
論文 参考訳(メタデータ) (2025-03-26T16:05:01Z) - Lost in Transcription, Found in Distribution Shift: Demystifying Hallucination in Speech Foundation Models [36.327525062842724]
幻覚は特に医療、法務、航空などの高額な領域に関係している。
本研究では,分布変化やモデルサイズ,モデルアーキテクチャなどの要因が幻覚発生誤差率(HER)にどのように影響するかを検討する。
我々の研究は、ASRモデルの性能を評価するために、WERのような従来の指標とHERを併用することの重要性を強調した。
論文 参考訳(メタデータ) (2025-02-18T01:25:39Z) - Towards a Systematic Evaluation of Hallucinations in Large-Vision Language Models [57.58426038241812]
LVLM(Large Vision-Language Models)は、複雑なマルチモーダルタスクにおいて顕著な性能を示す。
これらのモデルは、画像から様々な視覚的実体を暗黙的に認識または推測する必要がある場合、まだ幻覚に悩まされている。
本稿では,視覚的質問応答(VQA)ベンチマークを提案する。
論文 参考訳(メタデータ) (2024-12-29T23:56:01Z) - Detecting and Mitigating Hallucination in Large Vision Language Models via Fine-Grained AI Feedback [40.930238150365795]
我々は,LVLM(Large Vision Language Models)における幻覚の検出と緩和について,きめ細かいAIフィードバックを用いて提案する。
プロプライエタリモデルによる小型幻覚アノテーションデータセットを生成する。
そこで本研究では,幻覚緩和モデルの訓練のための選好データセットを自動構築する検出テーマ書き換えパイプラインを提案する。
論文 参考訳(メタデータ) (2024-04-22T14:46:10Z) - Prescribing the Right Remedy: Mitigating Hallucinations in Large Vision-Language Models via Targeted Instruction Tuning [13.805780090705252]
そこで本研究では,異なるモデルの幻覚特異性に合わせたDFTGという命令データ生成フレームワークを提案する。
幻覚ベンチマークによる実験結果から,本手法で生成した目標命令データの方が,従来よりも幻覚の緩和に有効であることが示唆された。
論文 参考訳(メタデータ) (2024-04-16T07:14:32Z) - IBD: Alleviating Hallucinations in Large Vision-Language Models via
Image-Biased Decoding [37.16880672402059]
言語的先行性への過度な依存は幻覚に繋がる重要な要因として認識されている。
本稿では,新しい画像バイアスデコーディング手法を導入することにより,この問題を軽減することを提案する。
提案手法は,従来のLVLMと画像バイアスLVLMの予測を対比することにより,次の確率分布を導出する。
論文 参考訳(メタデータ) (2024-02-28T16:57:22Z) - Aligning Modalities in Vision Large Language Models via Preference
Fine-tuning [67.62925151837675]
本研究では,幻覚の問題をアライメント問題とみなし,好みのチューニングで対処する。
具体的には,AIモデルを用いたフィードバックデータを生成するPOVIDを提案する。
提案手法は,好ましくないデータを生成するための2段階のアプローチである。
広範ベンチマークを用いた実験では、幻覚を減らすだけでなく、標準ベンチマークでのモデル性能を向上させることができ、従来の手法よりも優れていた。
論文 参考訳(メタデータ) (2024-02-18T00:56:16Z) - On Sensitivity and Robustness of Normalization Schemes to Input
Distribution Shifts in Automatic MR Image Diagnosis [58.634791552376235]
深層学習(DL)モデルは、再構成画像を入力として、複数の疾患の診断において最先端のパフォーマンスを達成した。
DLモデルは、トレーニングとテストフェーズ間の入力データ分布の変化につながるため、さまざまなアーティファクトに敏感である。
本稿では,グループ正規化やレイヤ正規化といった他の正規化手法を用いて,画像のさまざまなアーチファクトに対して,モデル性能にロバスト性を注入することを提案する。
論文 参考訳(メタデータ) (2023-06-23T03:09:03Z) - Hierarchical Similarity Learning for Aliasing Suppression Image
Super-Resolution [64.15915577164894]
エイリアスの影響を抑制するために階層画像超解像ネットワーク(HSRNet)を提案する。
HSRNetは、他の作品よりも定量的かつ視覚的なパフォーマンスを向上し、エイリアスをより効果的に再送信する。
論文 参考訳(メタデータ) (2022-06-07T14:55:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。