論文の概要: Hallucination Score: Towards Mitigating Hallucinations in Generative Image Super-Resolution
- arxiv url: http://arxiv.org/abs/2507.14367v1
- Date: Fri, 18 Jul 2025 21:13:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-22 20:51:31.858583
- Title: Hallucination Score: Towards Mitigating Hallucinations in Generative Image Super-Resolution
- Title(参考訳): 幻覚スコア:画像超解像における幻覚の緩和に向けて
- Authors: Weiming Ren, Raghav Goyal, Zhiming Hu, Tristan Ty Aumentado-Armstrong, Iqbal Mohomed, Alex Levinshtein,
- Abstract要約: 私たちは「幻覚」の測定、分析、緩和に重点を置いている
我々は、幻覚的視覚要素を評価して「幻覚スコア」(HS)を生成するプロンプトを構築することで、MLLM(Multimodal large language model)を利用する。
我々のHSは人間の評価と密接に一致しており、超解像(SR)モデルに使用される以前の画像メトリクスに補完的な洞察を提供する。
- 参考スコア(独自算出の注目度): 4.620784952867118
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generative super-resolution (GSR) currently sets the state-of-the-art in terms of perceptual image quality, overcoming the "regression-to-the-mean" blur of prior non-generative models. However, from a human perspective, such models do not fully conform to the optimal balance between quality and fidelity. Instead, a different class of artifacts, in which generated details fail to perceptually match the low resolution image (LRI) or ground-truth image (GTI), is a critical but under studied issue in GSR, limiting its practical deployments. In this work, we focus on measuring, analyzing, and mitigating these artifacts (i.e., "hallucinations"). We observe that hallucinations are not well-characterized with existing image metrics or quality models, as they are orthogonal to both exact fidelity and no-reference quality. Instead, we take advantage of a multimodal large language model (MLLM) by constructing a prompt that assesses hallucinatory visual elements and generates a "Hallucination Score" (HS). We find that our HS is closely aligned with human evaluations, and also provides complementary insights to prior image metrics used for super-resolution (SR) models. In addition, we find certain deep feature distances have strong correlations with HS. We therefore propose to align the GSR models by using such features as differentiable reward functions to mitigate hallucinations.
- Abstract(参考訳): 生成的超解像(GSR)は、現在、知覚的画質の観点で最先端を定めており、それまでの非生成的モデルの「平均的」曖昧さを克服している。
しかしながら、人間の視点では、そのようなモデルは品質と忠実性の最適なバランスに完全には適合しない。
代わりに、生成された細部がLRI(Low resolution image)やGTI(Garth-Truth image)と知覚的に一致しない異なる種類のアーティファクトは、GSRにおいて批判的だが研究中の課題であり、実用的展開を制限している。
本研究では,これらのアーティファクト(すなわち「幻覚」)の測定,分析,緩和に焦点を当てる。
我々は、幻覚が既存の画像の指標や品質モデルとうまく一致していないことを観察し、それらが正確な忠実さと非参照品質の両方に直交していることを示した。
その代わりに、幻覚的視覚要素を評価して「幻覚スコア」(HS)を生成するプロンプトを構築することで、MLLM(Multimodal large language model)を利用する。
我々のHSは人間の評価と密接に一致しており、超解像(SR)モデルに使用される以前の画像メトリクスに相補的な洞察を提供する。
さらに,特定の特徴距離がHSと強い相関関係があることが判明した。
そこで本研究では,幻覚を緩和するために,識別可能な報酬関数などの特徴を用いてGSRモデルを整列させることを提案する。
関連論文リスト
- Generate, but Verify: Reducing Hallucination in Vision-Language Models with Retrospective Resampling [67.14942827452161]
VLM(Vision-Language Models)は視覚的理解に優れ、視覚幻覚に悩まされることが多い。
本研究では,幻覚を意識したトレーニングとオンザフライの自己検証を統合した統合フレームワークREVERSEを紹介する。
論文 参考訳(メタデータ) (2025-04-17T17:59:22Z) - Mitigating Low-Level Visual Hallucinations Requires Self-Awareness: Database, Model and Training Strategy [53.07517728420411]
低レベル視覚タスクにおける幻覚に焦点を当てた最初のインストラクションデータベースを提案する。
低レベル視覚タスクにおけるモデルの知覚と理解能力を向上させるための自己認識障害除去(SAFEQA)モデルを提案する。
低レベルの視覚課題に対する総合的な実験を行い、提案手法がこれらの課題におけるモデルの自己認識を著しく向上し、幻覚を低減させることを示す。
論文 参考訳(メタデータ) (2025-03-26T16:05:01Z) - Lost in Transcription, Found in Distribution Shift: Demystifying Hallucination in Speech Foundation Models [36.327525062842724]
幻覚は特に医療、法務、航空などの高額な領域に関係している。
本研究では,分布変化やモデルサイズ,モデルアーキテクチャなどの要因が幻覚発生誤差率(HER)にどのように影響するかを検討する。
我々の研究は、ASRモデルの性能を評価するために、WERのような従来の指標とHERを併用することの重要性を強調した。
論文 参考訳(メタデータ) (2025-02-18T01:25:39Z) - Towards a Systematic Evaluation of Hallucinations in Large-Vision Language Models [57.58426038241812]
LVLM(Large Vision-Language Models)は、複雑なマルチモーダルタスクにおいて顕著な性能を示す。
これらのモデルは、画像から様々な視覚的実体を暗黙的に認識または推測する必要がある場合、まだ幻覚に悩まされている。
本稿では,視覚的質問応答(VQA)ベンチマークを提案する。
論文 参考訳(メタデータ) (2024-12-29T23:56:01Z) - Detecting and Mitigating Hallucination in Large Vision Language Models via Fine-Grained AI Feedback [40.930238150365795]
我々は,LVLM(Large Vision Language Models)における幻覚の検出と緩和について,きめ細かいAIフィードバックを用いて提案する。
プロプライエタリモデルによる小型幻覚アノテーションデータセットを生成する。
そこで本研究では,幻覚緩和モデルの訓練のための選好データセットを自動構築する検出テーマ書き換えパイプラインを提案する。
論文 参考訳(メタデータ) (2024-04-22T14:46:10Z) - Prescribing the Right Remedy: Mitigating Hallucinations in Large Vision-Language Models via Targeted Instruction Tuning [13.805780090705252]
そこで本研究では,異なるモデルの幻覚特異性に合わせたDFTGという命令データ生成フレームワークを提案する。
幻覚ベンチマークによる実験結果から,本手法で生成した目標命令データの方が,従来よりも幻覚の緩和に有効であることが示唆された。
論文 参考訳(メタデータ) (2024-04-16T07:14:32Z) - IBD: Alleviating Hallucinations in Large Vision-Language Models via
Image-Biased Decoding [37.16880672402059]
言語的先行性への過度な依存は幻覚に繋がる重要な要因として認識されている。
本稿では,新しい画像バイアスデコーディング手法を導入することにより,この問題を軽減することを提案する。
提案手法は,従来のLVLMと画像バイアスLVLMの予測を対比することにより,次の確率分布を導出する。
論文 参考訳(メタデータ) (2024-02-28T16:57:22Z) - Aligning Modalities in Vision Large Language Models via Preference
Fine-tuning [67.62925151837675]
本研究では,幻覚の問題をアライメント問題とみなし,好みのチューニングで対処する。
具体的には,AIモデルを用いたフィードバックデータを生成するPOVIDを提案する。
提案手法は,好ましくないデータを生成するための2段階のアプローチである。
広範ベンチマークを用いた実験では、幻覚を減らすだけでなく、標準ベンチマークでのモデル性能を向上させることができ、従来の手法よりも優れていた。
論文 参考訳(メタデータ) (2024-02-18T00:56:16Z) - On Sensitivity and Robustness of Normalization Schemes to Input
Distribution Shifts in Automatic MR Image Diagnosis [58.634791552376235]
深層学習(DL)モデルは、再構成画像を入力として、複数の疾患の診断において最先端のパフォーマンスを達成した。
DLモデルは、トレーニングとテストフェーズ間の入力データ分布の変化につながるため、さまざまなアーティファクトに敏感である。
本稿では,グループ正規化やレイヤ正規化といった他の正規化手法を用いて,画像のさまざまなアーチファクトに対して,モデル性能にロバスト性を注入することを提案する。
論文 参考訳(メタデータ) (2023-06-23T03:09:03Z) - Hierarchical Similarity Learning for Aliasing Suppression Image
Super-Resolution [64.15915577164894]
エイリアスの影響を抑制するために階層画像超解像ネットワーク(HSRNet)を提案する。
HSRNetは、他の作品よりも定量的かつ視覚的なパフォーマンスを向上し、エイリアスをより効果的に再送信する。
論文 参考訳(メタデータ) (2022-06-07T14:55:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。