論文の概要: CHEM: Estimating and Understanding Hallucinations in Deep Learning for Image Processing
- arxiv url: http://arxiv.org/abs/2512.09806v1
- Date: Wed, 10 Dec 2025 16:20:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-11 15:14:53.595502
- Title: CHEM: Estimating and Understanding Hallucinations in Deep Learning for Image Processing
- Title(参考訳): CHEM:画像処理のためのディープラーニングにおける幻覚の推定と理解
- Authors: Jianfei Li, Ines Rosellon-Inclan, Gitta Kutyniok, Jean-Luc Starck,
- Abstract要約: U-Netや他のU字型アーキテクチャは画像のデコンボリューションタスクにおいて大きな成功を収めている。
しかし、これらの手法は非現実的なアーティファクトや幻覚を発生させ、安全クリティカルなシナリオの分析に干渉する可能性がある。
本稿では,信頼できるコンピュータビジョンモデルを保証するために,幻覚を定量化し,解釈するための新しいアプローチを提案する。
- 参考スコア(独自算出の注目度): 17.573711532387176
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: U-Net and other U-shaped architectures have achieved significant success in image deconvolution tasks. However, challenges have emerged, as these methods might generate unrealistic artifacts or hallucinations, which can interfere with analysis in safety-critical scenarios. This paper introduces a novel approach for quantifying and comprehending hallucination artifacts to ensure trustworthy computer vision models. Our method, termed the Conformal Hallucination Estimation Metric (CHEM), is applicable to any image reconstruction model, enabling efficient identification and quantification of hallucination artifacts. It offers two key advantages: it leverages wavelet and shearlet representations to efficiently extract hallucinations of image features and uses conformalized quantile regression to assess hallucination levels in a distribution-free manner. Furthermore, from an approximation theoretical perspective, we explore the reasons why U-shaped networks are prone to hallucinations. We test the proposed approach on the CANDELS astronomical image dataset with models such as U-Net, SwinUNet, and Learnlets, and provide new perspectives on hallucination from different aspects in deep learning-based image processing.
- Abstract(参考訳): U-Netや他のU字型アーキテクチャは画像のデコンボリューションタスクにおいて大きな成功を収めている。
しかし、これらの手法は非現実的なアーティファクトや幻覚を発生させる可能性があり、安全クリティカルなシナリオの分析に干渉する可能性がある。
本稿では,信頼できるコンピュータビジョンモデルを保証するために,幻覚を定量化し,解釈するための新しいアプローチを提案する。
コンフォーマル幻覚推定基準(CHEM)と呼ばれるこの手法は,任意の画像再構成モデルに適用可能であり,幻覚生成物の効率的な同定と定量化を可能にする。
ウェーブレットとシャーレット表現を利用して画像特徴の幻覚を効率的に抽出し、共形量子回帰を用いて分布のない方法で幻覚レベルを評価する。
さらに、近似理論の観点から、U字型ネットワークが幻覚の傾向にある理由を考察する。
提案手法は,U-Net,SwinUNet,Learnerletsなどのモデルを用いて,CANDELSの天体画像データセット上で検証し,深層学習に基づく画像処理におけるさまざまな側面からの幻覚の新しい視点を提供する。
関連論文リスト
- A novel hallucination classification framework [0.0]
本研究では,大規模言語モデル(LLM)における幻覚の自動検出手法を提案する。
提案手法は,素早い工学的手法による系統分類と多様な幻覚の再現制御に基づく。
論文 参考訳(メタデータ) (2025-10-06T09:54:20Z) - MIHBench: Benchmarking and Mitigating Multi-Image Hallucinations in Multimodal Large Language Models [73.20126092411776]
マルチイメージMLLMにおける幻覚に関する最初の体系的研究を行う。
複数の画像に対してオブジェクト関連幻覚を評価するためのベンチマークであるMIHBenchを提案する。
MIHBenchは、Multi-Image Object Existence Hallucination、Multi-Image Object Count Hallucination、Object Identity Consistency Hallucinationの3つのコアタスクから構成される。
論文 参考訳(メタデータ) (2025-08-01T15:49:29Z) - Mitigating Low-Level Visual Hallucinations Requires Self-Awareness: Database, Model and Training Strategy [53.07517728420411]
低レベル視覚タスクにおける幻覚に焦点を当てた最初のインストラクションデータベースを提案する。
低レベル視覚タスクにおけるモデルの知覚と理解能力を向上させるための自己認識障害除去(SAFEQA)モデルを提案する。
低レベルの視覚課題に対する総合的な実験を行い、提案手法がこれらの課題におけるモデルの自己認識を著しく向上し、幻覚を低減させることを示す。
論文 参考訳(メタデータ) (2025-03-26T16:05:01Z) - Mitigating Hallucinations in Large Vision-Language Models by Adaptively Constraining Information Flow [32.039946174953236]
大きな視覚言語モデルは、人間の言語を通して視覚情報を理解する大きな可能性を示している。
それらは、物体の幻覚に苦しむ傾向があり、すなわち、生成された画像記述には、画像の中に存在しない物体が含まれている。
本稿では,幻覚雑音の導入による過信を軽減するため,変分情報ボトルネック(VIB)を提案する。
論文 参考訳(メタデータ) (2025-02-28T05:56:23Z) - Towards a Systematic Evaluation of Hallucinations in Large-Vision Language Models [57.58426038241812]
LVLM(Large Vision-Language Models)は、複雑なマルチモーダルタスクにおいて顕著な性能を示す。
これらのモデルは、画像から様々な視覚的実体を暗黙的に認識または推測する必要がある場合、まだ幻覚に悩まされている。
本稿では,視覚的質問応答(VQA)ベンチマークを提案する。
論文 参考訳(メタデータ) (2024-12-29T23:56:01Z) - VaLiD: Mitigating the Hallucination of Large Vision Language Models by Visual Layer Fusion Contrastive Decoding [38.23310445372371]
LVLM(Large Vision-Language Models)はマルチモーダルタスク推論において顕著な機能を示す。
彼らはしばしば、幻覚として知られる視覚的内容が正確に反映されていないように思われる応答を生成する。
近年のアプローチでは、推論段階における復号化戦略を調整することで幻覚を緩和するための訓練不要な手法が導入されている。
textbfVisutextbfal textbfLayer Fustextbfion textbfD
論文 参考訳(メタデータ) (2024-11-24T13:42:02Z) - From Pixels to Tokens: Revisiting Object Hallucinations in Large Vision-Language Models [15.401221354325672]
大型視覚モデル(LVLM)における幻覚は、視覚入力に表示されない物体を生成するという重要な課題である。
最近の研究では、幻覚は視覚的な入力の理解の欠如に起因しているが、より根本的な問題は無視されている。
本稿では,LVLMの幻覚をアーキテクチャの観点から再検討し,視覚エンコーダ(機能抽出)とモーダルアライメントモジュール(機能デカップリング)の主な原因について検討する。
論文 参考訳(メタデータ) (2024-10-09T11:46:32Z) - Alleviating Hallucinations in Large Vision-Language Models through Hallucination-Induced Optimization [123.54980913741828]
大規模ビジュアル言語モデル(LVLM)は、マルチモーダルデータの理解において、例外的な能力を示した。
彼らは必然的に幻覚に悩まされ、生成されたテキストと対応するイメージを切断する。
現在の視覚的コントラスト復号法のほとんどは、視覚的不確実性情報を導入して幻覚を緩和しようとするものである。
しかし、彼らは幻覚トークンを正確に誘導するのに苦労し、幻覚を緩和する効果を著しく制限した。
論文 参考訳(メタデータ) (2024-05-24T08:46:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。