論文の概要: HEIE: MLLM-Based Hierarchical Explainable AIGC Image Implausibility Evaluator
- arxiv url: http://arxiv.org/abs/2411.17261v1
- Date: Tue, 26 Nov 2024 09:37:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-27 13:36:58.972155
- Title: HEIE: MLLM-Based Hierarchical Explainable AIGC Image Implausibility Evaluator
- Title(参考訳): HEIE:MLLMに基づく階層的説明可能なAIGC画像インポーラビリティ評価器
- Authors: Fan Yang, Ru Zhen, Jianing Wang, Yanhao Zhang, Haoxiang Chen, Haonan Lu, Sicheng Zhao, Guiguang Ding,
- Abstract要約: MLLMに基づく階層的説明可能な画像不明瞭性評価器 HEIE を提案する。
本稿では、ヒートマップ、スコア、説明出力を統合したCoT駆動型説明可能なトリニティ評価器を紹介する。
また,AIGC画像の解釈不可能性評価を容易にするための新しいデータセットであるExpl-AIGI-Evalを提案する。
- 参考スコア(独自算出の注目度): 41.95452155233901
- License:
- Abstract: AIGC images are prevalent across various fields, yet they frequently suffer from quality issues like artifacts and unnatural textures. Specialized models aim to predict defect region heatmaps but face two primary challenges: (1) lack of explainability, failing to provide reasons and analyses for subtle defects, and (2) inability to leverage common sense and logical reasoning, leading to poor generalization. Multimodal large language models (MLLMs) promise better comprehension and reasoning but face their own challenges: (1) difficulty in fine-grained defect localization due to the limitations in capturing tiny details; and (2) constraints in providing pixel-wise outputs necessary for precise heatmap generation. To address these challenges, we propose HEIE: a novel MLLM-Based Hierarchical Explainable image Implausibility Evaluator. We introduce the CoT-Driven Explainable Trinity Evaluator, which integrates heatmaps, scores, and explanation outputs, using CoT to decompose complex tasks into subtasks of increasing difficulty and enhance interpretability. Our Adaptive Hierarchical Implausibility Mapper synergizes low-level image features with high-level mapper tokens from LLMs, enabling precise local-to-global hierarchical heatmap predictions through an uncertainty-based adaptive token approach. Moreover, we propose a new dataset: Expl-AIGI-Eval, designed to facilitate interpretable implausibility evaluation of AIGC images. Our method demonstrates state-of-the-art performance through extensive experiments.
- Abstract(参考訳): AIGC画像は様々な分野に普及しているが、アーティファクトや不自然なテクスチャといった品質問題に悩まされることが多い。
特化モデルは欠陥領域のヒートマップを予測することを目的としているが、(1)説明可能性の欠如、微妙な欠陥の理由や分析の欠如、(2)常識と論理的推論を活用できないこと、の2つの主な課題に直面している。
マルチモーダル大規模言語モデル(MLLM)は、より理解と推論を約束するが、その課題に直面する。(1)小さな細部をキャプチャする制限によるきめ細かい欠陥ローカライゼーションの難しさ、(2)正確なヒートマップ生成に必要なピクセル単位の出力を提供することの制約。
これらの課題に対処するために,新しいMLLMに基づく階層的説明可能な画像不明瞭性評価器であるHEIEを提案する。
本稿では, CoT を用いて複雑なタスクを分割し, 難易度を高め, 解釈可能性を高めることで, ヒートマップ, スコア, 説明出力を統合した CoT-Driven Explainable Trinity Evaluator を提案する。
適応階層型不規則写像は,LLMから高レベルなマッパートークンを用いて低レベルな画像特徴を相乗化することにより,不確実性に基づく適応トークンアプローチによる局所的・グローバル的階層型熱マップの正確な予測を可能にする。
さらに,AIGC画像の解釈不可能性評価を容易にするための新しいデータセットであるExpl-AIGI-Evalを提案する。
提案手法は,広範囲な実験を通じて最先端の性能を示す。
関連論文リスト
- ForgeryGPT: Multimodal Large Language Model For Explainable Image Forgery Detection and Localization [49.992614129625274]
ForgeryGPTはImage Forgery DetectionとLocalizationタスクを進化させる新しいフレームワークである。
多様な言語的特徴空間からの偽画像の高次相関をキャプチャする。
新たにカスタマイズされたLarge Language Model (LLM)アーキテクチャを通じて、説明可能な生成と対話を可能にする。
論文 参考訳(メタデータ) (2024-10-14T07:56:51Z) - VMAD: Visual-enhanced Multimodal Large Language Model for Zero-Shot Anomaly Detection [19.79027968793026]
Zero-shot Anomaly Detection (ZSAD)は、未確認のオブジェクト内の異常を認識し、ローカライズする。
既存のZSADメソッドは、クローズドワールド設定によって制限され、事前に定義されたプロンプトで見つからない欠陥に苦労する。
我々は、視覚的IAD知識ときめ細かい知覚でMLLMを強化する新しいフレームワークVMAD(Visual-enhanced MLLM Anomaly Detection)を提案する。
論文 参考訳(メタデータ) (2024-09-30T09:51:29Z) - Towards Latent Masked Image Modeling for Self-Supervised Visual Representation Learning [18.424840375721303]
Masked Image Modeling (MIM) は、画像のマスク部分から失明画素を予測することで、ラベルのない画像データから視覚表現を導出するための有望な方法として登場した。
有望だが実現不可能なフレームワークは、MIMの局所性と高レベルな目標を組み合わせ、潜在空間におけるマスク付き再構成を通して表現を学習することである。
この研究は、このようなフレームワークの課題を徹底的に分析し、対処する最初の試みの一つであり、このフレームワークはLatent MIMと呼ばれている。
論文 参考訳(メタデータ) (2024-07-22T17:54:41Z) - Do LLMs Understand Visual Anomalies? Uncovering LLM's Capabilities in Zero-shot Anomaly Detection [18.414762007525137]
大規模視覚言語モデル(LVLM)は、自然言語で導かれる視覚表現の導出に長けている。
近年の研究では、ゼロショット視覚異常検出(VAD)の課題に取り組むためにLVLMを用いている。
統一モデルを用いてこれらの課題に対処するために設計された、トレーニング不要のアプローチであるALFAを提案する。
論文 参考訳(メタデータ) (2024-04-15T10:42:22Z) - Debiasing Multimodal Large Language Models [61.6896704217147]
LVLM(Large Vision-Language Models)は、コンピュータビジョンや自然言語処理において欠かせないツールとなっている。
本研究は,入力画像に先行するLarge Language Models (LLM) の影響を主に受け,生成したコンテンツに有意なバイアスが生じることを示す。
これらのバイアスを是正し、視覚情報に対するモデルの焦点をリダイレクトするために、我々は2つの単純で訓練のない戦略を導入する。
論文 参考訳(メタデータ) (2024-03-08T12:35:07Z) - Perceptual MAE for Image Manipulation Localization: A High-level Vision
Learner Focusing on Low-level Features [33.37376410890546]
本稿では,Masked Autoencoder (MAE) を高精細な入力と知覚的損失監視モジュールを組み込むことで拡張する手法を提案する。
このような解釈に基づいて,高精細な入力と知覚的損失監視モジュールを組み込むことで,Masked Autoencoder (MAE) を強化する手法を提案する。
論文 参考訳(メタデータ) (2023-10-10T11:14:29Z) - Hybrid-Supervised Dual-Search: Leveraging Automatic Learning for
Loss-free Multi-Exposure Image Fusion [60.221404321514086]
マルチ露光画像融合(MEF)は、様々な露光レベルを表すデジタルイメージングの限界に対処するための重要な解決策である。
本稿では、ネットワーク構造と損失関数の両方を自動設計するための二段階最適化探索方式であるHSDS-MEFと呼ばれるMEFのためのハイブリッドスーパービジョンデュアルサーチ手法を提案する。
論文 参考訳(メタデータ) (2023-09-03T08:07:26Z) - Bridging Composite and Real: Towards End-to-end Deep Image Matting [88.79857806542006]
画像マッチングにおける意味論と細部の役割について検討する。
本稿では,共有エンコーダと2つの分離デコーダを用いた新しいGlance and Focus Matting Network(GFM)を提案する。
総合的な実証研究により、GFMは最先端の手法より優れていることが示されている。
論文 参考訳(メタデータ) (2020-10-30T10:57:13Z) - Semi-Supervised StyleGAN for Disentanglement Learning [79.01988132442064]
現在の解離法は、いくつかの固有の制限に直面している。
半教師付き高分解能ディスタングル学習のためのStyleGANに基づく新しいアーキテクチャと損失関数を設計する。
論文 参考訳(メタデータ) (2020-03-06T22:54:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。