論文の概要: Interpretable Evaluation of AI-Generated Content with Language-Grounded Sparse Encoders
- arxiv url: http://arxiv.org/abs/2508.18236v1
- Date: Wed, 20 Aug 2025 06:50:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-26 18:43:45.891423
- Title: Interpretable Evaluation of AI-Generated Content with Language-Grounded Sparse Encoders
- Title(参考訳): 言語付きスパースエンコーダを用いたAI生成コンテンツの解釈可能評価
- Authors: Yiming Tang, Arash Lagzian, Srinivas Anumasa, Qiran Zou, Trang Nguyen, Ehsan Adeli, Ching-Yu Cheng, Yilun Du, Dianbo Liu,
- Abstract要約: Language-Grounded Sparses (LanSE)は、解釈可能な評価指標を作成する新しいアーキテクチャである。
LanSEは、生成品質、プロンプトマッチ、ビジュアルリアリズム、物理的妥当性、コンテンツ多様性の4つの重要な次元を定量化する、きめ細かい評価フレームワークを提供する。
LanSEは、解釈可能性と実用的な評価ニーズをブリッジすることによって、生成AIモデルのすべてのユーザに、モデル選択、合成コンテンツの品質管理、モデル改善のための強力なツールを提供する。
- 参考スコア(独自算出の注目度): 46.53980721417588
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While the quality of AI-generated contents, such as synthetic images, has become remarkably high, current evaluation metrics provide only coarse-grained assessments, failing to identify specific strengths and weaknesses that researchers and practitioners need for model selection and development, further limiting the scientific understanding and commercial deployment of these generative models. To address this, we introduce Language-Grounded Sparse Encoders (LanSE), a novel architecture that creates interpretable evaluation metrics by identifying interpretable visual patterns and automatically describing them in natural language. Through large-scale human evaluation (more than 11,000 annotations) and large multimodal model (LMM) based analysis, LanSE demonstrates reliable capabilities to detect interpretable visual patterns in synthetic images with more than 93\% accuracy in natural images. LanSE further provides a fine-grained evaluation framework that quantifies four key dimensions of generation quality, prompt match, visual realism, physical plausibility, and content diversity. LanSE reveals nuanced model differences invisible to existing metrics, for instance, FLUX's superior physical plausibility and SDXL-medium's strong content diversity, while aligning with human judgments. By bridging interpretability with practical evaluation needs, LanSE offers all users of generative AI models a powerful tool for model selection, quality control of synthetic content, and model improvement. These capabilities directly address the need for public confidence and safety in AI-generated content, both critical for the future of generative AI applications.
- Abstract(参考訳): 合成画像などのAI生成コンテンツの品質は著しく高まっているが、現在の評価指標は粗い評価のみを提供し、研究者や実践者がモデル選択と開発に必要とする具体的な強度と弱点を特定しず、これらの生成モデルの科学的理解と商業的展開を制限している。
この問題を解決するためにLanguage-Grounded Sparse Encoders (LanSE)を導入する。Language-Grounded Sparse Encodersは、解釈可能な視覚パターンを特定し、それらを自然言語で自動的に記述することで、解釈可能な評価指標を作成する新しいアーキテクチャである。
大規模な人による評価(11,000以上のアノテーション)と大規模マルチモーダルモデル(LMM)に基づく解析を通じて、LanSEは、自然画像の93%以上の精度で合成画像の解釈可能な視覚パターンを検出する信頼性を示す。
LanSEはさらに、生成品質、プロンプトマッチ、ビジュアルリアリズム、物理的妥当性、コンテンツ多様性の4つの重要な次元を定量化する、きめ細かい評価フレームワークを提供している。
LanSEは、FLUXの優れた物理的可視性やSDXL-mediumの強い内容の多様性など、既存の指標に見えないニュアンスドモデルの違いを明らかにしている。
LanSEは、解釈可能性と実用的な評価ニーズをブリッジすることによって、生成AIモデルのすべてのユーザに、モデル選択、合成コンテンツの品質管理、モデル改善のための強力なツールを提供する。
これらの機能は、AI生成コンテンツにおける公衆の信頼と安全の必要性に直接対処する。
関連論文リスト
- DependencyAI: Detecting AI Generated Text through Dependency Parsing [10.075606234222963]
本稿では,AI生成テキストを検出するための簡易かつ解釈可能なアプローチであるDependencyAIを紹介する。
本手法は,モノリンガル,マルチジェネレータ,多言語設定間での競合性能を実現する。
論文 参考訳(メタデータ) (2026-02-17T11:42:28Z) - Training Data Attribution for Image Generation using Ontology-Aligned Knowledge Graphs [3.686386213696443]
本稿では,知識グラフの自動構築を通じて生成出力を解釈するフレームワークを提案する。
本手法は, 画像から立体構造を抽出し, 領域固有のオントロジーと整合する。
生成された画像とトレーニング画像のKGを比較して、潜在的な影響をトレースし、著作権分析、データセットの透明性、解釈可能なAIを可能にします。
論文 参考訳(メタデータ) (2025-12-02T12:45:20Z) - ChatGpt Content detection: A new approach using xlm-roberta alignment [0.0]
本稿では,最先端多言語変換モデルであるXLM-RoBERTaを用いて,AI生成テキストを検出するための包括的手法を提案する。
我々は、人間とAIが生成したテキストのバランスのとれたデータセット上でモデルを微調整し、その性能を評価した。
我々の発見は、学術的完全性を維持するための貴重なツールを提供し、AI倫理の幅広い分野に貢献する。
論文 参考訳(メタデータ) (2025-11-26T03:16:57Z) - ForenX: Towards Explainable AI-Generated Image Detection with Multimodal Large Language Models [82.04858317800097]
ForenXは画像の真正性を識別するだけでなく、人間の思考に共鳴する説明を提供する新しい手法である。
ForenXは、強力なマルチモーダル大言語モデル(MLLM)を使用して、法医学的な手がかりを分析し、解釈する。
本稿では,AI生成画像における偽証拠の記述専用のデータセットであるForgReasonを紹介する。
論文 参考訳(メタデータ) (2025-08-02T15:21:26Z) - Interpretable and Reliable Detection of AI-Generated Images via Grounded Reasoning in MLLMs [43.08776932101172]
私たちは、バウンディングボックスと記述キャプションを付加したAI生成画像のデータセットを構築します。
次に、多段階最適化戦略によりMLLMを微調整する。
得られたモデルは、AI生成画像の検出と視覚的欠陥のローカライズの両方において、優れた性能を達成する。
論文 参考訳(メタデータ) (2025-06-08T08:47:44Z) - FakeScope: Large Multimodal Expert Model for Transparent AI-Generated Image Forensics [66.14786900470158]
本稿では,AIによる画像鑑定に適した専門家マルチモーダルモデル(LMM)であるFakeScopeを提案する。
FakeScopeはAI合成画像を高精度に識別し、リッチで解釈可能なクエリ駆動の法医学的な洞察を提供する。
FakeScopeは、クローズドエンドとオープンエンドの両方の法医学的シナリオで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-03-31T16:12:48Z) - VirtualXAI: A User-Centric Framework for Explainability Assessment Leveraging GPT-Generated Personas [0.07499722271664146]
eXplainable AI(XAI)の需要が増加し、AIモデルの解釈可能性、透明性、信頼性が向上した。
仮想ペルソナによる定量的ベンチマークと質的ユーザアセスメントを統合したフレームワークを提案する。
これにより、推定されたXAIスコアが得られ、与えられたシナリオに対して最適なAIモデルとXAIメソッドの両方にカスタマイズされたレコメンデーションが提供される。
論文 参考訳(メタデータ) (2025-03-06T09:44:18Z) - D-Judge: How Far Are We? Assessing the Discrepancies Between AI-synthesized and Natural Images through Multimodal Guidance [19.760989919485894]
5000の自然画像と440,000以上のAIGIサンプルからなる大規模マルチモーダルデータセットD-ANIを構築した。
次に、AI生成画像(AIGI)が真に現実的なイメージからどこまで遠いのかという、重要な問題に対処するために、AI-Natural Image Discrepancy評価ベンチマーク(D-Judge)を導入します。
論文 参考訳(メタデータ) (2024-12-23T15:08:08Z) - Knowledge-Aware Reasoning over Multimodal Semi-structured Tables [85.24395216111462]
本研究では、現在のAIモデルがマルチモーダルな構造化データに基づいて知識を考慮した推論を行うことができるかどうかを検討する。
この目的のために設計された新しいデータセットであるMMTabQAを紹介する。
我々の実験は、複数のテキストと画像の入力を効果的に統合し解釈する上で、現在のAIモデルに対する重大な課題を浮き彫りにしている。
論文 参考訳(メタデータ) (2024-08-25T15:17:43Z) - SCENE: Evaluating Explainable AI Techniques Using Soft Counterfactuals [0.0]
本稿では,新たな評価手法であるSCENE(Soft Counterfactual Evaluation for Natural Language Explainability)を紹介する。
トークンベースの置換に焦点を当てることで、SCENEは文脈的に適切で意味論的に意味のあるソフトカウンタブルを作成する。
SCENEは様々なXAI技法の強みと限界についての貴重な洞察を提供する。
論文 参考訳(メタデータ) (2024-08-08T16:36:24Z) - Large Multi-modality Model Assisted AI-Generated Image Quality Assessment [53.182136445844904]
本稿では,AI生成画像品質評価モデル(MA-AGIQA)を提案する。
セマンティックインフォームドガイダンスを使用して意味情報を感知し、慎重に設計されたテキストプロンプトを通してセマンティックベクターを抽出する。
最先端のパフォーマンスを実現し、AI生成画像の品質を評価する上で優れた一般化能力を示す。
論文 参考訳(メタデータ) (2024-04-27T02:40:36Z) - Multi-Modal Prompt Learning on Blind Image Quality Assessment [65.0676908930946]
画像品質評価(IQA)モデルは意味情報から大きな恩恵を受け、異なる種類のオブジェクトを明瞭に扱うことができる。
十分な注釈付きデータが不足している従来の手法では、セマンティックな認識を得るために、CLIPイメージテキスト事前学習モデルをバックボーンとして使用していた。
近年のアプローチでは、このミスマッチに即時技術を使って対処する試みがあるが、これらの解決策には欠点がある。
本稿では、IQAのための革新的なマルチモーダルプロンプトベースの手法を提案する。
論文 参考訳(メタデータ) (2024-04-23T11:45:32Z) - ASAP: Interpretable Analysis and Summarization of AI-generated Image Patterns at Scale [20.12991230544801]
生成画像モデルは、現実的な画像を生成するための有望な技術として登場してきた。
ユーザーがAI生成画像のパターンを効果的に識別し理解できるようにするための需要が高まっている。
我々はAI生成画像の異なるパターンを自動的に抽出する対話型可視化システムASAPを開発した。
論文 参考訳(メタデータ) (2024-04-03T18:20:41Z) - Hierarchical Text-to-Vision Self Supervised Alignment for Improved Histopathology Representation Learning [64.1316997189396]
病理組織像のための新しい言語型自己教師学習フレームワーク,階層型言語型自己監督(HLSS)を提案する。
その結果,OpenSRH と TCGA の2つの医用画像ベンチマークにおいて,最先端の性能が得られた。
論文 参考訳(メタデータ) (2024-03-21T17:58:56Z) - DIME: Fine-grained Interpretations of Multimodal Models via Disentangled
Local Explanations [119.1953397679783]
我々は,マルチモーダルモデルの解釈における最先端化に注力する。
提案手法であるDIMEは,マルチモーダルモデルの高精度かつきめ細かな解析を可能にする。
論文 参考訳(メタデータ) (2022-03-03T20:52:47Z) - Deep Co-Attention Network for Multi-View Subspace Learning [73.3450258002607]
マルチビューサブスペース学習のための深層コアテンションネットワークを提案する。
共通情報と相補情報の両方を敵意で抽出することを目的としている。
特に、新しいクロス再構成損失を使用し、ラベル情報を利用して潜在表現の構築を誘導する。
論文 参考訳(メタデータ) (2021-02-15T18:46:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。