論文の概要: Interpretable Evaluation of AI-Generated Content with Language-Grounded Sparse Encoders
- arxiv url: http://arxiv.org/abs/2508.18236v1
- Date: Wed, 20 Aug 2025 06:50:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-26 18:43:45.891423
- Title: Interpretable Evaluation of AI-Generated Content with Language-Grounded Sparse Encoders
- Title(参考訳): 言語付きスパースエンコーダを用いたAI生成コンテンツの解釈可能評価
- Authors: Yiming Tang, Arash Lagzian, Srinivas Anumasa, Qiran Zou, Trang Nguyen, Ehsan Adeli, Ching-Yu Cheng, Yilun Du, Dianbo Liu,
- Abstract要約: Language-Grounded Sparses (LanSE)は、解釈可能な評価指標を作成する新しいアーキテクチャである。
LanSEは、生成品質、プロンプトマッチ、ビジュアルリアリズム、物理的妥当性、コンテンツ多様性の4つの重要な次元を定量化する、きめ細かい評価フレームワークを提供する。
LanSEは、解釈可能性と実用的な評価ニーズをブリッジすることによって、生成AIモデルのすべてのユーザに、モデル選択、合成コンテンツの品質管理、モデル改善のための強力なツールを提供する。
- 参考スコア(独自算出の注目度): 46.53980721417588
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While the quality of AI-generated contents, such as synthetic images, has become remarkably high, current evaluation metrics provide only coarse-grained assessments, failing to identify specific strengths and weaknesses that researchers and practitioners need for model selection and development, further limiting the scientific understanding and commercial deployment of these generative models. To address this, we introduce Language-Grounded Sparse Encoders (LanSE), a novel architecture that creates interpretable evaluation metrics by identifying interpretable visual patterns and automatically describing them in natural language. Through large-scale human evaluation (more than 11,000 annotations) and large multimodal model (LMM) based analysis, LanSE demonstrates reliable capabilities to detect interpretable visual patterns in synthetic images with more than 93\% accuracy in natural images. LanSE further provides a fine-grained evaluation framework that quantifies four key dimensions of generation quality, prompt match, visual realism, physical plausibility, and content diversity. LanSE reveals nuanced model differences invisible to existing metrics, for instance, FLUX's superior physical plausibility and SDXL-medium's strong content diversity, while aligning with human judgments. By bridging interpretability with practical evaluation needs, LanSE offers all users of generative AI models a powerful tool for model selection, quality control of synthetic content, and model improvement. These capabilities directly address the need for public confidence and safety in AI-generated content, both critical for the future of generative AI applications.
- Abstract(参考訳): 合成画像などのAI生成コンテンツの品質は著しく高まっているが、現在の評価指標は粗い評価のみを提供し、研究者や実践者がモデル選択と開発に必要とする具体的な強度と弱点を特定しず、これらの生成モデルの科学的理解と商業的展開を制限している。
この問題を解決するためにLanguage-Grounded Sparse Encoders (LanSE)を導入する。Language-Grounded Sparse Encodersは、解釈可能な視覚パターンを特定し、それらを自然言語で自動的に記述することで、解釈可能な評価指標を作成する新しいアーキテクチャである。
大規模な人による評価(11,000以上のアノテーション)と大規模マルチモーダルモデル(LMM)に基づく解析を通じて、LanSEは、自然画像の93%以上の精度で合成画像の解釈可能な視覚パターンを検出する信頼性を示す。
LanSEはさらに、生成品質、プロンプトマッチ、ビジュアルリアリズム、物理的妥当性、コンテンツ多様性の4つの重要な次元を定量化する、きめ細かい評価フレームワークを提供している。
LanSEは、FLUXの優れた物理的可視性やSDXL-mediumの強い内容の多様性など、既存の指標に見えないニュアンスドモデルの違いを明らかにしている。
LanSEは、解釈可能性と実用的な評価ニーズをブリッジすることによって、生成AIモデルのすべてのユーザに、モデル選択、合成コンテンツの品質管理、モデル改善のための強力なツールを提供する。
これらの機能は、AI生成コンテンツにおける公衆の信頼と安全の必要性に直接対処する。
関連論文リスト
- FakeScope: Large Multimodal Expert Model for Transparent AI-Generated Image Forensics [66.14786900470158]
本稿では,AIによる画像鑑定に適した専門家マルチモーダルモデル(LMM)であるFakeScopeを提案する。
FakeScopeはAI合成画像を高精度に識別し、リッチで解釈可能なクエリ駆動の法医学的な洞察を提供する。
FakeScopeは、クローズドエンドとオープンエンドの両方の法医学的シナリオで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-03-31T16:12:48Z) - VirtualXAI: A User-Centric Framework for Explainability Assessment Leveraging GPT-Generated Personas [0.07499722271664146]
eXplainable AI(XAI)の需要が増加し、AIモデルの解釈可能性、透明性、信頼性が向上した。
仮想ペルソナによる定量的ベンチマークと質的ユーザアセスメントを統合したフレームワークを提案する。
これにより、推定されたXAIスコアが得られ、与えられたシナリオに対して最適なAIモデルとXAIメソッドの両方にカスタマイズされたレコメンデーションが提供される。
論文 参考訳(メタデータ) (2025-03-06T09:44:18Z) - D-Judge: How Far Are We? Assessing the Discrepancies Between AI-synthesized and Natural Images through Multimodal Guidance [19.760989919485894]
5000の自然画像と440,000以上のAIGIサンプルからなる大規模マルチモーダルデータセットD-ANIを構築した。
次に、AI生成画像(AIGI)が真に現実的なイメージからどこまで遠いのかという、重要な問題に対処するために、AI-Natural Image Discrepancy評価ベンチマーク(D-Judge)を導入します。
論文 参考訳(メタデータ) (2024-12-23T15:08:08Z) - SCENE: Evaluating Explainable AI Techniques Using Soft Counterfactuals [0.0]
本稿では,新たな評価手法であるSCENE(Soft Counterfactual Evaluation for Natural Language Explainability)を紹介する。
トークンベースの置換に焦点を当てることで、SCENEは文脈的に適切で意味論的に意味のあるソフトカウンタブルを作成する。
SCENEは様々なXAI技法の強みと限界についての貴重な洞察を提供する。
論文 参考訳(メタデータ) (2024-08-08T16:36:24Z) - Large Multi-modality Model Assisted AI-Generated Image Quality Assessment [53.182136445844904]
本稿では,AI生成画像品質評価モデル(MA-AGIQA)を提案する。
セマンティックインフォームドガイダンスを使用して意味情報を感知し、慎重に設計されたテキストプロンプトを通してセマンティックベクターを抽出する。
最先端のパフォーマンスを実現し、AI生成画像の品質を評価する上で優れた一般化能力を示す。
論文 参考訳(メタデータ) (2024-04-27T02:40:36Z) - Multi-Modal Prompt Learning on Blind Image Quality Assessment [65.0676908930946]
画像品質評価(IQA)モデルは意味情報から大きな恩恵を受け、異なる種類のオブジェクトを明瞭に扱うことができる。
十分な注釈付きデータが不足している従来の手法では、セマンティックな認識を得るために、CLIPイメージテキスト事前学習モデルをバックボーンとして使用していた。
近年のアプローチでは、このミスマッチに即時技術を使って対処する試みがあるが、これらの解決策には欠点がある。
本稿では、IQAのための革新的なマルチモーダルプロンプトベースの手法を提案する。
論文 参考訳(メタデータ) (2024-04-23T11:45:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。