論文の概要: Human-like Content Analysis for Generative AI with Language-Grounded Sparse Encoders
- arxiv url: http://arxiv.org/abs/2508.18236v2
- Date: Sun, 28 Sep 2025 05:56:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 14:13:47.479915
- Title: Human-like Content Analysis for Generative AI with Language-Grounded Sparse Encoders
- Title(参考訳): 言語付きスパースエンコーダを用いたAI生成のためのヒューマンライクコンテンツ解析
- Authors: Yiming Tang, Arash Lagzian, Srinivas Anumasa, Qiran Zou, Yingtao Zhu, Ye Zhang, Trang Nguyen, Yih-Chung Tham, Ehsan Adeli, Ching-Yu Cheng, Yilun Du, Dianbo Liu,
- Abstract要約: Language-Grounded Sparses (LanSE)は、画像を自然言語記述で解釈可能な視覚パターンに分解する。
93%の人的合意で5000以上の視覚パターンが検出された。
言語基底パターンを抽出する手法は自然に多くの分野に適用できる。
- 参考スコア(独自算出の注目度): 46.13876748421428
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The rapid development of generative AI has transformed content creation, communication, and human development. However, this technology raises profound concerns in high-stakes domains, demanding rigorous methods to analyze and evaluate AI-generated content. While existing analytic methods often treat images as indivisible wholes, real-world AI failures generally manifest as specific visual patterns that can evade holistic detection and suit more granular and decomposed analysis. Here we introduce a content analysis tool, Language-Grounded Sparse Encoders (LanSE), which decompose images into interpretable visual patterns with natural language descriptions. Utilizing interpretability modules and large multimodal models, LanSE can automatically identify visual patterns within data modalities. Our method discovers more than 5,000 visual patterns with 93\% human agreement, provides decomposed evaluation outperforming existing methods, establishes the first systematic evaluation of physical plausibility, and extends to medical imaging settings. Our method's capability to extract language-grounded patterns can be naturally adapted to numerous fields, including biology and geography, as well as other data modalities such as protein structures and time series, thereby advancing content analysis for generative AI.
- Abstract(参考訳): 生成AIの急速な発展は、コンテンツ作成、コミュニケーション、人間開発に変化をもたらした。
しかし、この技術は、AI生成したコンテンツを分析し評価するための厳格な手法を要求し、ハイテイクドメインに深刻な関心を喚起する。
既存の分析手法ではイメージを識別不能な全体として扱うことが多いが、現実のAIの失敗は一般的に、全体的検出を回避し、より粒度の細かい分解分析に適合する特定の視覚パターンとして表される。
本稿では,Language-Grounded Sparse Encoders (LanSE)というコンテンツ解析ツールを紹介する。
解釈可能性モジュールと大規模マルチモーダルモデルを利用することで、LanSEはデータモダリティ内の視覚的パターンを自動的に識別できる。
提案手法は,33%の人的合意で5,000以上の視覚パターンを発見し,既存手法よりも分解性評価を行い,身体的可視性の最初の体系的評価を確立し,医用画像設定まで拡張する。
提案手法は,生物や地理,タンパク質構造や時系列などのデータモダリティなど,多くの分野に自然に適応し,生成型AIのコンテンツ分析を向上する。
関連論文リスト
- FakeScope: Large Multimodal Expert Model for Transparent AI-Generated Image Forensics [66.14786900470158]
本稿では,AIによる画像鑑定に適した専門家マルチモーダルモデル(LMM)であるFakeScopeを提案する。
FakeScopeはAI合成画像を高精度に識別し、リッチで解釈可能なクエリ駆動の法医学的な洞察を提供する。
FakeScopeは、クローズドエンドとオープンエンドの両方の法医学的シナリオで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-03-31T16:12:48Z) - VirtualXAI: A User-Centric Framework for Explainability Assessment Leveraging GPT-Generated Personas [0.07499722271664146]
eXplainable AI(XAI)の需要が増加し、AIモデルの解釈可能性、透明性、信頼性が向上した。
仮想ペルソナによる定量的ベンチマークと質的ユーザアセスメントを統合したフレームワークを提案する。
これにより、推定されたXAIスコアが得られ、与えられたシナリオに対して最適なAIモデルとXAIメソッドの両方にカスタマイズされたレコメンデーションが提供される。
論文 参考訳(メタデータ) (2025-03-06T09:44:18Z) - D-Judge: How Far Are We? Assessing the Discrepancies Between AI-synthesized and Natural Images through Multimodal Guidance [19.760989919485894]
5000の自然画像と440,000以上のAIGIサンプルからなる大規模マルチモーダルデータセットD-ANIを構築した。
次に、AI生成画像(AIGI)が真に現実的なイメージからどこまで遠いのかという、重要な問題に対処するために、AI-Natural Image Discrepancy評価ベンチマーク(D-Judge)を導入します。
論文 参考訳(メタデータ) (2024-12-23T15:08:08Z) - SCENE: Evaluating Explainable AI Techniques Using Soft Counterfactuals [0.0]
本稿では,新たな評価手法であるSCENE(Soft Counterfactual Evaluation for Natural Language Explainability)を紹介する。
トークンベースの置換に焦点を当てることで、SCENEは文脈的に適切で意味論的に意味のあるソフトカウンタブルを作成する。
SCENEは様々なXAI技法の強みと限界についての貴重な洞察を提供する。
論文 参考訳(メタデータ) (2024-08-08T16:36:24Z) - Large Multi-modality Model Assisted AI-Generated Image Quality Assessment [53.182136445844904]
本稿では,AI生成画像品質評価モデル(MA-AGIQA)を提案する。
セマンティックインフォームドガイダンスを使用して意味情報を感知し、慎重に設計されたテキストプロンプトを通してセマンティックベクターを抽出する。
最先端のパフォーマンスを実現し、AI生成画像の品質を評価する上で優れた一般化能力を示す。
論文 参考訳(メタデータ) (2024-04-27T02:40:36Z) - Multi-Modal Prompt Learning on Blind Image Quality Assessment [65.0676908930946]
画像品質評価(IQA)モデルは意味情報から大きな恩恵を受け、異なる種類のオブジェクトを明瞭に扱うことができる。
十分な注釈付きデータが不足している従来の手法では、セマンティックな認識を得るために、CLIPイメージテキスト事前学習モデルをバックボーンとして使用していた。
近年のアプローチでは、このミスマッチに即時技術を使って対処する試みがあるが、これらの解決策には欠点がある。
本稿では、IQAのための革新的なマルチモーダルプロンプトベースの手法を提案する。
論文 参考訳(メタデータ) (2024-04-23T11:45:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。