論文の概要: Human-like Content Analysis for Generative AI with Language-Grounded Sparse Encoders
- arxiv url: http://arxiv.org/abs/2508.18236v2
- Date: Sun, 28 Sep 2025 05:56:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 14:13:47.479915
- Title: Human-like Content Analysis for Generative AI with Language-Grounded Sparse Encoders
- Title(参考訳): 言語付きスパースエンコーダを用いたAI生成のためのヒューマンライクコンテンツ解析
- Authors: Yiming Tang, Arash Lagzian, Srinivas Anumasa, Qiran Zou, Yingtao Zhu, Ye Zhang, Trang Nguyen, Yih-Chung Tham, Ehsan Adeli, Ching-Yu Cheng, Yilun Du, Dianbo Liu,
- Abstract要約: Language-Grounded Sparses (LanSE)は、画像を自然言語記述で解釈可能な視覚パターンに分解する。
93%の人的合意で5000以上の視覚パターンが検出された。
言語基底パターンを抽出する手法は自然に多くの分野に適用できる。
- 参考スコア(独自算出の注目度): 46.13876748421428
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The rapid development of generative AI has transformed content creation, communication, and human development. However, this technology raises profound concerns in high-stakes domains, demanding rigorous methods to analyze and evaluate AI-generated content. While existing analytic methods often treat images as indivisible wholes, real-world AI failures generally manifest as specific visual patterns that can evade holistic detection and suit more granular and decomposed analysis. Here we introduce a content analysis tool, Language-Grounded Sparse Encoders (LanSE), which decompose images into interpretable visual patterns with natural language descriptions. Utilizing interpretability modules and large multimodal models, LanSE can automatically identify visual patterns within data modalities. Our method discovers more than 5,000 visual patterns with 93\% human agreement, provides decomposed evaluation outperforming existing methods, establishes the first systematic evaluation of physical plausibility, and extends to medical imaging settings. Our method's capability to extract language-grounded patterns can be naturally adapted to numerous fields, including biology and geography, as well as other data modalities such as protein structures and time series, thereby advancing content analysis for generative AI.
- Abstract(参考訳): 生成AIの急速な発展は、コンテンツ作成、コミュニケーション、人間開発に変化をもたらした。
しかし、この技術は、AI生成したコンテンツを分析し評価するための厳格な手法を要求し、ハイテイクドメインに深刻な関心を喚起する。
既存の分析手法ではイメージを識別不能な全体として扱うことが多いが、現実のAIの失敗は一般的に、全体的検出を回避し、より粒度の細かい分解分析に適合する特定の視覚パターンとして表される。
本稿では,Language-Grounded Sparse Encoders (LanSE)というコンテンツ解析ツールを紹介する。
解釈可能性モジュールと大規模マルチモーダルモデルを利用することで、LanSEはデータモダリティ内の視覚的パターンを自動的に識別できる。
提案手法は,33%の人的合意で5,000以上の視覚パターンを発見し,既存手法よりも分解性評価を行い,身体的可視性の最初の体系的評価を確立し,医用画像設定まで拡張する。
提案手法は,生物や地理,タンパク質構造や時系列などのデータモダリティなど,多くの分野に自然に適応し,生成型AIのコンテンツ分析を向上する。
関連論文リスト
- DependencyAI: Detecting AI Generated Text through Dependency Parsing [10.075606234222963]
本稿では,AI生成テキストを検出するための簡易かつ解釈可能なアプローチであるDependencyAIを紹介する。
本手法は,モノリンガル,マルチジェネレータ,多言語設定間での競合性能を実現する。
論文 参考訳(メタデータ) (2026-02-17T11:42:28Z) - Training Data Attribution for Image Generation using Ontology-Aligned Knowledge Graphs [3.686386213696443]
本稿では,知識グラフの自動構築を通じて生成出力を解釈するフレームワークを提案する。
本手法は, 画像から立体構造を抽出し, 領域固有のオントロジーと整合する。
生成された画像とトレーニング画像のKGを比較して、潜在的な影響をトレースし、著作権分析、データセットの透明性、解釈可能なAIを可能にします。
論文 参考訳(メタデータ) (2025-12-02T12:45:20Z) - ChatGpt Content detection: A new approach using xlm-roberta alignment [0.0]
本稿では,最先端多言語変換モデルであるXLM-RoBERTaを用いて,AI生成テキストを検出するための包括的手法を提案する。
我々は、人間とAIが生成したテキストのバランスのとれたデータセット上でモデルを微調整し、その性能を評価した。
我々の発見は、学術的完全性を維持するための貴重なツールを提供し、AI倫理の幅広い分野に貢献する。
論文 参考訳(メタデータ) (2025-11-26T03:16:57Z) - ForenX: Towards Explainable AI-Generated Image Detection with Multimodal Large Language Models [82.04858317800097]
ForenXは画像の真正性を識別するだけでなく、人間の思考に共鳴する説明を提供する新しい手法である。
ForenXは、強力なマルチモーダル大言語モデル(MLLM)を使用して、法医学的な手がかりを分析し、解釈する。
本稿では,AI生成画像における偽証拠の記述専用のデータセットであるForgReasonを紹介する。
論文 参考訳(メタデータ) (2025-08-02T15:21:26Z) - Interpretable and Reliable Detection of AI-Generated Images via Grounded Reasoning in MLLMs [43.08776932101172]
私たちは、バウンディングボックスと記述キャプションを付加したAI生成画像のデータセットを構築します。
次に、多段階最適化戦略によりMLLMを微調整する。
得られたモデルは、AI生成画像の検出と視覚的欠陥のローカライズの両方において、優れた性能を達成する。
論文 参考訳(メタデータ) (2025-06-08T08:47:44Z) - FakeScope: Large Multimodal Expert Model for Transparent AI-Generated Image Forensics [66.14786900470158]
本稿では,AIによる画像鑑定に適した専門家マルチモーダルモデル(LMM)であるFakeScopeを提案する。
FakeScopeはAI合成画像を高精度に識別し、リッチで解釈可能なクエリ駆動の法医学的な洞察を提供する。
FakeScopeは、クローズドエンドとオープンエンドの両方の法医学的シナリオで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-03-31T16:12:48Z) - VirtualXAI: A User-Centric Framework for Explainability Assessment Leveraging GPT-Generated Personas [0.07499722271664146]
eXplainable AI(XAI)の需要が増加し、AIモデルの解釈可能性、透明性、信頼性が向上した。
仮想ペルソナによる定量的ベンチマークと質的ユーザアセスメントを統合したフレームワークを提案する。
これにより、推定されたXAIスコアが得られ、与えられたシナリオに対して最適なAIモデルとXAIメソッドの両方にカスタマイズされたレコメンデーションが提供される。
論文 参考訳(メタデータ) (2025-03-06T09:44:18Z) - D-Judge: How Far Are We? Assessing the Discrepancies Between AI-synthesized and Natural Images through Multimodal Guidance [19.760989919485894]
5000の自然画像と440,000以上のAIGIサンプルからなる大規模マルチモーダルデータセットD-ANIを構築した。
次に、AI生成画像(AIGI)が真に現実的なイメージからどこまで遠いのかという、重要な問題に対処するために、AI-Natural Image Discrepancy評価ベンチマーク(D-Judge)を導入します。
論文 参考訳(メタデータ) (2024-12-23T15:08:08Z) - Knowledge-Aware Reasoning over Multimodal Semi-structured Tables [85.24395216111462]
本研究では、現在のAIモデルがマルチモーダルな構造化データに基づいて知識を考慮した推論を行うことができるかどうかを検討する。
この目的のために設計された新しいデータセットであるMMTabQAを紹介する。
我々の実験は、複数のテキストと画像の入力を効果的に統合し解釈する上で、現在のAIモデルに対する重大な課題を浮き彫りにしている。
論文 参考訳(メタデータ) (2024-08-25T15:17:43Z) - SCENE: Evaluating Explainable AI Techniques Using Soft Counterfactuals [0.0]
本稿では,新たな評価手法であるSCENE(Soft Counterfactual Evaluation for Natural Language Explainability)を紹介する。
トークンベースの置換に焦点を当てることで、SCENEは文脈的に適切で意味論的に意味のあるソフトカウンタブルを作成する。
SCENEは様々なXAI技法の強みと限界についての貴重な洞察を提供する。
論文 参考訳(メタデータ) (2024-08-08T16:36:24Z) - Large Multi-modality Model Assisted AI-Generated Image Quality Assessment [53.182136445844904]
本稿では,AI生成画像品質評価モデル(MA-AGIQA)を提案する。
セマンティックインフォームドガイダンスを使用して意味情報を感知し、慎重に設計されたテキストプロンプトを通してセマンティックベクターを抽出する。
最先端のパフォーマンスを実現し、AI生成画像の品質を評価する上で優れた一般化能力を示す。
論文 参考訳(メタデータ) (2024-04-27T02:40:36Z) - Multi-Modal Prompt Learning on Blind Image Quality Assessment [65.0676908930946]
画像品質評価(IQA)モデルは意味情報から大きな恩恵を受け、異なる種類のオブジェクトを明瞭に扱うことができる。
十分な注釈付きデータが不足している従来の手法では、セマンティックな認識を得るために、CLIPイメージテキスト事前学習モデルをバックボーンとして使用していた。
近年のアプローチでは、このミスマッチに即時技術を使って対処する試みがあるが、これらの解決策には欠点がある。
本稿では、IQAのための革新的なマルチモーダルプロンプトベースの手法を提案する。
論文 参考訳(メタデータ) (2024-04-23T11:45:32Z) - ASAP: Interpretable Analysis and Summarization of AI-generated Image Patterns at Scale [20.12991230544801]
生成画像モデルは、現実的な画像を生成するための有望な技術として登場してきた。
ユーザーがAI生成画像のパターンを効果的に識別し理解できるようにするための需要が高まっている。
我々はAI生成画像の異なるパターンを自動的に抽出する対話型可視化システムASAPを開発した。
論文 参考訳(メタデータ) (2024-04-03T18:20:41Z) - Hierarchical Text-to-Vision Self Supervised Alignment for Improved Histopathology Representation Learning [64.1316997189396]
病理組織像のための新しい言語型自己教師学習フレームワーク,階層型言語型自己監督(HLSS)を提案する。
その結果,OpenSRH と TCGA の2つの医用画像ベンチマークにおいて,最先端の性能が得られた。
論文 参考訳(メタデータ) (2024-03-21T17:58:56Z) - DIME: Fine-grained Interpretations of Multimodal Models via Disentangled
Local Explanations [119.1953397679783]
我々は,マルチモーダルモデルの解釈における最先端化に注力する。
提案手法であるDIMEは,マルチモーダルモデルの高精度かつきめ細かな解析を可能にする。
論文 参考訳(メタデータ) (2022-03-03T20:52:47Z) - Deep Co-Attention Network for Multi-View Subspace Learning [73.3450258002607]
マルチビューサブスペース学習のための深層コアテンションネットワークを提案する。
共通情報と相補情報の両方を敵意で抽出することを目的としている。
特に、新しいクロス再構成損失を使用し、ラベル情報を利用して潜在表現の構築を誘導する。
論文 参考訳(メタデータ) (2021-02-15T18:46:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。