論文の概要: PRJ: Perception-Retrieval-Judgement for Generated Images
- arxiv url: http://arxiv.org/abs/2506.03683v1
- Date: Wed, 04 Jun 2025 08:13:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 21:20:14.224061
- Title: PRJ: Perception-Retrieval-Judgement for Generated Images
- Title(参考訳): PRJ 生成した画像に対する知覚検索的判断
- Authors: Qiang Fu, Zonglei Jing, Zonghao Ying, Xiaoqian Li,
- Abstract要約: Perception-Retrieval-Judgement (PRJ) は、毒性検出を構造的推論プロセスとしてモデル化するフレームワークである。
PRJは3段階の設計に従っており、まずイメージを記述言語(知覚)に変換し、その後、有害カテゴリーや特徴(検索)に関する外部知識を回収し、最終的に法的または規範的な規則(判断)に基づいて毒性を評価する。
実験の結果,PRJは検出精度とロバスト性において既存の安全チェックを上回り,構造的カテゴリーレベルの毒性解釈を独自に支援していることがわかった。
- 参考スコア(独自算出の注目度): 6.940819432582308
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The rapid progress of generative AI has enabled remarkable creative capabilities, yet it also raises urgent concerns regarding the safety of AI-generated visual content in real-world applications such as content moderation, platform governance, and digital media regulation. This includes unsafe material such as sexually explicit images, violent scenes, hate symbols, propaganda, and unauthorized imitations of copyrighted artworks. Existing image safety systems often rely on rigid category filters and produce binary outputs, lacking the capacity to interpret context or reason about nuanced, adversarially induced forms of harm. In addition, standard evaluation metrics (e.g., attack success rate) fail to capture the semantic severity and dynamic progression of toxicity. To address these limitations, we propose Perception-Retrieval-Judgement (PRJ), a cognitively inspired framework that models toxicity detection as a structured reasoning process. PRJ follows a three-stage design: it first transforms an image into descriptive language (perception), then retrieves external knowledge related to harm categories and traits (retrieval), and finally evaluates toxicity based on legal or normative rules (judgement). This language-centric structure enables the system to detect both explicit and implicit harms with improved interpretability and categorical granularity. In addition, we introduce a dynamic scoring mechanism based on a contextual toxicity risk matrix to quantify harmfulness across different semantic dimensions. Experiments show that PRJ surpasses existing safety checkers in detection accuracy and robustness while uniquely supporting structured category-level toxicity interpretation.
- Abstract(参考訳): しかし、コンテンツモデレーション、プラットフォームガバナンス、デジタルメディア規制といった現実のアプリケーションにおいて、AIが生成するビジュアルコンテンツの安全性に関する緊急の懸念も持ち上がっている。
これには、性的に明示的なイメージ、暴力的なシーン、憎しみのシンボル、プロパガンダ、著作権のある美術品の無許可の模倣など、安全でない素材が含まれる。
既存の画像安全システムは、しばしば厳格なカテゴリーフィルタに頼り、二項出力を生成し、文脈を解釈する能力や、逆向きに誘導される有害な形態について推論する能力が欠如している。
さらに、標準的な評価指標(例えば、攻撃の成功率)は、意味的な重大さと毒性の動的進行を捉えることができない。
これらの制約に対処するため,我々は,毒性検出を構造的推論プロセスとしてモデル化する認知にインスパイアされたフレームワークである知覚・検索・判断(PRJ)を提案する。
PRJはまずイメージを記述言語(パーセプション)に変換し、次に有害なカテゴリや特徴(検索)に関する外部知識を検索し、最終的に法的または規範的な規則(判断)に基づいて毒性を評価する。
この言語中心の構造により、システムは解釈可能性と分類的粒度を改善して、明示的および暗黙的な調和の両方を検出することができる。
さらに, 文脈的毒性リスク行列に基づく動的スコアリング機構を導入し, 異なるセマンティック次元における有害度を定量化する。
実験の結果,PRJは検出精度とロバスト性において既存の安全チェックを上回り,構造的カテゴリーレベルの毒性解釈を独自に支援していることがわかった。
関連論文リスト
- Cannot See the Forest for the Trees: Invoking Heuristics and Biases to Elicit Irrational Choices of LLMs [83.11815479874447]
本研究では,人間の認知における認知的分解と偏見に触発された新しいジェイルブレイク攻撃フレームワークを提案する。
我々は、悪意のあるプロンプトの複雑さと関連バイアスを減らし、認知的分解を用いて、プロンプトを再編成する。
また、従来の二分的成功または失敗のパラダイムを超越したランキングベースの有害度評価指標も導入する。
論文 参考訳(メタデータ) (2025-05-03T05:28:11Z) - AILuminate: Introducing v1.0 of the AI Risk and Reliability Benchmark from MLCommons [62.374792825813394]
本稿ではAI製品リスクと信頼性を評価するための業界標準ベンチマークとして,AIluminate v1.0を紹介する。
このベンチマークは、危険、違法、または望ましくない行動を12の危険カテゴリーで引き起こすように設計されたプロンプトに対するAIシステムの抵抗を評価する。
論文 参考訳(メタデータ) (2025-02-19T05:58:52Z) - CogMorph: Cognitive Morphing Attacks for Text-to-Image Models [65.38747950692752]
本稿では,テキスト・ツー・イメージ(T2I)生成モデルに固有の有意かつ未認識の倫理的リスクを明らかにする。
我々は,T2Iモデルを操作して,本来の中核領域を保持するが有害または有害な文脈要素を埋め込んだ画像を生成する,CogMorph(CogMorph)と呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2025-01-21T01:45:56Z) - Towards More Robust Retrieval-Augmented Generation: Evaluating RAG Under Adversarial Poisoning Attacks [45.07581174558107]
Retrieval-Augmented Generation (RAG) システムは幻覚を緩和するための有望な解決策として登場した。
RAGシステムは、検索データベースに注入された悪意のあるパスが、モデルを誤誘導し、事実的に誤ったアウトプットを発生させるような、敵の毒殺攻撃に弱い。
本稿では,RAGシステムの検索と生成の両要素について検討し,攻撃に対するロバスト性を高める方法について考察する。
論文 参考訳(メタデータ) (2024-12-21T17:31:52Z) - Overcoming Failures of Imagination in AI Infused System Development and
Deployment [71.9309995623067]
NeurIPS 2020は研究論文に「潜在的な悪用と失敗の結果」に関するインパクトステートメントを含むよう要求した。
我々は、害の枠組みは文脈に適応し、潜在的な利害関係者、システム余裕、および最も広い意味での害を評価するための実行可能なプロキシを考える必要があると論じている。
論文 参考訳(メタデータ) (2020-11-26T18:09:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。