論文の概要: "Just a strange pic": Evaluating 'safety' in GenAI Image safety annotation tasks from diverse annotators' perspectives
- arxiv url: http://arxiv.org/abs/2507.16033v1
- Date: Mon, 21 Jul 2025 19:53:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-23 21:34:13.868021
- Title: "Just a strange pic": Evaluating 'safety' in GenAI Image safety annotation tasks from diverse annotators' perspectives
- Title(参考訳): 「ただの奇妙な写真」 : 多様なアノテータの視点からのGenAI画像安全アノテーションタスクにおける「安全」の評価
- Authors: Ding Wang, Mark Díaz, Charvi Rastogi, Aida Davani, Vinodkumar Prabhakaran, Pushkar Mishra, Roma Patel, Alicia Parrish, Zoe Ashwood, Michela Paganini, Tian Huey Teh, Verena Rieser, Lora Aroyo,
- Abstract要約: 本稿では,アノテータがAI生成画像の安全性を評価する方法について検討する。
我々は、アノテータが道徳的、感情的、文脈的推論を呼び起こすのに気付く。
モラル・リフレクションを足場に置き、調和のタイプを区別し、主観的で文脈に敏感な解釈のための空間を作る評価設計について論じる。
- 参考スコア(独自算出の注目度): 28.275024260628484
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Understanding what constitutes safety in AI-generated content is complex. While developers often rely on predefined taxonomies, real-world safety judgments also involve personal, social, and cultural perceptions of harm. This paper examines how annotators evaluate the safety of AI-generated images, focusing on the qualitative reasoning behind their judgments. Analyzing 5,372 open-ended comments, we find that annotators consistently invoke moral, emotional, and contextual reasoning that extends beyond structured safety categories. Many reflect on potential harm to others more than to themselves, grounding their judgments in lived experience, collective risk, and sociocultural awareness. Beyond individual perceptions, we also find that the structure of the task itself -- including annotation guidelines -- shapes how annotators interpret and express harm. Guidelines influence not only which images are flagged, but also the moral judgment behind the justifications. Annotators frequently cite factors such as image quality, visual distortion, and mismatches between prompt and output as contributing to perceived harm dimensions, which are often overlooked in standard evaluation frameworks. Our findings reveal that existing safety pipelines miss critical forms of reasoning that annotators bring to the task. We argue for evaluation designs that scaffold moral reflection, differentiate types of harm, and make space for subjective, context-sensitive interpretations of AI-generated content.
- Abstract(参考訳): AI生成コンテンツの安全性を構成するものを理解することは複雑です。
開発者は事前に定義された分類に頼っていることが多いが、現実の安全判断には個人的、社会的、文化的な害の認識も含まれる。
本稿では,AI生成画像の安全性を判断の背景にある定性的推論に焦点をあてて,アノテーションがAI生成画像の安全性を評価する方法について検討する。
オープンエンドコメント5,372件を分析すると、アノテータは、構造化された安全カテゴリーを超えて、道徳的、感情的、文脈的推論を常に実行していることがわかった。
多くの人々は、生きた経験、集団的リスク、社会文化的認識の判断を根拠として、自分自身よりも他人への潜在的な害を反映している。
個々の認識以外にも、アノテーションガイドラインを含むタスク自体の構造が、アノテーションの解釈や害の表現の仕方を形作っていることもわかりました。
ガイドラインは、どの画像がフラグ付けされているかだけでなく、正当化の背後にある道徳的判断にも影響を及ぼす。
アノテーションは、画像の品質、視覚的歪み、プロンプトとアウトプットのミスマッチなどの要因を、標準的な評価フレームワークでは見過ごされがちな害の認識に寄与しているとして、しばしば引用する。
その結果,既存の安全パイプラインでは,アノテータがタスクにもたらす重要な推論が欠落していることが判明した。
我々は、モラルリフレクションを足場にし、害の種類を区別し、AI生成コンテンツの主観的で文脈に敏感な解釈のための空間を作る評価設計について論じる。
関連論文リスト
- Objectifying the Subjective: Cognitive Biases in Topic Interpretations [19.558609775890673]
トピック品質の構成を提案し,トピックの文脈でユーザに対して評価を依頼する。
我々は、意味論からトピック解釈のテーマを特定するために、反射的テーマ分析を用いる。
そこで本稿では,係留調整に基づくトピック解釈の理論を提案し,ユーザが適切な単語をアンカーし,解釈に到達するためのセマンティックな調整を行う。
論文 参考訳(メタデータ) (2025-07-25T09:51:42Z) - PRJ: Perception-Retrieval-Judgement for Generated Images [6.940819432582308]
Perception-Retrieval-Judgement (PRJ) は、毒性検出を構造的推論プロセスとしてモデル化するフレームワークである。
PRJは3段階の設計に従っており、まずイメージを記述言語(知覚)に変換し、その後、有害カテゴリーや特徴(検索)に関する外部知識を回収し、最終的に法的または規範的な規則(判断)に基づいて毒性を評価する。
実験の結果,PRJは検出精度とロバスト性において既存の安全チェックを上回り,構造的カテゴリーレベルの毒性解釈を独自に支援していることがわかった。
論文 参考訳(メタデータ) (2025-06-04T08:13:53Z) - MLLM-as-a-Judge for Image Safety without Human Labeling [81.24707039432292]
AIGCの時代には、多くの画像生成モデルは有害なコンテンツを生成できる。
確立された安全ルールに基づいて、このような安全でない画像を特定することが不可欠である。
既存のアプローチでは、人間のラベル付きデータセットを使った微調整MLLMが一般的である。
論文 参考訳(メタデータ) (2024-12-31T00:06:04Z) - Safety Without Semantic Disruptions: Editing-free Safe Image Generation via Context-preserving Dual Latent Reconstruction [88.18235230849554]
大規模で未処理のデータセットでマルチモーダル生成モデルをトレーニングすることで、ユーザは有害で安全でない、議論の余地のない、文化的に不適切なアウトプットにさらされる可能性がある。
我々は、安全な埋め込みと、より安全な画像を生成するために、潜伏空間の重み付け可能な総和による修正拡散プロセスを活用する。
安全と検閲のトレードオフを特定し、倫理的AIモデルの開発に必要な視点を提示します。
論文 参考訳(メタデータ) (2024-11-21T09:47:13Z) - On the Fairness, Diversity and Reliability of Text-to-Image Generative Models [68.62012304574012]
マルチモーダル生成モデルは 信頼性 公正性 誤用の可能性について 批判的な議論を巻き起こしました
埋め込み空間におけるグローバルおよびローカルな摂動に対する応答を解析し、モデルの信頼性を評価するための評価フレームワークを提案する。
提案手法は, 信頼できない, バイアス注入されたモデルを検出し, 組込みバイアスの証明をトレースするための基礎となる。
論文 参考訳(メタデータ) (2024-11-21T09:46:55Z) - When Does Perceptual Alignment Benefit Vision Representations? [76.32336818860965]
視覚モデル表現と人間の知覚的判断との整合がユーザビリティに与える影響について検討する。
モデルと知覚的判断を一致させることで、多くの下流タスクで元のバックボーンを改善する表現が得られることがわかった。
その結果,人間の知覚的知識に関する帰納バイアスを視覚モデルに注入することは,より良い表現に寄与することが示唆された。
論文 参考訳(メタデータ) (2024-10-14T17:59:58Z) - Safeguard Text-to-Image Diffusion Models with Human Feedback Inversion [51.931083971448885]
本稿では,Human Feedback Inversion (HFI) というフレームワークを提案する。
実験の結果,画像品質を維持しながら,好ましくないコンテンツ生成を著しく削減し,公的な領域におけるAIの倫理的展開に寄与することが示された。
論文 参考訳(メタデータ) (2024-07-17T05:21:41Z) - UnsafeBench: Benchmarking Image Safety Classifiers on Real-World and AI-Generated Images [29.913089752247362]
画像安全分類器の有効性とロバスト性を評価するベンチマークフレームワークUnsafeBenchを提案する。
まず、安全または安全でないと注釈付けされた10Kの現実世界とAI生成画像の大規模なデータセットをキュレートする。
次に,5つの画像安全分類器と汎用視覚言語モデルを用いた3つの分類器の有効性とロバスト性を評価する。
論文 参考訳(メタデータ) (2024-05-06T13:57:03Z) - Understanding Subjectivity through the Lens of Motivational Context in Model-Generated Image Satisfaction [21.00784031928471]
画像生成モデルは、様々なアプリケーションでユビキタスになる可能性がある。
これらのモデルは、しばしば、普遍的な標準を仮定する人間の品質判断を用いて微調整され評価される。
主観性とその影響の規模を定量化するために, 異なるユースケースにおいて, 人間のアノテータ間で評価がどう異なるかを測定する。
論文 参考訳(メタデータ) (2024-02-27T01:16:55Z) - Mapping the Ethics of Generative AI: A Comprehensive Scoping Review [0.0]
我々は、特に大きな言語モデルやテキスト・ツー・イメージモデルを含む、生成的人工知能の倫理に関するスコーピングレビューを行う。
本分析では,19のトピック領域において,378の規範的問題を分類し,文献の有病率に応じて分類する。
この研究は、公正性、安全、有害なコンテンツ、幻覚、プライバシー、相互作用リスク、セキュリティ、アライメント、社会的影響などに関する倫理的な議論を、学者、実践者、あるいは政策立案者に包括的な概要を提供する。
論文 参考訳(メタデータ) (2024-02-13T09:38:17Z) - GRASP: A Disagreement Analysis Framework to Assess Group Associations in Perspectives [18.574420136899978]
本稿では,グループ関係を,異なるレーダサブグループ間の視点で測定するための総合的不一致分析フレームワークGRASPを提案する。
本フレームワークは,特定のタスクにおいて他と大きく異なる視点を持つ特定のレーダ群を明らかにし,特定のタスクコンテキストにおいて考慮すべき人口動態の同定を支援する。
論文 参考訳(メタデータ) (2023-11-09T00:12:21Z) - Privacy Assessment on Reconstructed Images: Are Existing Evaluation
Metrics Faithful to Human Perception? [86.58989831070426]
本研究では,手作りのメトリクスの忠実さを,再構成画像からの人間のプライバシー情報の認識に適用する。
本稿では,SemSimと呼ばれる学習に基づく尺度を提案し,オリジナル画像と再構成画像のセマンティック類似性を評価する。
論文 参考訳(メタデータ) (2023-09-22T17:58:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。