論文の概要: Safety and Fairness for Content Moderation in Generative Models
- arxiv url: http://arxiv.org/abs/2306.06135v1
- Date: Fri, 9 Jun 2023 01:37:32 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-13 20:58:24.388764
- Title: Safety and Fairness for Content Moderation in Generative Models
- Title(参考訳): 生成モデルにおけるコンテンツモデレーションの安全性と公平性
- Authors: Susan Hao, Piyush Kumar, Sarah Laszlo, Shivani Poddar, Bhaktipriya
Radharapu, Renee Shelby
- Abstract要約: テキスト・ツー・イメージ生成技術の責任あるコンテンツモデレーションを概念化する理論的枠組みを提供する。
我々は、安全、公正、およびメートル法エクイティの概念を定義し、区別し、各ドメインで起こりうる害を列挙する。
我々は、データ駆動型コンテンツのモデレーション決定を可能にするハーネスのスタイルについて、まとめて結論付けている。
- 参考スコア(独自算出の注目度): 0.7992463811844456
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With significant advances in generative AI, new technologies are rapidly
being deployed with generative components. Generative models are typically
trained on large datasets, resulting in model behaviors that can mimic the
worst of the content in the training data. Responsible deployment of generative
technologies requires content moderation strategies, such as safety input and
output filters. Here, we provide a theoretical framework for conceptualizing
responsible content moderation of text-to-image generative technologies,
including a demonstration of how to empirically measure the constructs we
enumerate. We define and distinguish the concepts of safety, fairness, and
metric equity, and enumerate example harms that can come in each domain. We
then provide a demonstration of how the defined harms can be quantified. We
conclude with a summary of how the style of harms quantification we demonstrate
enables data-driven content moderation decisions.
- Abstract(参考訳): 生成AIの大幅な進歩により、新しい技術は生成コンポーネントで急速に展開されている。
生成モデルは通常、大規模なデータセットでトレーニングされるため、トレーニングデータ内の最悪の内容を模倣するモデル行動が発生する。
生成技術の責任あるデプロイメントには、安全入力や出力フィルタといったコンテンツモデレーション戦略が必要である。
本稿では,テキストから画像への生成技術に対する責任あるコンテンツモデレーションの概念化のための理論的枠組みを提案する。
安全性、公平性、メートル法等の概念を定義し、区別し、各ドメインで発生可能な例を列挙します。
次に、定義された害を定量化する方法を示す。
最後に、我々は、データ駆動コンテンツのモデレーション決定を可能にする方法のスタイルについて要約する。
関連論文リスト
- Safety Without Semantic Disruptions: Editing-free Safe Image Generation via Context-preserving Dual Latent Reconstruction [49.60774626839712]
マルチモーダル生成モデルのトレーニングは、ユーザを有害で安全でない、議論の余地のない、あるいは文化的に不適切なアウトプットに晒すことができる。
安全コンテクストの埋め込みと、より安全な画像を生成するための二重再構成プロセスを活用するモジュール型動的ソリューションを提案する。
我々は、モデル安全性の制御可能なバリエーションを提供しながら、安全な画像生成ベンチマークの最先端結果を達成する。
論文 参考訳(メタデータ) (2024-11-21T09:47:13Z) - Safe Text-to-Image Generation: Simply Sanitize the Prompt Embedding [13.481343482138888]
視覚に依存しない安全な生成フレームワーク Embedding Sanitizer (ES) を提案する。
ESは、迅速な埋め込みから不適切な概念を消去することに焦点を当て、安全な生成のためにモデルをガイドするために、衛生的な埋め込みを使用する。
ESは、生成品質を維持しつつ、解釈性と制御性の観点から既存の安全ガードを著しく上回っている。
論文 参考訳(メタデータ) (2024-11-15T16:29:02Z) - ShieldGemma: Generative AI Content Moderation Based on Gemma [49.91147965876678]
ShieldGemmaは、Gemma2上に構築された安全コンテンツモデレーションモデルのスイートである。
モデルは、主要な危険タイプにわたる安全リスクの堅牢で最先端の予測を提供する。
論文 参考訳(メタデータ) (2024-07-31T17:48:14Z) - Safeguard Text-to-Image Diffusion Models with Human Feedback Inversion [51.931083971448885]
本稿では,Human Feedback Inversion (HFI) というフレームワークを提案する。
実験の結果,画像品質を維持しながら,好ましくないコンテンツ生成を著しく削減し,公的な領域におけるAIの倫理的展開に寄与することが示された。
論文 参考訳(メタデータ) (2024-07-17T05:21:41Z) - Concept Arithmetics for Circumventing Concept Inhibition in Diffusion Models [58.065255696601604]
拡散モデルの合成特性を使い、単一の画像生成において複数のプロンプトを利用することができる。
本論では, 画像生成の可能なすべてのアプローチを, 相手が適用可能な拡散モデルで検討することが重要であると論じる。
論文 参考訳(メタデータ) (2024-04-21T16:35:16Z) - Latent Guard: a Safety Framework for Text-to-image Generation [64.49596711025993]
既存の安全対策は、容易に回避できるテキストブラックリストや有害なコンテンツ分類に基づいている。
テキスト・ツー・イメージ生成の安全性向上を目的としたフレームワークであるLatent Guardを提案する。
ブラックリストベースのアプローチにインスパイアされたLatent Guardは、T2Iモデルのテキストエンコーダの上に潜在空間を学習し、有害な概念の存在を確認することができる。
論文 参考訳(メタデータ) (2024-04-11T17:59:52Z) - Harm Amplification in Text-to-Image Models [5.397559484007124]
テキスト・ツー・イメージ(T2I)モデルは、生成AIの大幅な進歩として現れている。
ユーザーが安全と思われるプロンプトを入力しても、有害な画像出力を発生させる可能性については、安全上の懸念がある。
T2Iモデルが入力プロンプトで明示されていない有害な表現を生成するこの現象は、敵のプロンプトよりも潜在的に大きなリスクを引き起こす。
論文 参考訳(メタデータ) (2024-02-01T23:12:57Z) - A Holistic Approach to Undesired Content Detection in the Real World [4.626056557184189]
実世界のコンテンツモデレーションのための堅牢な自然言語分類システムを構築するための総合的なアプローチを提案する。
このようなシステムの成功は、コンテンツの設計やラベリング命令を含む、慎重に設計され実行された一連のステップに依存している。
我々のモデレーションシステムは、性的コンテンツ、憎悪コンテンツ、暴力、自傷行為、ハラスメントなど、望ましくないコンテンツの幅広いカテゴリーを検出するために訓練されている。
論文 参考訳(メタデータ) (2022-08-05T16:47:23Z) - A Hazard Analysis Framework for Code Synthesis Large Language Models [2.535935501467612]
さまざまなコードでトレーニングされた大規模言語モデル(LLM)であるCodexは、コードの合成と生成の能力において、それまでの最先端技術を上回っている。
本稿は,コーデックスのようなモデルが技術的,社会的,政治的,経済的に課すハザードや安全性のリスクを明らかにするために,OpenAIが構築したハザード分析フレームワークの概要を示す。
論文 参考訳(メタデータ) (2022-07-25T20:44:40Z) - Generative Counterfactuals for Neural Networks via Attribute-Informed
Perturbation [51.29486247405601]
AIP(Attribute-Informed Perturbation)の提案により,生データインスタンスの反事実を生成するフレームワークを設計する。
異なる属性を条件とした生成モデルを利用することで、所望のラベルとの反事実を効果的かつ効率的に得ることができる。
実世界のテキストや画像に対する実験結果から, 設計したフレームワークの有効性, サンプル品質, および効率が示された。
論文 参考訳(メタデータ) (2021-01-18T08:37:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。