論文の概要: Safety and Fairness for Content Moderation in Generative Models
- arxiv url: http://arxiv.org/abs/2306.06135v1
- Date: Fri, 9 Jun 2023 01:37:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2023-06-13 20:58:24.388764
- Title: Safety and Fairness for Content Moderation in Generative Models
- Title(参考訳): 生成モデルにおけるコンテンツモデレーションの安全性と公平性
- Authors: Susan Hao, Piyush Kumar, Sarah Laszlo, Shivani Poddar, Bhaktipriya
Radharapu, Renee Shelby
- Abstract要約: テキスト・ツー・イメージ生成技術の責任あるコンテンツモデレーションを概念化する理論的枠組みを提供する。
我々は、安全、公正、およびメートル法エクイティの概念を定義し、区別し、各ドメインで起こりうる害を列挙する。
我々は、データ駆動型コンテンツのモデレーション決定を可能にするハーネスのスタイルについて、まとめて結論付けている。
- 参考スコア(独自算出の注目度): 0.7992463811844456
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With significant advances in generative AI, new technologies are rapidly
being deployed with generative components. Generative models are typically
trained on large datasets, resulting in model behaviors that can mimic the
worst of the content in the training data. Responsible deployment of generative
technologies requires content moderation strategies, such as safety input and
output filters. Here, we provide a theoretical framework for conceptualizing
responsible content moderation of text-to-image generative technologies,
including a demonstration of how to empirically measure the constructs we
enumerate. We define and distinguish the concepts of safety, fairness, and
metric equity, and enumerate example harms that can come in each domain. We
then provide a demonstration of how the defined harms can be quantified. We
conclude with a summary of how the style of harms quantification we demonstrate
enables data-driven content moderation decisions.
- Abstract(参考訳): 生成AIの大幅な進歩により、新しい技術は生成コンポーネントで急速に展開されている。
生成モデルは通常、大規模なデータセットでトレーニングされるため、トレーニングデータ内の最悪の内容を模倣するモデル行動が発生する。
生成技術の責任あるデプロイメントには、安全入力や出力フィルタといったコンテンツモデレーション戦略が必要である。
本稿では,テキストから画像への生成技術に対する責任あるコンテンツモデレーションの概念化のための理論的枠組みを提案する。
安全性、公平性、メートル法等の概念を定義し、区別し、各ドメインで発生可能な例を列挙します。
次に、定義された害を定量化する方法を示す。
最後に、我々は、データ駆動コンテンツのモデレーション決定を可能にする方法のスタイルについて要約する。
関連論文リスト
- Detect-and-Guide: Self-regulation of Diffusion Models for Safe Text-to-Image Generation via Guideline Token Optimization [22.225141381422873]
有害なコンテンツを生成するテキストと画像の拡散モデルに対する懸念が高まっている。
概念アンラーニングや安全ガイダンスのようなポストホックモデルの介入技術は、これらのリスクを軽減するために開発されている。
本稿では,自己診断と詳細な自己制御を行うための安全生成フレームワークであるDector-and-Guide(DAG)を提案する。
DAGは最先端の安全な生成性能を実現し、有害性軽減とテキスト追跡性能を現実のプロンプトでバランスさせる。
論文 参考訳(メタデータ) (2025-03-19T13:37:52Z) - Computational Safety for Generative AI: A Signal Processing Perspective [65.268245109828]
計算安全性は、GenAIにおける安全性の定量的評価、定式化、研究を可能にする数学的枠組みである。
ジェイルブレイクによる悪意のあるプロンプトを検出するために, 感度解析と損失景観解析がいかに有効かを示す。
我々は、AIの安全性における信号処理の鍵となる研究課題、機会、そして重要な役割について論じる。
論文 参考訳(メタデータ) (2025-02-18T02:26:50Z) - A Comprehensive Survey on Concept Erasure in Text-to-Image Diffusion Models [14.325284311928492]
テキスト・ツー・イメージ(T2I)モデルは、自然言語のプロンプトから高品質で多様な視覚コンテンツを生成できる。
著作権のあるスタイル、繊細なイメージ、有害なコンテンツを再現する能力は、重大な倫理的および法的懸念を引き起こす。
概念消去は、望ましくないコンテンツの生成を防ぐためにT2Iモデルを変更することで、外部フィルタリングの積極的な代替手段を提供する。
論文 参考訳(メタデータ) (2025-02-17T20:51:20Z) - Towards Safer Social Media Platforms: Scalable and Performant Few-Shot Harmful Content Moderation Using Large Language Models [9.42299478071576]
ソーシャルメディアプラットフォーム上の有害コンテンツは、ユーザーや社会に重大なリスクをもたらす。
現在のアプローチは、人間のモデレーター、教師付き分類器、大量のトレーニングデータに依存している。
我々は,Large Language Models (LLMs) を用いて,テキスト内学習による動的コンテンツのモデレーションを少数行う。
論文 参考訳(メタデータ) (2025-01-23T00:19:14Z) - Safety Without Semantic Disruptions: Editing-free Safe Image Generation via Context-preserving Dual Latent Reconstruction [49.60774626839712]
マルチモーダル生成モデルのトレーニングは、ユーザを有害で安全でない、議論の余地のない、あるいは文化的に不適切なアウトプットに晒すことができる。
安全コンテクストの埋め込みと、より安全な画像を生成するための二重再構成プロセスを活用するモジュール型動的ソリューションを提案する。
我々は、モデル安全性の制御可能なバリエーションを提供しながら、安全な画像生成ベンチマークの最先端結果を達成する。
論文 参考訳(メタデータ) (2024-11-21T09:47:13Z) - Safe Text-to-Image Generation: Simply Sanitize the Prompt Embedding [13.481343482138888]
視覚に依存しない安全な生成フレームワーク Embedding Sanitizer (ES) を提案する。
ESは、迅速な埋め込みから不適切な概念を消去することに焦点を当て、安全な生成のためにモデルをガイドするために、衛生的な埋め込みを使用する。
ESは、生成品質を維持しつつ、解釈性と制御性の観点から既存の安全ガードを著しく上回っている。
論文 参考訳(メタデータ) (2024-11-15T16:29:02Z) - ShieldGemma: Generative AI Content Moderation Based on Gemma [49.91147965876678]
ShieldGemmaは、Gemma2上に構築された安全コンテンツモデレーションモデルのスイートである。
モデルは、主要な危険タイプにわたる安全リスクの堅牢で最先端の予測を提供する。
論文 参考訳(メタデータ) (2024-07-31T17:48:14Z) - Safeguard Text-to-Image Diffusion Models with Human Feedback Inversion [51.931083971448885]
本稿では,Human Feedback Inversion (HFI) というフレームワークを提案する。
実験の結果,画像品質を維持しながら,好ましくないコンテンツ生成を著しく削減し,公的な領域におけるAIの倫理的展開に寄与することが示された。
論文 参考訳(メタデータ) (2024-07-17T05:21:41Z) - Concept Arithmetics for Circumventing Concept Inhibition in Diffusion Models [58.065255696601604]
拡散モデルの合成特性を使い、単一の画像生成において複数のプロンプトを利用することができる。
本論では, 画像生成の可能なすべてのアプローチを, 相手が適用可能な拡散モデルで検討することが重要であると論じる。
論文 参考訳(メタデータ) (2024-04-21T16:35:16Z) - Latent Guard: a Safety Framework for Text-to-image Generation [64.49596711025993]
既存の安全対策は、容易に回避できるテキストブラックリストや有害なコンテンツ分類に基づいている。
テキスト・ツー・イメージ生成の安全性向上を目的としたフレームワークであるLatent Guardを提案する。
ブラックリストベースのアプローチにインスパイアされたLatent Guardは、T2Iモデルのテキストエンコーダの上に潜在空間を学習し、有害な概念の存在を確認することができる。
論文 参考訳(メタデータ) (2024-04-11T17:59:52Z) - Harm Amplification in Text-to-Image Models [5.397559484007124]
テキスト・ツー・イメージ(T2I)モデルは、生成AIの大幅な進歩として現れている。
ユーザーが安全と思われるプロンプトを入力しても、有害な画像出力を発生させる可能性については、安全上の懸念がある。
T2Iモデルが入力プロンプトで明示されていない有害な表現を生成するこの現象は、敵のプロンプトよりも潜在的に大きなリスクを引き起こす。
論文 参考訳(メタデータ) (2024-02-01T23:12:57Z) - A Holistic Approach to Undesired Content Detection in the Real World [4.626056557184189]
実世界のコンテンツモデレーションのための堅牢な自然言語分類システムを構築するための総合的なアプローチを提案する。
このようなシステムの成功は、コンテンツの設計やラベリング命令を含む、慎重に設計され実行された一連のステップに依存している。
我々のモデレーションシステムは、性的コンテンツ、憎悪コンテンツ、暴力、自傷行為、ハラスメントなど、望ましくないコンテンツの幅広いカテゴリーを検出するために訓練されている。
論文 参考訳(メタデータ) (2022-08-05T16:47:23Z) - A Hazard Analysis Framework for Code Synthesis Large Language Models [2.535935501467612]
さまざまなコードでトレーニングされた大規模言語モデル(LLM)であるCodexは、コードの合成と生成の能力において、それまでの最先端技術を上回っている。
本稿は,コーデックスのようなモデルが技術的,社会的,政治的,経済的に課すハザードや安全性のリスクを明らかにするために,OpenAIが構築したハザード分析フレームワークの概要を示す。
論文 参考訳(メタデータ) (2022-07-25T20:44:40Z) - Generative Counterfactuals for Neural Networks via Attribute-Informed
Perturbation [51.29486247405601]
AIP(Attribute-Informed Perturbation)の提案により,生データインスタンスの反事実を生成するフレームワークを設計する。
異なる属性を条件とした生成モデルを利用することで、所望のラベルとの反事実を効果的かつ効率的に得ることができる。
実世界のテキストや画像に対する実験結果から, 設計したフレームワークの有効性, サンプル品質, および効率が示された。
論文 参考訳(メタデータ) (2021-01-18T08:37:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。