Fugu-MT 論文翻訳(概要): Safety and Fairness for Content Moderation in Generative Models

論文の概要: Safety and Fairness for Content Moderation in Generative Models

arxiv url: http://arxiv.org/abs/2306.06135v1
Date: Fri, 9 Jun 2023 01:37:32 GMT
ステータス: 翻訳完了
システム内更新日: 2023-06-13 20:58:24.388764
Title: Safety and Fairness for Content Moderation in Generative Models
Title（参考訳）: 生成モデルにおけるコンテンツモデレーションの安全性と公平性
Authors: Susan Hao, Piyush Kumar, Sarah Laszlo, Shivani Poddar, Bhaktipriya Radharapu, Renee Shelby
Abstract要約: テキスト・ツー・イメージ生成技術の責任あるコンテンツモデレーションを概念化する理論的枠組みを提供する。我々は、安全、公正、およびメートル法エクイティの概念を定義し、区別し、各ドメインで起こりうる害を列挙する。我々は、データ駆動型コンテンツのモデレーション決定を可能にするハーネスのスタイルについて、まとめて結論付けている。
参考スコア（独自算出の注目度）: 0.7992463811844456
License: http://creativecommons.org/licenses/by/4.0/
Abstract: With significant advances in generative AI, new technologies are rapidly being deployed with generative components. Generative models are typically trained on large datasets, resulting in model behaviors that can mimic the worst of the content in the training data. Responsible deployment of generative technologies requires content moderation strategies, such as safety input and output filters. Here, we provide a theoretical framework for conceptualizing responsible content moderation of text-to-image generative technologies, including a demonstration of how to empirically measure the constructs we enumerate. We define and distinguish the concepts of safety, fairness, and metric equity, and enumerate example harms that can come in each domain. We then provide a demonstration of how the defined harms can be quantified. We conclude with a summary of how the style of harms quantification we demonstrate enables data-driven content moderation decisions.
Abstract（参考訳）: 生成AIの大幅な進歩により、新しい技術は生成コンポーネントで急速に展開されている。生成モデルは通常、大規模なデータセットでトレーニングされるため、トレーニングデータ内の最悪の内容を模倣するモデル行動が発生する。生成技術の責任あるデプロイメントには、安全入力や出力フィルタといったコンテンツモデレーション戦略が必要である。本稿では,テキストから画像への生成技術に対する責任あるコンテンツモデレーションの概念化のための理論的枠組みを提案する。安全性、公平性、メートル法等の概念を定義し、区別し、各ドメインで発生可能な例を列挙します。次に、定義された害を定量化する方法を示す。最後に、我々は、データ駆動コンテンツのモデレーション決定を可能にする方法のスタイルについて要約する。

関連論文リスト

Rethinking Data Protection in the (Generative) Artificial Intelligence Era [115.71019708491386]
現代の(生産的な)AIモデルやシステムに生じる多様な保護ニーズを捉える4段階の分類法を提案する。当社のフレームワークは、データユーティリティとコントロールのトレードオフに関する構造化された理解を提供し、AIパイプライン全体にわたっています。
論文参考訳（メタデータ） (2025-07-03T02:45:51Z)
PRJ: Perception-Retrieval-Judgement for Generated Images [6.940819432582308]
Perception-Retrieval-Judgement (PRJ) は、毒性検出を構造的推論プロセスとしてモデル化するフレームワークである。 PRJは3段階の設計に従っており、まずイメージを記述言語(知覚)に変換し、その後、有害カテゴリーや特徴(検索)に関する外部知識を回収し、最終的に法的または規範的な規則(判断)に基づいて毒性を評価する。実験の結果,PRJは検出精度とロバスト性において既存の安全チェックを上回り,構造的カテゴリーレベルの毒性解釈を独自に支援していることがわかった。
論文参考訳（メタデータ） (2025-06-04T08:13:53Z)
Erasing Concepts, Steering Generations: A Comprehensive Survey of Concept Suppression [10.950528923845955]
機密性、著作権、有害な画像の無制御再生は、重大な倫理的、法的、安全上の課題を引き起こす。概念消去パラダイムは有望な方向として現れており、生成モデルから特定の意味概念を選択的に除去することができる。この調査は、研究者がより安全で倫理的に整合した生成モデルへと導くことを目的としている。
論文参考訳（メタデータ） (2025-05-26T01:24:34Z)
Detect-and-Guide: Self-regulation of Diffusion Models for Safe Text-to-Image Generation via Guideline Token Optimization [22.225141381422873]
有害なコンテンツを生成するテキストと画像の拡散モデルに対する懸念が高まっている。概念アンラーニングや安全ガイダンスのようなポストホックモデルの介入技術は、これらのリスクを軽減するために開発されている。本稿では,自己診断と詳細な自己制御を行うための安全生成フレームワークであるDector-and-Guide(DAG)を提案する。 DAGは最先端の安全な生成性能を実現し、有害性軽減とテキスト追跡性能を現実のプロンプトでバランスさせる。
論文参考訳（メタデータ） (2025-03-19T13:37:52Z)
Computational Safety for Generative AI: A Signal Processing Perspective [65.268245109828]
計算安全性は、GenAIにおける安全性の定量的評価、定式化、研究を可能にする数学的枠組みである。ジェイルブレイクによる悪意のあるプロンプトを検出するために, 感度解析と損失景観解析がいかに有効かを示す。我々は、AIの安全性における信号処理の鍵となる研究課題、機会、そして重要な役割について論じる。
論文参考訳（メタデータ） (2025-02-18T02:26:50Z)
A Comprehensive Survey on Concept Erasure in Text-to-Image Diffusion Models [14.325284311928492]
テキスト・ツー・イメージ(T2I)モデルは、自然言語のプロンプトから高品質で多様な視覚コンテンツを生成できる。著作権のあるスタイル、繊細なイメージ、有害なコンテンツを再現する能力は、重大な倫理的および法的懸念を引き起こす。概念消去は、望ましくないコンテンツの生成を防ぐためにT2Iモデルを変更することで、外部フィルタリングの積極的な代替手段を提供する。
論文参考訳（メタデータ） (2025-02-17T20:51:20Z)
Towards Safer Social Media Platforms: Scalable and Performant Few-Shot Harmful Content Moderation Using Large Language Models [9.42299478071576]
ソーシャルメディアプラットフォーム上の有害コンテンツは、ユーザーや社会に重大なリスクをもたらす。現在のアプローチは、人間のモデレーター、教師付き分類器、大量のトレーニングデータに依存している。我々は,Large Language Models (LLMs) を用いて,テキスト内学習による動的コンテンツのモデレーションを少数行う。
論文参考訳（メタデータ） (2025-01-23T00:19:14Z)
Safety Without Semantic Disruptions: Editing-free Safe Image Generation via Context-preserving Dual Latent Reconstruction [49.60774626839712]
マルチモーダル生成モデルのトレーニングは、ユーザを有害で安全でない、議論の余地のない、あるいは文化的に不適切なアウトプットに晒すことができる。安全コンテクストの埋め込みと、より安全な画像を生成するための二重再構成プロセスを活用するモジュール型動的ソリューションを提案する。我々は、モデル安全性の制御可能なバリエーションを提供しながら、安全な画像生成ベンチマークの最先端結果を達成する。
論文参考訳（メタデータ） (2024-11-21T09:47:13Z)
On the Fairness, Diversity and Reliability of Text-to-Image Generative Models [68.62012304574012]
マルチモーダル生成モデルは信頼性公正性誤用の可能性について批判的な議論を巻き起こしました埋め込み空間におけるグローバルおよびローカルな摂動に対する応答を解析し、モデルの信頼性を評価するための評価フレームワークを提案する。提案手法は, 信頼できない, バイアス注入されたモデルを検出し, 組込みバイアスの証明をトレースするための基礎となる。
論文参考訳（メタデータ） (2024-11-21T09:46:55Z)
Safe Text-to-Image Generation: Simply Sanitize the Prompt Embedding [13.481343482138888]
視覚に依存しない安全な生成フレームワーク Embedding Sanitizer (ES) を提案する。 ESは、迅速な埋め込みから不適切な概念を消去することに焦点を当て、安全な生成のためにモデルをガイドするために、衛生的な埋め込みを使用する。 ESは、生成品質を維持しつつ、解釈性と制御性の観点から既存の安全ガードを著しく上回っている。
論文参考訳（メタデータ） (2024-11-15T16:29:02Z)
ShieldGemma: Generative AI Content Moderation Based on Gemma [49.91147965876678]
ShieldGemmaは、Gemma2上に構築された安全コンテンツモデレーションモデルのスイートである。モデルは、主要な危険タイプにわたる安全リスクの堅牢で最先端の予測を提供する。
論文参考訳（メタデータ） (2024-07-31T17:48:14Z)
Safeguard Text-to-Image Diffusion Models with Human Feedback Inversion [51.931083971448885]
本稿では,Human Feedback Inversion (HFI) というフレームワークを提案する。実験の結果,画像品質を維持しながら,好ましくないコンテンツ生成を著しく削減し,公的な領域におけるAIの倫理的展開に寄与することが示された。
論文参考訳（メタデータ） (2024-07-17T05:21:41Z)
Concept Arithmetics for Circumventing Concept Inhibition in Diffusion Models [58.065255696601604]
拡散モデルの合成特性を使い、単一の画像生成において複数のプロンプトを利用することができる。本論では, 画像生成の可能なすべてのアプローチを, 相手が適用可能な拡散モデルで検討することが重要であると論じる。
論文参考訳（メタデータ） (2024-04-21T16:35:16Z)
Latent Guard: a Safety Framework for Text-to-image Generation [64.49596711025993]
既存の安全対策は、容易に回避できるテキストブラックリストや有害なコンテンツ分類に基づいている。テキスト・ツー・イメージ生成の安全性向上を目的としたフレームワークであるLatent Guardを提案する。ブラックリストベースのアプローチにインスパイアされたLatent Guardは、T2Iモデルのテキストエンコーダの上に潜在空間を学習し、有害な概念の存在を確認することができる。
論文参考訳（メタデータ） (2024-04-11T17:59:52Z)
Harm Amplification in Text-to-Image Models [5.397559484007124]
テキスト・ツー・イメージ(T2I)モデルは、生成AIの大幅な進歩として現れている。ユーザーが安全と思われるプロンプトを入力しても、有害な画像出力を発生させる可能性については、安全上の懸念がある。 T2Iモデルが入力プロンプトで明示されていない有害な表現を生成するこの現象は、敵のプロンプトよりも潜在的に大きなリスクを引き起こす。
論文参考訳（メタデータ） (2024-02-01T23:12:57Z)
A Holistic Approach to Undesired Content Detection in the Real World [4.626056557184189]
実世界のコンテンツモデレーションのための堅牢な自然言語分類システムを構築するための総合的なアプローチを提案する。このようなシステムの成功は、コンテンツの設計やラベリング命令を含む、慎重に設計され実行された一連のステップに依存している。我々のモデレーションシステムは、性的コンテンツ、憎悪コンテンツ、暴力、自傷行為、ハラスメントなど、望ましくないコンテンツの幅広いカテゴリーを検出するために訓練されている。
論文参考訳（メタデータ） (2022-08-05T16:47:23Z)
A Hazard Analysis Framework for Code Synthesis Large Language Models [2.535935501467612]
さまざまなコードでトレーニングされた大規模言語モデル(LLM)であるCodexは、コードの合成と生成の能力において、それまでの最先端技術を上回っている。本稿は,コーデックスのようなモデルが技術的,社会的,政治的,経済的に課すハザードや安全性のリスクを明らかにするために,OpenAIが構築したハザード分析フレームワークの概要を示す。
論文参考訳（メタデータ） (2022-07-25T20:44:40Z)
Generative Counterfactuals for Neural Networks via Attribute-Informed Perturbation [51.29486247405601]
AIP(Attribute-Informed Perturbation)の提案により,生データインスタンスの反事実を生成するフレームワークを設計する。異なる属性を条件とした生成モデルを利用することで、所望のラベルとの反事実を効果的かつ効率的に得ることができる。実世界のテキストや画像に対する実験結果から, 設計したフレームワークの有効性, サンプル品質, および効率が示された。
論文参考訳（メタデータ） (2021-01-18T08:37:13Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。