論文の概要: Safety and Fairness for Content Moderation in Generative Models
- arxiv url: http://arxiv.org/abs/2306.06135v1
- Date: Fri, 9 Jun 2023 01:37:32 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-13 20:58:24.388764
- Title: Safety and Fairness for Content Moderation in Generative Models
- Title(参考訳): 生成モデルにおけるコンテンツモデレーションの安全性と公平性
- Authors: Susan Hao, Piyush Kumar, Sarah Laszlo, Shivani Poddar, Bhaktipriya
Radharapu, Renee Shelby
- Abstract要約: テキスト・ツー・イメージ生成技術の責任あるコンテンツモデレーションを概念化する理論的枠組みを提供する。
我々は、安全、公正、およびメートル法エクイティの概念を定義し、区別し、各ドメインで起こりうる害を列挙する。
我々は、データ駆動型コンテンツのモデレーション決定を可能にするハーネスのスタイルについて、まとめて結論付けている。
- 参考スコア(独自算出の注目度): 0.7992463811844456
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With significant advances in generative AI, new technologies are rapidly
being deployed with generative components. Generative models are typically
trained on large datasets, resulting in model behaviors that can mimic the
worst of the content in the training data. Responsible deployment of generative
technologies requires content moderation strategies, such as safety input and
output filters. Here, we provide a theoretical framework for conceptualizing
responsible content moderation of text-to-image generative technologies,
including a demonstration of how to empirically measure the constructs we
enumerate. We define and distinguish the concepts of safety, fairness, and
metric equity, and enumerate example harms that can come in each domain. We
then provide a demonstration of how the defined harms can be quantified. We
conclude with a summary of how the style of harms quantification we demonstrate
enables data-driven content moderation decisions.
- Abstract(参考訳): 生成AIの大幅な進歩により、新しい技術は生成コンポーネントで急速に展開されている。
生成モデルは通常、大規模なデータセットでトレーニングされるため、トレーニングデータ内の最悪の内容を模倣するモデル行動が発生する。
生成技術の責任あるデプロイメントには、安全入力や出力フィルタといったコンテンツモデレーション戦略が必要である。
本稿では,テキストから画像への生成技術に対する責任あるコンテンツモデレーションの概念化のための理論的枠組みを提案する。
安全性、公平性、メートル法等の概念を定義し、区別し、各ドメインで発生可能な例を列挙します。
次に、定義された害を定量化する方法を示す。
最後に、我々は、データ駆動コンテンツのモデレーション決定を可能にする方法のスタイルについて要約する。
関連論文リスト
- Harm Amplification in Text-to-Image Models [5.684701566644692]
テキスト・ツー・イメージ(T2I)モデルは、生成AIの大幅な進歩として現れている。
ユーザーが安全と思われるプロンプトを入力しても、有害な画像出力を発生させる可能性については、安全上の懸念がある。
T2Iモデルが入力において明示的でない有害な表現を生成するこの現象は、敵のプロンプトよりも潜在的に大きなリスクを引き起こす。
論文 参考訳(メタデータ) (2024-02-01T23:12:57Z) - Ring-A-Bell! How Reliable are Concept Removal Methods for Diffusion
Models? [54.20337292389793]
Ring-A-Bellは、T2I拡散モデルのためのモデルに依存しないレッドチームツールである。
これは、不適切なコンテンツの生成に対応する拡散モデルに対する問題的プロンプトを特定する。
この結果から,安全プロンプトベンチマークの操作により,既存の安全メカニズムを回避できると考えられるプロンプトを変換できることが示唆された。
論文 参考訳(メタデータ) (2023-10-16T02:11:20Z) - Semantic Communications for Artificial Intelligence Generated Content
(AIGC) Toward Effective Content Creation [75.73229320559996]
本稿では,AIGCとSemComの統合の概念モデルを開発する。
AIGC技術を利用した新しいフレームワークが,意味情報のためのエンコーダおよびデコーダとして提案されている。
このフレームワークは、生成されたさまざまなタイプのコンテンツ、要求される品質、活用される意味情報に適応することができる。
論文 参考訳(メタデータ) (2023-08-09T13:17:21Z) - Constructing Highly Inductive Contexts for Dialogue Safety through
Controllable Reverse Generation [65.48908724440047]
そこで本稿では,ある応答に条件付けされた逆コンテキストを構築するために,エンフレバース生成と呼ばれる手法を提案する。
我々は,Blender,DialoGPT,Plato2の3種類の事前訓練済み対話モデルをテストする。
論文 参考訳(メタデータ) (2022-12-04T12:23:41Z) - Addressing contingency in algorithmic (mis)information classification:
Toward a responsible machine learning agenda [0.9659642285903421]
データサイエンティストは、モデルトレーニングとテストに使用される「真実の情報源の客観性、信頼性、正当性」にスタンスを取る必要がある。
彼らの報告された高い正確さと性能にもかかわらず、ML駆動のモデレーションシステムは、オンラインの公開討論を形作り、不正な検閲や偽の信念の強化のような下流のネガティブな影響を生み出す可能性がある。
論文 参考訳(メタデータ) (2022-10-05T17:34:51Z) - A Holistic Approach to Undesired Content Detection in the Real World [4.626056557184189]
実世界のコンテンツモデレーションのための堅牢な自然言語分類システムを構築するための総合的なアプローチを提案する。
このようなシステムの成功は、コンテンツの設計やラベリング命令を含む、慎重に設計され実行された一連のステップに依存している。
我々のモデレーションシステムは、性的コンテンツ、憎悪コンテンツ、暴力、自傷行為、ハラスメントなど、望ましくないコンテンツの幅広いカテゴリーを検出するために訓練されている。
論文 参考訳(メタデータ) (2022-08-05T16:47:23Z) - A Hazard Analysis Framework for Code Synthesis Large Language Models [2.535935501467612]
さまざまなコードでトレーニングされた大規模言語モデル(LLM)であるCodexは、コードの合成と生成の能力において、それまでの最先端技術を上回っている。
本稿は,コーデックスのようなモデルが技術的,社会的,政治的,経済的に課すハザードや安全性のリスクを明らかにするために,OpenAIが構築したハザード分析フレームワークの概要を示す。
論文 参考訳(メタデータ) (2022-07-25T20:44:40Z) - Do You See What I See? Capabilities and Limits of Automated Multimedia
Content Analysis [0.0]
本稿では,自動コンテンツ分析ツールの機能と限界について説明する。
これは、マッチングモデルとコンピュータ予測モデルという2つの主要なツールカテゴリに焦点を当てている。
論文 参考訳(メタデータ) (2021-12-15T22:42:00Z) - Counterfactual Explanations as Interventions in Latent Space [62.997667081978825]
反現実的な説明は、望ましい結果を達成するために変更が必要な機能のセットをエンドユーザに提供することを目的としています。
現在のアプローチでは、提案された説明を達成するために必要な行動の実現可能性を考慮することはめったにない。
本稿では,非現実的説明を生成する手法として,潜時空間における干渉としての対実的説明(CEILS)を提案する。
論文 参考訳(メタデータ) (2021-06-14T20:48:48Z) - Generative Counterfactuals for Neural Networks via Attribute-Informed
Perturbation [51.29486247405601]
AIP(Attribute-Informed Perturbation)の提案により,生データインスタンスの反事実を生成するフレームワークを設計する。
異なる属性を条件とした生成モデルを利用することで、所望のラベルとの反事実を効果的かつ効率的に得ることができる。
実世界のテキストや画像に対する実験結果から, 設計したフレームワークの有効性, サンプル品質, および効率が示された。
論文 参考訳(メタデータ) (2021-01-18T08:37:13Z) - Unsupervised Opinion Summarization with Content Planning [58.5308638148329]
要約モデルにコンテンツプランニングを明示的に組み込むことで、より高い品質のアウトプットが得られることを示す。
また、より自然な合成データセットを作成し、実世界の文書と要約のペアに似ている。
当社のアプローチは,情報的,一貫性,流動的な要約を生成する上で,競争モデルよりも優れています。
論文 参考訳(メタデータ) (2020-12-14T18:41:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。