論文の概要: Moderator: Moderating Text-to-Image Diffusion Models through Fine-grained Context-based Policies
- arxiv url: http://arxiv.org/abs/2408.07728v2
- Date: Thu, 12 Sep 2024 02:39:27 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-13 21:10:23.566379
- Title: Moderator: Moderating Text-to-Image Diffusion Models through Fine-grained Context-based Policies
- Title(参考訳): モデレータ: きめ細かいコンテキストベースのポリシーによるテキスト・画像拡散モデルのモデレーション
- Authors: Peiran Wang, Qiyu Li, Longxuan Yu, Ziyao Wang, Ang Li, Haojian Jin,
- Abstract要約: 我々は、管理者が細かいコンテンツモデレーションポリシーを指定できるポリシーベースのモデル管理システムであるModeratorを提案する。
モデレーターは、15回の試行で65%のユーザが適度なコンテンツを生成するのを防ぎ、残りのユーザーに対して平均8.3倍の望ましくないコンテンツを生成することを要求している。
- 参考スコア(独自算出の注目度): 11.085388940369851
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present Moderator, a policy-based model management system that allows administrators to specify fine-grained content moderation policies and modify the weights of a text-to-image (TTI) model to make it significantly more challenging for users to produce images that violate the policies. In contrast to existing general-purpose model editing techniques, which unlearn concepts without considering the associated contexts, Moderator allows admins to specify what content should be moderated, under which context, how it should be moderated, and why moderation is necessary. Given a set of policies, Moderator first prompts the original model to generate images that need to be moderated, then uses these self-generated images to reverse fine-tune the model to compute task vectors for moderation and finally negates the original model with the task vectors to decrease its performance in generating moderated content. We evaluated Moderator with 14 participants to play the role of admins and found they could quickly learn and author policies to pass unit tests in approximately 2.29 policy iterations. Our experiment with 32 stable diffusion users suggested that Moderator can prevent 65% of users from generating moderated content under 15 attempts and require the remaining users an average of 8.3 times more attempts to generate undesired content.
- Abstract(参考訳): ポリシーベースのモデル管理システムであるModeratorは、管理者が細かいコンテンツモデレーションポリシーを指定でき、テキスト・ツー・イメージ(TTI)モデルの重みを変更できる。
関連するコンテキストを考慮せずに概念を学習する既存の汎用モデル編集技術とは対照的に、Moderatorは管理者に対して、どのコンテントを適度に扱うべきか、どのコンテキストの下でどのように調整するか、なぜモデレーションが必要なのかを指定できる。
ポリシーのセットが与えられた後、モデレーターはまずオリジナルのモデルに、適度な画像を生成するように促し、次にこれらの自己生成画像を使用してモデルを逆修正し、モデレーションのためのタスクベクトルを計算し、最後に、元のモデルとタスクベクトルをネゲートして、適度なコンテンツを生成する際のパフォーマンスを低下させる。
私たちはModerratorを14人の参加者で評価し、管理者の役割を担い、約2.29のポリシーイテレーションでユニットテストをパスするために素早く学習し、ポリシーを作成できることがわかった。
安定拡散型ユーザ32名を対象に行った実験では,約65%のユーザが15回の試行で適度なコンテンツの生成を防ぎ,残りのユーザに対して平均8.3倍の望ましくないコンテンツの生成を要求された。
関連論文リスト
- Safety Without Semantic Disruptions: Editing-free Safe Image Generation via Context-preserving Dual Latent Reconstruction [49.60774626839712]
マルチモーダル生成モデルのトレーニングは、ユーザを有害で安全でない、議論の余地のない、あるいは文化的に不適切なアウトプットに晒すことができる。
安全コンテクストの埋め込みと、より安全な画像を生成するための二重再構成プロセスを活用するモジュール型動的ソリューションを提案する。
我々は、モデル安全性の制御可能なバリエーションを提供しながら、安全な画像生成ベンチマークの最先端結果を達成する。
論文 参考訳(メタデータ) (2024-11-21T09:47:13Z) - Six-CD: Benchmarking Concept Removals for Benign Text-to-image Diffusion Models [58.74606272936636]
テキスト・ツー・イメージ(T2I)拡散モデルは、テキスト・プロンプトと密接に対応した画像を生成する際、例外的な機能を示す。
モデルは、暴力やヌードの画像を生成したり、不適切な文脈で公共の人物の無許可の肖像画を作成するなど、悪意ある目的のために利用することができる。
悪質な概念や望ましくない概念の発生を防ぐために拡散モデルを変更する概念除去法が提案されている。
論文 参考訳(メタデータ) (2024-06-21T03:58:44Z) - Image2Sentence based Asymmetrical Zero-shot Composed Image Retrieval [92.13664084464514]
合成画像検索(CIR)の課題は,検索画像とユーザの意図を記述したテキストに基づいて画像を取得することである。
既存の手法は、CIRタスクにおける高度な大規模視覚言語(VL)モデルにおいて大きな進歩を遂げているが、それらは一般的に、モデルトレーニングのためのラベル付き三重項の欠如とリソース制限された環境への展開の困難という2つの大きな問題に悩まされている。
本稿では、VLモデルを利用して合成学習のためのラベルなし画像のみに依存する画像2Sentenceに基づく非対称ゼロショット合成画像検索(ISA)を提案する。
論文 参考訳(メタデータ) (2024-03-03T07:58:03Z) - CCM: Adding Conditional Controls to Text-to-Image Consistency Models [89.75377958996305]
本稿では,Consistency Models に ControlNet のような条件制御を追加するための代替戦略を検討する。
軽量アダプタは、一貫性トレーニングを通じて、複数の条件下で共同で最適化することができる。
これらの3つの解は, エッジ, 奥行き, 人間のポーズ, 低解像度画像, マスキング画像など, 様々な条件制御にまたがる。
論文 参考訳(メタデータ) (2023-12-12T04:16:03Z) - Toxicity Detection is NOT all you Need: Measuring the Gaps to Supporting Volunteer Content Moderators [19.401873797111662]
我々はHugging Faceでモデルレビューを行い、様々なモデレーションルールとガイドラインをカバーするモデルの有効性を明らかにする。
テストに最先端のLLMを配置し、これらのモデルが特定のフォーラムからプラットフォームルールに違反していると警告する上で、いかにうまく機能するかを評価します。
概して、未発達のモデルとLLMは、ルールのかなりの部分で中程度から低い性能を示すため、非自明なギャップを観察する。
論文 参考訳(メタデータ) (2023-11-14T03:18:28Z) - Towards Intersectional Moderation: An Alternative Model of Moderation
Built on Care and Power [0.4351216340655199]
代替モデレーションモデルを用いたコミュニティであるr/AskHistoriansのモデレーターと共同でエスノグラフィを行う。
r/AskHistorianの別のモデレーションモデルに関する3つの象徴的な議論に焦点をあてる。
私は、デザイナが意思決定プロセスをサポートするべきであり、政策立案者は社会技術システムの影響を考慮すべきだと論じます。
論文 参考訳(メタデータ) (2023-05-18T18:27:52Z) - Multilingual Content Moderation: A Case Study on Reddit [23.949429463013796]
Redditのコメント18万件の多言語データセットを導入し,コンテンツモデレーションの課題について検討する。
我々は、基礎となる課題を強調し、関連する研究課題を提案するために、広範な実験分析を行う。
私たちのデータセットと分析は、オートモデレーションの課題と機会に備えるのに役立ちます。
論文 参考訳(メタデータ) (2023-02-19T16:36:33Z) - Benchmarking Robustness to Adversarial Image Obfuscations [22.784762155781436]
悪意あるアクターは、機械学習モデルが正しい決定に達するのを防ぐために、イメージを侵害するポリシーを難なくすることができる。
ImageNetに基づくこのベンチマークは、悪意のあるアクターによって生成される難読化のタイプをシミュレートする。
論文 参考訳(メタデータ) (2023-01-30T15:36:44Z) - Explainable Abuse Detection as Intent Classification and Slot Filling [66.80201541759409]
我々は、システムがデータ検査だけで乱用を構成する事象を確実に学習できるという非現実的な期待を捨て、政策対応による悪用検出の概念を導入する。
目的分類とスロットフィリングのためのアーキテクチャは、モデル決定の根拠を提供しながら、悪用検出にどのように使用できるかを示す。
論文 参考訳(メタデータ) (2022-10-06T03:33:30Z) - Reliable Decision from Multiple Subtasks through Threshold Optimization:
Content Moderation in the Wild [7.176020195419459]
ソーシャルメディアプラットフォームは、コンテンツモデレーションを通じて有害なコンテンツからユーザーを守るのに苦労している。
これらのプラットフォームは最近、大量のユーザー生成コンテンツに毎日対処するために機械学習モデルを活用している。
サードパーティーのコンテンツモデレーションサービスは、未成年者の存在、失礼なジェスチャー、武器など、複数のサブタスクの予測スコアを提供する。
本稿では,複数のサブタスクの最適しきい値を探索し,信頼性の高いモデレーション決定をコスト効率よく行うための,シンプルで効果的なしきい値最適化手法を提案する。
論文 参考訳(メタデータ) (2022-08-16T03:51:43Z) - Text as Neural Operator: Image Manipulation by Text Instruction [68.53181621741632]
本稿では、複雑なテキスト命令を用いて複数のオブジェクトで画像を編集し、オブジェクトの追加、削除、変更を可能にする設定について検討する。
タスクの入力は、(1)参照画像を含むマルチモーダルであり、(2)所望の修正を記述した自然言語の命令である。
提案モデルは,最近の3つの公開データセットの強いベースラインに対して良好に動作することを示す。
論文 参考訳(メタデータ) (2020-08-11T07:07:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。