論文の概要: Seeing Seeds Beyond Weeds: Green Teaming Generative AI for Beneficial
Uses
- arxiv url: http://arxiv.org/abs/2306.03097v1
- Date: Tue, 30 May 2023 21:52:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-11 13:36:19.804222
- Title: Seeing Seeds Beyond Weeds: Green Teaming Generative AI for Beneficial
Uses
- Title(参考訳): 雑草以外の種を見る - 有効利用のためのグリーンチーム生成AI
- Authors: Logan Stapleton, Jordan Taylor, Sarah Fox, Tongshuang Wu, Haiyi Zhu
- Abstract要約: GPTやDALL-Eのような大規模な生成AIモデル(GM)は、一般的な広義の目的のためにコンテンツを生成するように訓練されている。
GMがコンテンツをフィルタリングすると、有害なものとともに有益なユースケースを防ぎます。
近年, 有害なコンテンツを生成するために, GMコンテントフィルタをバイパスする方法が提案されている。
- 参考スコア(独自算出の注目度): 25.401338754059644
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large generative AI models (GMs) like GPT and DALL-E are trained to generate
content for general, wide-ranging purposes. GM content filters are generalized
to filter out content which has a risk of harm in many cases, e.g., hate
speech. However, prohibited content is not always harmful -- there are
instances where generating prohibited content can be beneficial. So, when GMs
filter out content, they preclude beneficial use cases along with harmful ones.
Which use cases are precluded reflects the values embedded in GM content
filtering. Recent work on red teaming proposes methods to bypass GM content
filters to generate harmful content. We coin the term green teaming to describe
methods of bypassing GM content filters to design for beneficial use cases. We
showcase green teaming by: 1) Using ChatGPT as a virtual patient to simulate a
person experiencing suicidal ideation, for suicide support training; 2) Using
Codex to intentionally generate buggy solutions to train students on debugging;
and 3) Examining an Instagram page using Midjourney to generate images of
anti-LGBTQ+ politicians in drag. Finally, we discuss how our use cases
demonstrate green teaming as both a practical design method and a mode of
critique, which problematizes and subverts current understandings of harms and
values in generative AI.
- Abstract(参考訳): GPTやDALL-Eのような大規模な生成AIモデル(GM)は、一般的な広義の目的のためにコンテンツを生成するように訓練されている。
GMコンテンツフィルタは、ヘイトスピーチなど多くのケースで害のリスクがあるコンテンツをフィルタリングするために一般化される。
しかし、禁止されたコンテンツが必ずしも有害とは限らない。
そのため、GMがコンテンツをフィルタリングすると、有害なものとともに有益なユースケースを防ぎます。
どのユースケースが排除されているかは、GMコンテンツフィルタリングに埋め込まれた値を反映している。
近年, 有害なコンテンツを生成するために, GMコンテントフィルタをバイパスする方法が提案されている。
我々は、GMコンテンツフィルタをバイパスして有益なユースケースを設計する手法を記述するために、グリーンチームという用語を作った。
グリーンチームを紹介します。
1) chatgpt を仮想患者として使用し,自殺支援訓練に自殺思想を有する者をシミュレートすること。
2)Codexを使って意図的にバグの解決策を生成して,生徒にデバッグを指導し,
3)Midjourneyを使ってInstagramページを調べて、反LGBTQ+政治家の画像をドラッグで生成する。
最後に、我々のユースケースがグリーンなチーム化を実践的な設計方法と批判のモードの両方として示す方法について議論する。
関連論文リスト
- SAFREE: Training-Free and Adaptive Guard for Safe Text-to-Image And Video Generation [65.30207993362595]
安全な生成のための学習/編集に基づく手法は、モデルから有害な概念を取り除くが、いくつかの課題に直面している。
安全なT2IとT2VのためのトレーニングフリーアプローチであるSAFREEを提案する。
テキスト埋め込み空間における有毒な概念の集合に対応する部分空間を検出し、この部分空間から直ちに埋め込みを行う。
論文 参考訳(メタデータ) (2024-10-16T17:32:23Z) - Hallucinating AI Hijacking Attack: Large Language Models and Malicious Code Recommenders [0.0]
研究者は、人気のあるコードリポジトリで悪意のあるコードに対して、コピーコードや幻覚されたAIレコメンデーションを導入するための敵の可能性を構築し、評価する。
OpenAI, Google, Anthropicの基本的な大規模言語モデル(LLM)は、有害な振る舞いと有害な文字列の両方に対して保護する。
我々は、この攻撃を、以前の文脈シフトに関する研究と比較し、マルウェア文学における「土地から逃れる」攻撃の新たなバージョンとして攻撃面を対比した。
論文 参考訳(メタデータ) (2024-10-09T01:36:25Z) - Identity-related Speech Suppression in Generative AI Content Moderation [2.812395851874055]
生成AIシステムは、そのようなフィルタを使用して、望ましくない生成されたコンテンツがユーザによって作成または提示されるのを防ぐ。
本稿では,複数のコンテンツモデレーションAPIによって誤ってフィルタリングされた異なるアイデンティティグループに関連する音声に焦点を当て,音声抑圧の尺度を定義し,導入する。
同一性関連音声は, 少数の非マールガル化群を除いて, 他言語よりも不正にフィルタリングされる可能性が示唆された。
論文 参考訳(メタデータ) (2024-09-09T14:34:51Z) - RogueGPT: dis-ethical tuning transforms ChatGPT4 into a Rogue AI in 158 Words [0.0]
本稿では、ChatGPTのデフォルトの倫理的ガードレールが、最新のカスタマイズ機能を使っていかに簡単にバイパスできるかを考察する。
この変化したChatGPTは「RogueGPT」とあだ名され、心配な行動に反応した。
我々の発見は、違法薬物生産、拷問方法、テロリズムといったトピックに関するモデルの知識に関する重要な懸念を提起する。
論文 参考訳(メタデータ) (2024-06-11T18:59:43Z) - Comprehensive Assessment of Toxicity in ChatGPT [49.71090497696024]
本研究は,ChatGPTの毒性を指導調整データセットを用いて評価する。
創作作業のプロンプトは 有害な反応を 引き起こす確率が 2倍になる
初期の研究で設計された、故意に有害なプロンプトは、もはや有害な反応を生じさせない。
論文 参考訳(メタデータ) (2023-11-03T14:37:53Z) - Certifying LLM Safety against Adversarial Prompting [75.19953634352258]
大規模言語モデル(LLM)は、入力プロンプトに悪意のあるトークンを追加する敵攻撃に対して脆弱である。
我々は,認証された安全保証とともに,敵のプロンプトを防御する最初の枠組みである消去・チェックを導入する。
論文 参考訳(メタデータ) (2023-09-06T04:37:20Z) - Universal and Transferable Adversarial Attacks on Aligned Language
Models [118.41733208825278]
本稿では,アライメント言語モデルに反抗的な振る舞いを生じさせる,シンプルで効果的な攻撃手法を提案する。
驚いたことに、我々のアプローチによって生じる敵のプロンプトは、かなり伝達可能である。
論文 参考訳(メタデータ) (2023-07-27T17:49:12Z) - Benchmarking Robustness to Adversarial Image Obfuscations [22.784762155781436]
悪意あるアクターは、機械学習モデルが正しい決定に達するのを防ぐために、イメージを侵害するポリシーを難なくすることができる。
ImageNetに基づくこのベンチマークは、悪意のあるアクターによって生成される難読化のタイプをシミュレートする。
論文 参考訳(メタデータ) (2023-01-30T15:36:44Z) - Detecting the Role of an Entity in Harmful Memes: Techniques and Their
Limitations [21.32190107220764]
有害または虐待的なオンラインコンテンツは、時間とともに増えている。
本稿では,有害ミームにおけるエンティティ(ヒーロー,悪役,被害者)の役割を検出する実験について述べる。
論文 参考訳(メタデータ) (2022-05-09T16:11:04Z) - Beyond Plain Toxic: Detection of Inappropriate Statements on Flammable
Topics for the Russian Language [76.58220021791955]
本稿では,不合理性という二項的概念と,センシティブなトピックの多項的概念に基づいてラベル付けされた2つのテキストコレクションについて述べる。
不適切な概念を客観するために、クラウドソーシングではデータ駆動方式で定義する。
論文 参考訳(メタデータ) (2022-03-04T15:59:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。