論文の概要: ToViLaG: Your Visual-Language Generative Model is Also An Evildoer
- arxiv url: http://arxiv.org/abs/2312.11523v1
- Date: Wed, 13 Dec 2023 08:25:07 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-31 03:57:56.656856
- Title: ToViLaG: Your Visual-Language Generative Model is Also An Evildoer
- Title(参考訳): ToViLaG:Visual-Language生成モデルも悪役
- Authors: Xinpeng Wang, Xiaoyuan Yi, Han Jiang, Shanlin Zhou, Zhihua Wei, Xing
Xie
- Abstract要約: 近年の大規模ビジュアルランゲージ生成モデル(VLGM)は,マルチモーダル画像/テキスト生成において前例のない改善を実現している。
これらのモデルはまた、攻撃的なテキストやポルノ画像などの有害なコンテンツを生成し、重大な倫理的リスクを生じさせる可能性がある。
この研究は、様々なVLGMにまたがる毒性生成と毒性データへの感受性の妥当性を掘り下げるものである。
- 参考スコア(独自算出の注目度): 36.60526586838288
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Warning: this paper includes model outputs showing offensive content. Recent
large-scale Visual-Language Generative Models (VLGMs) have achieved
unprecedented improvement in multimodal image/text generation. However, these
models might also generate toxic content, e.g., offensive text and pornography
images, raising significant ethical risks. Despite exhaustive studies on toxic
degeneration of language models, this problem remains largely unexplored within
the context of visual-language generation. This work delves into the propensity
for toxicity generation and susceptibility to toxic data across various VLGMs.
For this purpose, we built ToViLaG, a dataset comprising 32K
co-toxic/mono-toxic text-image pairs and 1K innocuous but evocative text that
tends to stimulate toxicity. Furthermore, we propose WInToRe, a novel toxicity
metric tailored to visual-language generation, which theoretically reflects
different aspects of toxicity considering both input and output. On such a
basis, we benchmarked the toxicity of a diverse spectrum of VLGMs and
discovered that some models do more evil than expected while some are more
vulnerable to infection, underscoring the necessity of VLGMs detoxification.
Therefore, we develop an innovative bottleneck-based detoxification method. Our
method could reduce toxicity while maintaining comparable generation quality,
providing a promising initial solution to this line of research.
- Abstract(参考訳): 警告:本論文は攻撃的コンテンツを示すモデル出力を含む。
近年の大規模ビジュアルランゲージ生成モデル(VLGM)は,マルチモーダル画像/テキスト生成において前例のない改善を実現している。
しかし、これらのモデルは攻撃的なテキストやポルノ画像などの有害なコンテンツも生成し、重大な倫理的リスクを引き起こす可能性がある。
言語モデルの有害な変性に関する徹底的な研究にもかかわらず、この問題は視覚言語生成の文脈でほとんど未解決のままである。
この研究は、様々なVLGMにまたがる毒性生成と毒性データへの感受性の妥当性を掘り下げるものである。
この目的のために,32kの共毒・単毒のテキスト画像対と,毒性を刺激する1kの無害だが挑発的なテキストからなるデータセットtovilagを構築した。
さらに、視覚言語生成に適した新しい毒性指標WInToReを提案し、入力と出力の両方を考慮した毒性の異なる側面を理論的に反映する。
そこで本研究では,様々な種類のVLGMの毒性をベンチマークし,VLGMの解毒の必要性を強調し,感染に弱いモデルもあれば,予想以上に悪を行うモデルもあることを示した。
そこで我々は,革新的なボトルネックに基づくデトキシフィケーション手法を開発した。
本手法は, 生成品質を同等に保ちながら毒性を低減し, この研究に期待できる最初の解決策を提供する。
関連論文リスト
- FrenchToxicityPrompts: a Large Benchmark for Evaluating and Mitigating Toxicity in French Texts [13.470734853274587]
大規模言語モデル(LLM)はますます普及しているが、バイアス、有害、有害な言語を生み出す傾向にある。
自然発生のフランスプロンプト50Kのデータセットである FrenchToxicityPrompts を作成した。
LLMの4つの主要なオープンソースファミリから14の異なるモデルを評価し,その毒性を評価する。
論文 参考訳(メタデータ) (2024-06-25T14:02:11Z) - Mitigating Text Toxicity with Counterfactual Generation [0.3250512744763586]
毒性の軽減は、有害な意味を取り除くためにテキストを言い換えることである。
現在のメソッドは、最初の非有毒な意味を保ちながら、テキストをデトックスすることができない。
この研究は、カウンターファクト生成とテキストのデトックス化のギャップを埋める最初のものである。
論文 参考訳(メタデータ) (2024-05-16T09:52:21Z) - Parameter-Efficient Detoxification with Contrastive Decoding [78.5124331048714]
Detoxification Generator (DETOXIGEN) は、不要なスタイルから退避する推論時間アルゴリズムである。
実際の生成では、トレーニングされたデトキシファイタを使用して、生成元が各デコードステップでコントラストする好ましくないトークンを生成する。
生成品質を損なうことなく,従来のデトキシフィケーション指標のアプローチを著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2024-01-13T01:46:20Z) - Unlocking Anticipatory Text Generation: A Constrained Approach for Large Language Models Decoding [75.06872859716049]
大規模言語モデル(LLM)は、テキスト生成の強力な能力を示している。
毒性や幻覚などの望ましくない行動が現れることがある。
将来制約付き生成問題としてテキスト生成の形式化を提案する。
論文 参考訳(メタデータ) (2023-12-11T06:35:33Z) - Unveiling the Implicit Toxicity in Large Language Models [77.90933074675543]
大きな言語モデル(LLM)のオープンエンドネスと、その優れた機能を組み合わせることで、悪意のある使用のために悪用された場合、新たな安全性上の問題が発生する可能性がある。
LLMは、単純なゼロショットプロンプトによる検出が極めて困難である様々な暗黙的な有毒な出力を生成することができることを示す。
我々は,LLMの暗黙的毒性をさらに誘発する強化学習(RL)に基づく攻撃法を提案する。
論文 参考訳(メタデータ) (2023-11-29T06:42:36Z) - Constructing Highly Inductive Contexts for Dialogue Safety through
Controllable Reverse Generation [65.48908724440047]
そこで本稿では,ある応答に条件付けされた逆コンテキストを構築するために,エンフレバース生成と呼ばれる手法を提案する。
我々は,Blender,DialoGPT,Plato2の3種類の事前訓練済み対話モデルをテストする。
論文 参考訳(メタデータ) (2022-12-04T12:23:41Z) - ToxiGen: A Large-Scale Machine-Generated Dataset for Adversarial and
Implicit Hate Speech Detection [33.715318646717385]
ToxiGenは、13の少数民族に関する274kの毒性と良心のステートメントの大規模なデータセットである。
このようにマシン生成を制御することで、ToxiGenは暗黙的に有害なテキストを大規模にカバーできる。
有毒な例の94.5%は、ヒトのアノテーターによるヘイトスピーチとしてラベル付けされている。
論文 参考訳(メタデータ) (2022-03-17T17:57:56Z) - Leashing the Inner Demons: Self-Detoxification for Language Models [13.576289320208511]
言語モデル(LM)は、トレーニング中に見られる有害な言語を再現(または増幅)することができる。
我々は、プロンプト、復号化戦略、学習コーパスが出力に与える影響を分析する。
本稿では,言語モデルに対して,新たな大きなコーパスや外部識別器を使わずに「デトックス化」を行うための簡易かつ効果的な手法を提案する。
論文 参考訳(メタデータ) (2022-03-06T23:55:12Z) - RealToxicityPrompts: Evaluating Neural Toxic Degeneration in Language
Models [93.151822563361]
事前訓練されたニューラルネットワークモデル(LM)は、安全なデプロイメントを妨げる人種差別的、性差別的、その他の有害な言語を生成する傾向にある。
本研究では, 予め訓練したLMが有害な言語を生成できる範囲と, 有害な変性を防止するための制御可能なテキスト生成アルゴリズムの有効性について検討する。
論文 参考訳(メタデータ) (2020-09-24T03:17:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。