論文の概要: Identity-related Speech Suppression in Generative AI Content Moderation
- arxiv url: http://arxiv.org/abs/2409.13725v1
- Date: Mon, 9 Sep 2024 14:34:51 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-07 05:35:28.685857
- Title: Identity-related Speech Suppression in Generative AI Content Moderation
- Title(参考訳): 生成AIコンテンツモデレーションにおけるアイデンティティ関連音声抑圧
- Authors: Oghenefejiro Isaacs Anigboro, Charlie M. Crawford, Danaë Metaxa, Sorelle A. Friedler,
- Abstract要約: 生成AIシステムは、そのようなフィルタを使用して、望ましくない生成されたコンテンツがユーザによって作成または提示されるのを防ぐ。
本稿では,複数のコンテンツモデレーションAPIによって誤ってフィルタリングされた異なるアイデンティティグループに関連する音声に焦点を当て,音声抑圧の尺度を定義し,導入する。
同一性関連音声は, 少数の非マールガル化群を除いて, 他言語よりも不正にフィルタリングされる可能性が示唆された。
- 参考スコア(独自算出の注目度): 2.812395851874055
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Automated content moderation has long been used to help identify and filter undesired user-generated content online. Generative AI systems now use such filters to keep undesired generated content from being created by or shown to users. From classrooms to Hollywood, as generative AI is increasingly used for creative or expressive text generation, whose stories will these technologies allow to be told, and whose will they suppress? In this paper, we define and introduce measures of speech suppression, focusing on speech related to different identity groups incorrectly filtered by a range of content moderation APIs. Using both short-form, user-generated datasets traditional in content moderation and longer generative AI-focused data, including two datasets we introduce in this work, we create a benchmark for measurement of speech suppression for nine identity groups. Across one traditional and four generative AI-focused automated content moderation services tested, we find that identity-related speech is more likely to be incorrectly suppressed than other speech except in the cases of a few non-marginalized groups. Additionally, we find differences between APIs in their abilities to correctly moderate generative AI content.
- Abstract(参考訳): 自動コンテンツモデレーションは、長い間、望ましくないユーザー生成コンテンツをオンラインで識別しフィルタリングするのに使われてきた。
生成AIシステムは、そのようなフィルタを使用して、望ましくない生成されたコンテンツがユーザによって作成または提示されるのを防ぐ。
教室からハリウッドまで、創造的なAIは創造的あるいは表現的なテキスト生成にますます使われています。
本稿では,複数のコンテンツモデレーションAPIによって誤ってフィルタリングされた異なるアイデンティティグループに関連する音声に焦点を当て,音声抑圧の尺度を定義し,導入する。
本研究で紹介する2つのデータセットを含む、コンテンツモデレーションにおける従来の短い、ユーザ生成データセットと、より長い生成AIデータの両方を用いて、9つのアイデンティティグループに対する音声抑圧の測定のためのベンチマークを作成する。
1つの従来型および4つの生成AIによる自動コンテンツモデレーションサービスでテストした結果、いくつかの非マールガル化グループを除いて、アイデンティティ関連の音声は、他の音声よりも不正に抑圧される可能性が高いことが判明した。
さらに、生成するAIコンテンツを適切に調整する能力において、API間の差異も見出す。
関連論文リスト
- A Unified Multi-Task Learning Architecture for Hate Detection Leveraging User-Based Information [23.017068553977982]
ヘイトスピーチ、攻撃的言語、攻撃性、人種差別、性差別、その他の虐待的言語は、ソーシャルメディアでよく見られる現象である。
ヘイトコンテンツを大規模にフィルタリングする人工知能(AI)ベースの介入が必要である。
本稿では,ユーザ内およびユーザ間情報を活用することで,英語のヘイトスピーチ識別を改善するユニークなモデルを提案する。
論文 参考訳(メタデータ) (2024-11-11T10:37:11Z) - Classifying Human-Generated and AI-Generated Election Claims in Social Media [8.990994727335064]
悪意ある俳優はソーシャルメディアを使って誤報を広め、選挙プロセスへの信頼を損なうことがある。
LLM(Large Language Models)の出現は、悪質なアクターが前例のない規模で誤情報を生成できるようにすることによって、この問題を悪化させる。
選挙に関する主張を特徴付けるための新しい分類法を提案する。
論文 参考訳(メタデータ) (2024-04-24T18:13:29Z) - Let AI Entertain You: Increasing User Engagement with Generative AI and
Rejection Sampling [7.715423424826709]
本稿では、ユーザフィードバックを活用して、生成AIによるユーザエンゲージメントを改善するための一般的なフレームワークを提案する。
我々は,オンラインソーシャルネットワークのメール通知対象ライン生成の文脈において,このフレームワークを活用した。
これは、ユーザーエンゲージメントを高めるために生成AIを成功させた業界における、初期のマイルストーンである。
論文 参考訳(メタデータ) (2023-12-16T08:06:12Z) - Paraphrasing evades detectors of AI-generated text, but retrieval is an
effective defense [56.077252790310176]
本稿では,パラフレーズ生成モデル(DIPPER)を提案する。
DIPPERを使って3つの大きな言語モデル(GPT3.5-davinci-003)で生成されたテキストを言い換えると、透かしを含むいくつかの検出器を回避できた。
我々は,言語モデルAPIプロバイダによって維持されなければならない,意味論的に類似した世代を検索するシンプルなディフェンスを導入する。
論文 参考訳(メタデータ) (2023-03-23T16:29:27Z) - Hate Speech and Offensive Language Detection using an Emotion-aware
Shared Encoder [1.8734449181723825]
ヘイトスピーチと攻撃的言語検出に関する既存の研究は、事前学習されたトランスフォーマーモデルに基づいて有望な結果をもたらす。
本稿では,他コーパスから抽出した外的感情特徴を組み合わせたマルチタスク共同学習手法を提案する。
以上の結果から,感情的な知識が,データセット間のヘイトスピーチや攻撃的言語をより確実に識別する上で有効であることが示唆された。
論文 参考訳(メタデータ) (2023-02-17T09:31:06Z) - Countering Malicious Content Moderation Evasion in Online Social
Networks: Simulation and Detection of Word Camouflage [64.78260098263489]
ツイストとカモフラージュキーワードは、プラットフォームコンテンツモデレーションシステムを回避する最もよく使われるテクニックである。
本稿では,コンテンツ回避の新たな手法をシミュレートし,検出する多言語ツールを開発することにより,悪意ある情報に対する対処に大きく貢献する。
論文 参考訳(メタデータ) (2022-12-27T16:08:49Z) - An Attribute-Aligned Strategy for Learning Speech Representation [57.891727280493015]
属性選択機構によってこれらの問題に柔軟に対処できる音声表現を導出する属性整合学習戦略を提案する。
具体的には、音声表現を属性依存ノードに分解する層式表現可変オートエンコーダ(LR-VAE)を提案する。
提案手法は,IDのないSER上での競合性能と,無感情SV上でのより良い性能を実現する。
論文 参考訳(メタデータ) (2021-06-05T06:19:14Z) - Protecting gender and identity with disentangled speech representations [49.00162808063399]
音声における性情報保護は,話者識別情報のモデル化よりも効果的であることを示す。
性別情報をエンコードし、2つの敏感な生体識別子を解読する新しい方法を提示する。
論文 参考訳(メタデータ) (2021-04-22T13:31:41Z) - On the Impact of Word Error Rate on Acoustic-Linguistic Speech Emotion
Recognition: An Update for the Deep Learning Era [0.0]
3つの現代のASRシステムを適用することで、元のスピーチから転写文を作成します。
音響音声機能の抽出と学習には、openSMILE、openXBoW、DeepSpectrum、auDeepを利用します。
IEMOCAPのスピーカーに依存しない開発およびテストパーティションで、最先端の非重み付き平均リコール値73.6,%$と73.8,%$を達成します。
論文 参考訳(メタデータ) (2021-04-20T17:10:01Z) - Speaker De-identification System using Autoencoders and Adversarial
Training [58.720142291102135]
本稿では,対人訓練とオートエンコーダに基づく話者識別システムを提案する。
実験結果から, 対向学習とオートエンコーダを組み合わせることで, 話者検証システムの誤り率が同等になることがわかった。
論文 参考訳(メタデータ) (2020-11-09T19:22:05Z) - PALM: Pre-training an Autoencoding&Autoregressive Language Model for
Context-conditioned Generation [92.7366819044397]
自己指導型事前学習は、自然言語の理解と生成のための強力な技術として登場した。
本研究は,大規模未ラベルコーパス上で自己エンコーディングと自己回帰言語モデルを共同で事前学習する新しいスキームをPALMに提示する。
広範な実験により、PALMは様々な言語生成ベンチマークにおいて、新しい最先端の結果を達成することが示されている。
論文 参考訳(メタデータ) (2020-04-14T06:25:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。