論文の概要: 'Beach' to 'Bitch': Inadvertent Unsafe Transcription of Kids' Content on
YouTube
- arxiv url: http://arxiv.org/abs/2203.04837v1
- Date: Thu, 17 Feb 2022 19:19:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-13 14:01:18.092824
- Title: 'Beach' to 'Bitch': Inadvertent Unsafe Transcription of Kids' Content on
YouTube
- Title(参考訳): youtubeで子どものコンテンツを不注意で不安全に書き起こしする「bitch」
- Authors: Krithika Ramesh, Ashiqur R. KhudaBukhsh, Sumeet Kumar
- Abstract要約: 有名な自動音声認識(ASR)システムは、YouTube Kidsのビデオの書き起こしをしながら、子供にとって非常に不適切なテキストコンテンツを生成できる。
我々は、既存の最先端のASRシステムが子供に不適切なコンテンツを幻覚させるような、第一級のオーディオデータセットをリリースする。
- 参考スコア(独自算出の注目度): 13.116806430326513
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Over the last few years, YouTube Kids has emerged as one of the highly
competitive alternatives to television for children's entertainment.
Consequently, YouTube Kids' content should receive an additional level of
scrutiny to ensure children's safety. While research on detecting offensive or
inappropriate content for kids is gaining momentum, little or no current work
exists that investigates to what extent AI applications can (accidentally)
introduce content that is inappropriate for kids.
In this paper, we present a novel (and troubling) finding that well-known
automatic speech recognition (ASR) systems may produce text content highly
inappropriate for kids while transcribing YouTube Kids' videos. We dub this
phenomenon as \emph{inappropriate content hallucination}. Our analyses suggest
that such hallucinations are far from occasional, and the ASR systems often
produce them with high confidence. We release a first-of-its-kind data set of
audios for which the existing state-of-the-art ASR systems hallucinate
inappropriate content for kids. In addition, we demonstrate that some of these
errors can be fixed using language models.
- Abstract(参考訳): ここ数年、youtube kidsは子供向けエンタテインメントにおけるテレビの競争の激しい選択肢の1つとして登場してきた。
その結果、youtube kidsのコンテンツは、子供の安全を確保するためにさらなるレベルの精査を受けるべきである。
子どもに悪質なコンテンツや不適切なコンテンツを検出する研究が勢いを増しているが、aiアプリケーションが子どもに不適切なコンテンツを導入する可能性について調査する現在の研究は、ほとんど、あるいは全く存在しない。
本稿では,よく知られた自動音声認識(asr)システムが,youtubeキッズビデオの書き起こしをしながら,子供にとって不適切なテキストコンテンツを生成することを発見した。
我々はこの現象を『不適切なコンテンツ幻覚』と呼ぶ。
以上の結果から,これらの幻覚は時折生じない可能性が示唆され,asr系は高い信頼感を持つことが多い。
我々は,既存の最先端asrシステムが子どもに不適切なコンテンツを提示するための,初歩的な音声データセットをリリースする。
さらに,これらのエラーのいくつかを言語モデルを用いて修正できることを実証する。
関連論文リスト
- Does Object Grounding Really Reduce Hallucination of Large Vision-Language Models? [53.89380284760555]
大型視覚言語モデル(LVLM)は、画像に見つからない概念に言及するキャプションを生成する。
これらの幻覚は、LVLMの信頼性を損なうものであり、ユビキタス採用の主な障害であることは間違いない。
最近の研究は、画像領域やオブジェクトをテキストスパンに明示的にアライメントする、接地目的の追加は、LVLM幻覚の量を減らすことを示唆している。
論文 参考訳(メタデータ) (2024-06-20T16:56:11Z) - Enhanced Multimodal Content Moderation of Children's Videos using Audiovisual Fusion [0.6963971634605796]
コンテントモデレーションの強化にコンテキストオーディオキューを活用するCLIPの効率的な適応を提案する。
我々はMOB(Malicious or Benign)データセットのマルチモーダルバージョンを教師付きおよび少数ショット設定で実験する。
論文 参考訳(メタデータ) (2024-05-09T22:19:40Z) - Security Advice for Parents and Children About Content Filtering and
Circumvention as Found on YouTube and TikTok [2.743215038883957]
YouTubeやTikTokで見られるように、コンテンツフィルタリングと回避に関する両親や子供たちのアドバイスを検討する。
その結果、これらのビデオのうち、約4分の3は正確であり、残りの4分の1は事実的不正確なアドバイスを含んでいることがわかった。
子どもを対象とするビデオは、両親を対象とするビデオよりも、誤動作しやすく、有害な行動をとるリスクが高まる傾向にある。
論文 参考訳(メタデータ) (2024-02-05T18:12:33Z) - An Image is Worth a Thousand Toxic Words: A Metamorphic Testing
Framework for Content Moderation Software [64.367830425115]
ソーシャルメディアプラットフォームは、ヘイトスピーチ、悪意のある広告、ポルノなど、有害なコンテンツを拡散するためにますます悪用されている。
コンテンツモデレーション手法の開発と展開に多大な努力を払っているにもかかわらず、悪意のあるユーザは、テキストを画像に埋め込むことでモデレーションを回避することができる。
コンテンツモデレーションソフトウェアのためのメタモルフィックテストフレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-18T20:33:06Z) - LLM Censorship: A Machine Learning Challenge or a Computer Security
Problem? [52.71988102039535]
セマンティック検閲は決定不能な問題として認識できることを示す。
我々は、知識のある攻撃者が不寛容なアウトプットを再構築できるため、これらの課題はセマンティックな検閲を超えて拡張されていると論じる。
論文 参考訳(メタデータ) (2023-07-20T09:25:02Z) - Malicious or Benign? Towards Effective Content Moderation for Children's
Videos [1.0323063834827415]
本稿では,児童ビデオの自動コンテンツモデレーションに関する研究を促進するためのツールキットであるMalicious or Benignを紹介する。
1)ビデオのカスタマイズ可能なアノテーションツール,2)悪意のあるコンテンツのテストケースを検出するのが難しい新しいデータセット,3)最先端のビデオ分類モデルのベンチマークスイートを提案する。
論文 参考訳(メタデータ) (2023-05-24T20:33:38Z) - Seeing What You Said: Talking Face Generation Guided by a Lip Reading
Expert [89.07178484337865]
音声合成は、コヒーレントな音声入力が与えられた唇に関する顔の動きを再構成する。
従来の研究では、唇音の同期と視覚的品質が重要であった。
そこで我々は, 唇読解の専門家を用いて, 生成した唇領域の知性を向上させることを提案する。
論文 参考訳(メタデータ) (2023-03-29T07:51:07Z) - Constructing Highly Inductive Contexts for Dialogue Safety through
Controllable Reverse Generation [65.48908724440047]
そこで本稿では,ある応答に条件付けされた逆コンテキストを構築するために,エンフレバース生成と呼ばれる手法を提案する。
我々は,Blender,DialoGPT,Plato2の3種類の事前訓練済み対話モデルをテストする。
論文 参考訳(メタデータ) (2022-12-04T12:23:41Z) - Did your child get disturbed by an inappropriate advertisement on
YouTube? [3.2113789596629503]
幼児に適した24.6Kの多様なYouTubeビデオの広告パターンを分析した。
この24.6Kビデオに示されている4.6Kのユニークな広告の9.9%は、幼児向けの不適切なコンテンツを含んでいる。
論文 参考訳(メタデータ) (2022-11-04T10:28:54Z) - YouTubers Not madeForKids: Detecting Channels Sharing Inappropriate
Videos Targeting Children [3.936965297430477]
われわれは、過去に子供をターゲットにした適切な、あるいは乱暴なビデオを投稿したYouTubeチャンネルを調査した。
YouTubeの想定するコンテンツとフラグが不適切なコンテンツとチャネルであることと、コンテンツが混乱し、まだプラットフォーム上で利用できないこととを明確に区別する。
論文 参考訳(メタデータ) (2022-05-27T10:34:15Z) - Audio-Visual Speech Codecs: Rethinking Audio-Visual Speech Enhancement
by Re-Synthesis [67.73554826428762]
本稿では,AR/VRにおける高忠実度通信のための新しい音声・視覚音声強調フレームワークを提案する。
提案手法は音声・視覚音声の手がかりを利用してニューラル音声のコードを生成することで,ノイズ信号からクリーンでリアルな音声を効率的に合成する。
論文 参考訳(メタデータ) (2022-03-31T17:57:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。