論文の概要: ViToSA: Audio-Based Toxic Spans Detection on Vietnamese Speech Utterances
- arxiv url: http://arxiv.org/abs/2506.00636v1
- Date: Sat, 31 May 2025 17:01:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 04:22:50.66216
- Title: ViToSA: Audio-Based Toxic Spans Detection on Vietnamese Speech Utterances
- Title(参考訳): ViToSA:ベトナムの音声発話における音声によるトキソニック・スパン検出
- Authors: Huy Ba Do, Vy Le-Phuong Huynh, Luan Thanh Nguyen,
- Abstract要約: 本稿ではベトナム語音声における有害なスパン検出のための最初のデータセットであるViToSA(Vietnamese Toxic Spans Audio)を紹介する。
ASRと有毒なスパン検出を組み合わせたパイプラインを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Toxic speech on online platforms is a growing concern, impacting user experience and online safety. While text-based toxicity detection is well-studied, audio-based approaches remain underexplored, especially for low-resource languages like Vietnamese. This paper introduces ViToSA (Vietnamese Toxic Spans Audio), the first dataset for toxic spans detection in Vietnamese speech, comprising 11,000 audio samples (25 hours) with accurate human-annotated transcripts. We propose a pipeline that combines ASR and toxic spans detection for fine-grained identification of toxic content. Our experiments show that fine-tuning ASR models on ViToSA significantly reduces WER when transcribing toxic speech, while the text-based toxic spans detection (TSD) models outperform existing baselines. These findings establish a novel benchmark for Vietnamese audio-based toxic spans detection, paving the way for future research in speech content moderation.
- Abstract(参考訳): オンラインプラットフォーム上でのトキシックなスピーチは、ユーザエクスペリエンスとオンラインの安全性に影響を与える懸念が高まっている。
テキストベースの毒性検出はよく研究されているが、特にベトナムのような低リソース言語では、音声ベースのアプローチは未調査のままである。
本稿ではベトナム語音声における有毒なスパン検出のための最初のデータセットであるViToSA(Vietnamese Toxic Spans Audio)について紹介する。
ASRと有毒なスパン検出を組み合わせたパイプラインを提案する。
実験の結果,ViToSA 上での微調整 ASR モデルでは有毒音声の書き起こしにおいて WER が著しく減少し,テキストベースの有毒音声検出(TSD) モデルは既存のベースラインよりも優れていた。
これらの結果はベトナムの音声による有毒なスパン検出のための新しいベンチマークを確立し、音声コンテンツモデレーションにおける将来の研究の道を開いた。
関連論文リスト
- ToxicTone: A Mandarin Audio Dataset Annotated for Toxicity and Toxic Utterance Tonality [35.517662288248225]
ToxicToneはこの種の公開データセットとしては最大である。
我々のデータは、様々な現実世界のオーディオから導き出され、13のトピックに分類される。
本研究では,音響的,言語的,感情的特徴を統合したマルチモーダル検出フレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-21T17:25:27Z) - Where are we in audio deepfake detection? A systematic analysis over generative and detection models [59.09338266364506]
SONARはAI-Audio Detection FrameworkとBenchmarkの合成である。
最先端のAI合成聴覚コンテンツを識別するための総合的な評価を提供する。
従来のモデルベース検出システムと基礎モデルベース検出システムの両方で、AIオーディオ検出を均一にベンチマークする最初のフレームワークである。
論文 参考訳(メタデータ) (2024-10-06T01:03:42Z) - An Initial Investigation of Language Adaptation for TTS Systems under Low-resource Scenarios [76.11409260727459]
本稿では,最近のSSLベースの多言語TSシステムであるZMM-TTSの言語適応性について検討する。
本研究では,事前学習言語と対象言語との音声学的な類似性が,対象言語の適応性能に影響を及ぼすことを示す。
論文 参考訳(メタデータ) (2024-06-13T08:16:52Z) - Unveiling the Implicit Toxicity in Large Language Models [77.90933074675543]
大きな言語モデル(LLM)のオープンエンドネスと、その優れた機能を組み合わせることで、悪意のある使用のために悪用された場合、新たな安全性上の問題が発生する可能性がある。
LLMは、単純なゼロショットプロンプトによる検出が極めて困難である様々な暗黙的な有毒な出力を生成することができることを示す。
我々は,LLMの暗黙的毒性をさらに誘発する強化学習(RL)に基づく攻撃法を提案する。
論文 参考訳(メタデータ) (2023-11-29T06:42:36Z) - Comprehensive Assessment of Toxicity in ChatGPT [49.71090497696024]
本研究は,ChatGPTの毒性を指導調整データセットを用いて評価する。
創作作業のプロンプトは 有害な反応を 引き起こす確率が 2倍になる
初期の研究で設計された、故意に有害なプロンプトは、もはや有害な反応を生じさせない。
論文 参考訳(メタデータ) (2023-11-03T14:37:53Z) - ADIMA: Abuse Detection In Multilingual Audio [28.64185949388967]
音声テキストにおける乱用コンテンツ検出は、音声認識(ASR)を実行し、自然言語処理の進歩を活用することで対処することができる。
ADIMAは,言語学的に多様であり,倫理的にも特徴的であり,注釈付きかつバランスの取れた多言語多義性検出音声データセットである。
論文 参考訳(メタデータ) (2022-02-16T11:09:50Z) - COLD: A Benchmark for Chinese Offensive Language Detection [54.60909500459201]
COLDatasetは、37kの注釈付き文を持つ中国の攻撃的言語データセットである。
また、人気のある中国語モデルの出力攻撃性を研究するために、textscCOLDetectorを提案する。
我々の資源と分析は、中国のオンラインコミュニティを解毒し、生成言語モデルの安全性を評価することを目的としている。
論文 参考訳(メタデータ) (2022-01-16T11:47:23Z) - Speech Toxicity Analysis: A New Spoken Language Processing Task [32.297717021285344]
ヘイトスピーチ(英: hate speech)またはヘイトスピーチ(英: hate speech)は、今日のオンラインソーシャルメディアを悩ませる重要な問題の1つである。
音声音声から有害性を検出する新しい音声言語処理タスクを提案する。
DeToxyは、様々な公開音声データベースから得られた英語音声に対する、初めて公開された毒性アノテートデータセットである。
論文 参考訳(メタデータ) (2021-10-14T17:51:04Z) - Constructive and Toxic Speech Detection for Open-domain Social Media
Comments in Vietnamese [0.32228025627337864]
本論文では,1万語のコメントで構成的,有毒な音声検出を分類するためのデータセットを作成する。
PhoBERTとしてベトナムNLPにおける最先端の転送学習モデルを用いた構造的および有毒な音声検出システムを提案する。
結果から,オンライン議論の課題を解決し,ベトナムのソーシャルメディアコメントを自動的に識別する枠組みを開発することができた。
論文 参考訳(メタデータ) (2021-03-18T08:04:12Z) - RealToxicityPrompts: Evaluating Neural Toxic Degeneration in Language
Models [93.151822563361]
事前訓練されたニューラルネットワークモデル(LM)は、安全なデプロイメントを妨げる人種差別的、性差別的、その他の有害な言語を生成する傾向にある。
本研究では, 予め訓練したLMが有害な言語を生成できる範囲と, 有害な変性を防止するための制御可能なテキスト生成アルゴリズムの有効性について検討する。
論文 参考訳(メタデータ) (2020-09-24T03:17:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。