論文の概要: Few-Shot Contrastive Adaptation for Audio Abuse Detection in Low-Resource Indic Languages
- arxiv url: http://arxiv.org/abs/2604.09094v1
- Date: Fri, 10 Apr 2026 08:23:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-13 17:57:53.772381
- Title: Few-Shot Contrastive Adaptation for Audio Abuse Detection in Low-Resource Indic Languages
- Title(参考訳): 低音源インデックス言語における音声乱用検出のためのFew-Shot Contrastive Adaptation
- Authors: Aditya Narayan Sankaran, Reza Farahbakhsh, Noel Crespi,
- Abstract要約: ソーシャルメディアが音声による対話へとシフトするにつれ、虐待的音声検出の重要性が高まっている。
コントラスト言語-オーディオ事前学習が、音声から直接虐待的音声検出を支援できるかどうかを検討する。
- 参考スコア(独自算出の注目度): 3.5238606794194816
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Abusive speech detection is becoming increasingly important as social media shifts towards voice-based interaction, particularly in multilingual and low-resource settings. Most current systems rely on automatic speech recognition (ASR) followed by text-based hate speech classification, but this pipeline is vulnerable to transcription errors and discards prosodic information carried in speech. We investigate whether Contrastive Language-Audio Pre-training (CLAP) can support abusive speech detection directly from audio. Using the ADIMA dataset, we evaluate CLAP-based representations under few-shot supervised contrastive adaptation in cross-lingual and leave-one-language-out settings, with zero-shot prompting included as an auxiliary analysis. Our results show that CLAP yields strong cross-lingual audio representations across ten Indic languages, and that lightweight projection-only adaptation achieves competitive performance with respect to fully supervised systems trained on complete training data. However, the benefits of few-shot adaptation are language-dependent and not monotonic with shot size. These findings suggest that contrastive audio-text models provide a promising basis for cross-lingual audio abuse detection in low-resource settings, while also indicating that transfer remains incomplete and language-specific in important ways.
- Abstract(参考訳): ソーシャルメディアが音声ベースのインタラクション、特にマルチリンガルおよび低リソース設定にシフトするにつれ、虐待的音声検出の重要性が高まっている。
現在のほとんどのシステムは自動音声認識(ASR)に頼り、テキストベースのヘイトスピーチ分類が続くが、このパイプラインは書き起こしエラーに脆弱であり、音声で転送される韻律情報を破棄する。
コントラシブ言語・オーディオ事前学習(CLAP)が、音声から直接虐待的音声検出をサポートできるかを検討する。
ADIMAデータセットを用いて,ゼロショットプロンプトを補助解析に含め,言語間・言語間・言語間・言語間・言語間・言語間・言語間・言語間・言語間・言語間・言語間・言語間・言語間・言語間・言語間・言語間・言語間・言語間・言語間・言語間・言語間・言語間・言語間・言語間・言語間・言語間・言語間・言語間・言語間・言語間・言語間・言語間・言語間・言語間・言語間・言語間・言語間・言語間の相互関係の相互関係を考慮したCLAPに基づく表現の評価を行った。
この結果から,CLAPは10言語にまたがる強い言語間音声表現を実現し,プロジェクションのみの軽量適応は,完全なトレーニングデータに基づいて訓練された完全教師付きシステムに対して,競争性能を達成することが示された。
しかし、少数ショット適応の利点は言語に依存しており、ショットサイズを持つモノトニックではない。
これらの結果から,コントラスト音声テキストモデルは,低リソース環境下での言語間音声乱用検出に有望な基礎を提供するとともに,トランスファーが不完全であり,重要な方法で言語固有であることが示唆された。
関連論文リスト
- Adapting Self-Supervised Speech Representations for Cross-lingual Dysarthria Detection in Parkinson's Disease [72.0406069194794]
音声表現は、しばしば言語に依存した構造を符号化する。
本稿では,ソース言語による自己教師型音声表現とターゲット言語分布とを一致させる表現レベル言語シフトを提案する。
チェコ語,ドイツ語,スペイン語におけるパーキンソン病音声データセットの経口DDK記録に対するアプローチについて検討した。
論文 参考訳(メタデータ) (2026-03-23T17:23:39Z) - PRiSM: Benchmarking Phone Realization in Speech Models [70.82595415252682]
音声認識(PR)は言語に依存しない言語間音声処理と音声解析のためのアトミックインタフェースとして機能する。
PRiSMは、音声知覚における盲点を明らかにするために設計された、最初のオープンソースベンチマークである。
論文 参考訳(メタデータ) (2026-01-20T15:00:36Z) - Unseen Speaker and Language Adaptation for Lightweight Text-To-Speech with Adapters [3.7987175642397832]
アダプタのレンズを用いた言語間テキスト音声合成について検討する。
その結果,言語固有の情報や話者固有の情報の学習において,アダプタの有効性が示された。
また,アダプタ配置,構成,使用話者数の影響について考察した。
論文 参考訳(メタデータ) (2025-08-25T13:14:57Z) - Towards Cross-Lingual Audio Abuse Detection in Low-Resource Settings with Few-Shot Learning [1.532756501930393]
低リソース言語における乱用言語検出のための事前学習音声表現の可能性について検討する。
提案手法は,モデルに依存しないメタラーニングフレームワークに表現を統合し,乱用言語を10言語に分類する。
論文 参考訳(メタデータ) (2024-12-02T11:51:19Z) - An Initial Investigation of Language Adaptation for TTS Systems under Low-resource Scenarios [76.11409260727459]
本稿では,最近のSSLベースの多言語TSシステムであるZMM-TTSの言語適応性について検討する。
本研究では,事前学習言語と対象言語との音声学的な類似性が,対象言語の適応性能に影響を及ぼすことを示す。
論文 参考訳(メタデータ) (2024-06-13T08:16:52Z) - XLAVS-R: Cross-Lingual Audio-Visual Speech Representation Learning for Noise-Robust Speech Perception [62.660135152900615]
音声認識と翻訳システムではノイズの多い入力が不十分である。
XLAVS-Rは、雑音による音声認識と翻訳のための言語間音声・視覚音声表現モデルである。
論文 参考訳(メタデータ) (2024-03-21T13:52:17Z) - Investigating the Impact of Cross-lingual Acoustic-Phonetic Similarities
on Multilingual Speech Recognition [31.575930914290762]
言語間音響-音声の類似性を調べるために, 新たなデータ駆動手法を提案する。
ディープニューラルネットワークは、異なる音響モデルからの分布を直接的に同等の形式に変換するためのマッピングネットワークとして訓練されている。
モノリンガルに比べて8%の相対的な改善が達成されている。
論文 参考訳(メタデータ) (2022-07-07T15:55:41Z) - Zero-Shot Cross-lingual Aphasia Detection using Automatic Speech
Recognition [3.2631198264090746]
失語症(英: Aphasia)は、一般的には脳損傷や脳卒中によって引き起こされる言語障害であり、世界中の何百万人もの人々に影響を及ぼす。
本稿では,言語間音声表現を共用する事前学習型自動音声認識(ASR)モデルを用いたエンドツーエンドパイプラインを提案する。
論文 参考訳(メタデータ) (2022-04-01T14:05:02Z) - VQMIVC: Vector Quantization and Mutual Information-Based Unsupervised
Speech Representation Disentanglement for One-shot Voice Conversion [54.29557210925752]
ワンショット音声変換は、音声表現のアンタングルメントによって効果的に実現できる。
コンテンツエンコーディングにはベクトル量子化(VQ)を使用し、トレーニング中に相互情報(MI)を相関指標として導入する。
実験結果は,提案手法が効果的に非絡み合った音声表現を学習する際の優位性を反映している。
論文 参考訳(メタデータ) (2021-06-18T13:50:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。