Fugu-MT 論文翻訳(概要): Safe Guard: an LLM-agent for Real-time Voice-based Hate Speech Detection in Social Virtual Reality

論文の概要: Safe Guard: an LLM-agent for Real-time Voice-based Hate Speech Detection in Social Virtual Reality

arxiv url: http://arxiv.org/abs/2409.15623v1
Date: Mon, 23 Sep 2024 23:54:45 GMT
ステータス: 翻訳完了
システム内更新日: 2024-09-26 11:32:56.027902
Title: Safe Guard: an LLM-agent for Real-time Voice-based Hate Speech Detection in Social Virtual Reality
Title（参考訳）: セーフガード:ソーシャルバーチャルリアリティにおけるリアルタイム音声によるヘイトスピーチ検出のためのLLMエージェント
Authors: Yiwen Xu, Qinyang Hou, Hongyu Wan, Mirjana Prpa,
Abstract要約: ソーシャルVR(VRChat)における音声によるヘイトスピーチ検出のためのLLMエージェントであるSafe Guardを提案する。本システムは,リアルタイム音声対話において,Open AI GPTと音声特徴抽出を利用する。
参考スコア（独自算出の注目度）: 5.442298461804283
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In this paper, we present Safe Guard, an LLM-agent for the detection of hate speech in voice-based interactions in social VR (VRChat). Our system leverages Open AI GPT and audio feature extraction for real-time voice interactions. We contribute a system design and evaluation of the system that demonstrates the capability of our approach in detecting hate speech, and reducing false positives compared to currently available approaches. Our results indicate the potential of LLM-based agents in creating safer virtual environments and set the groundwork for further advancements in LLM-driven moderation approaches.
Abstract（参考訳）: 本稿では,ソーシャルVR(VRChat)における音声対話におけるヘイトスピーチ検出のためのLLMエージェントであるSafe Guardを提案する。本システムは,リアルタイム音声対話において,Open AI GPTと音声特徴抽出を利用する。本研究では,ヘイトスピーチの検出におけるアプローチの有効性と,現在利用可能なアプローチと比較して偽陽性の低減を図ったシステム設計と評価に貢献する。以上の結果から,LLMベースのエージェントがより安全な仮想環境を構築する可能性を示し,LLM駆動型モデレーション手法のさらなる発展に向けた基礎を固めた。

関連論文リスト

Defense Against Synthetic Speech: Real-Time Detection of RVC Voice Conversion Attacks [0.0]
生成オーディオ技術は、高度にリアルな音声クローニングとリアルタイム音声変換を可能にする。本研究では,検索音声変換を用いたAI生成音声のリアルタイム検出について検討する。
論文参考訳（メタデータ） (2025-12-31T02:06:42Z)
Whispering Under the Eaves: Protecting User Privacy Against Commercial and LLM-powered Automatic Speech Recognition Systems [20.45938874279563]
本稿では,音声認識システムに対して音声認識を保護するための新しいフレームワークであるAudioShieldを提案する。摂動を潜伏空間に転送することにより、音質は広範囲に保存される。 AudioShieldは、リアルタイムのエンドツーエンドシナリオにおいて高い効果を示し、適応的な対策に対して強力なレジリエンスを示す。
論文参考訳（メタデータ） (2025-04-01T14:49:39Z)
VoiceBench: Benchmarking LLM-Based Voice Assistants [58.84144494938931]
大規模言語モデル(LLM)に基づいて音声アシスタントを評価する最初のベンチマークであるVoiceBenchを紹介する。 VoiceBenchには、上記の3つの重要な実世界のバリエーションを含む、実話と合成音声の両方が含まれている。大規模な実験は、現在のLLMベースの音声アシスタントモデルの限界を明らかにし、この分野における将来の研究・開発に貴重な洞察を提供する。
論文参考訳（メタデータ） (2024-10-22T17:15:20Z)
Large Language Models Are Strong Audio-Visual Speech Recognition Learners [53.142635674428874]
マルチモーダル・大規模言語モデル(MLLM)は,近年,多モーダル理解能力の強化により,研究の焦点となっている。本稿では,Llama-AVSRを提案する。我々は,最大公的なAVSRベンチマークであるLSS3に対する提案手法の評価を行い,WERが0.81%,0.77%であるASRとAVSRのタスクに対して,新しい最先端の結果を得た。
論文参考訳（メタデータ） (2024-09-18T21:17:27Z)
Large Language Model Can Transcribe Speech in Multi-Talker Scenarios with Versatile Instructions [68.98811048970963]
我々は,多話者環境における音声の書き起こしにおける大規模言語モデル(LLM)の能力について,先駆的な研究を行う。提案手法では,WavLMとWhisperエンコーダを用いて,話者の特徴や意味的文脈に敏感な多面的音声表現を抽出する。包括的実験により,カクテルパーティーのシナリオにおいて提案システムであるMT-LLMが期待できる性能を示した。
論文参考訳（メタデータ） (2024-09-13T07:28:28Z)
Compromising Embodied Agents with Contextual Backdoor Attacks [69.71630408822767]
大型言語モデル(LLM)は、エンボディドインテリジェンスの発展に変化をもたらした。本稿では,このプロセスにおけるバックドアセキュリティの重大な脅威を明らかにする。ほんの少しの文脈的デモンストレーションを毒殺しただけで、攻撃者はブラックボックスLDMの文脈的環境を隠蔽することができる。
論文参考訳（メタデータ） (2024-08-06T01:20:12Z)
Towards interfacing large language models with ASR systems using confidence measures and prompting [54.39667883394458]
本研究では,大言語モデル(LLM)を用いたASRテキストのポストホック修正について検討する。精度の高い転写文に誤りを導入することを避けるため,信頼度に基づくフィルタリング手法を提案する。その結果,競争力の低いASRシステムの性能が向上することが示唆された。
論文参考訳（メタデータ） (2024-07-31T08:00:41Z)
Large Language Models are Efficient Learners of Noise-Robust Speech Recognition [65.95847272465124]
大規模言語モデル(LLM)の最近の進歩は、自動音声認識(ASR)のための生成誤り訂正(GER)を促進している。本研究では,このベンチマークをノイズの多い条件に拡張し,GERのデノナイジングをLLMに教えることができるかを検討する。最新のLLM実験では,単語誤り率を最大53.9%改善し,新たなブレークスルーを実現している。
論文参考訳（メタデータ） (2024-01-19T01:29:27Z)
SLMGAN: Exploiting Speech Language Model Representations for Unsupervised Zero-Shot Voice Conversion in GANs [22.522376665078248]
本稿では,GAN(Generative Adversarial Network)フレームワークにおいて,SLM表現を識別タスクに活用するための新しいアプローチであるSLMGANを提案する。 StarGANv2-VCをベースとして、新しいSLMベースのWavLMディスクリミネータをメルベースのディスクリミネータに加え、新たに設計されたSLM特徴マッチング損失関数も追加します。主観評価の結果,SLMGANは既存のゼロショット音声変換モデルよりも自然性に優れ,類似性も同等であることがわかった。
論文参考訳（メタデータ） (2023-07-18T17:09:15Z)
Exploring the Integration of Large Language Models into Automatic Speech Recognition Systems: An Empirical Study [0.0]
本稿では,Large Language Models (LLM) と自動音声認識(ASR)システムの統合について検討する。我々の主な焦点は、LLMのコンテキスト内学習機能を用いて、ASRシステムの性能を向上させる可能性を調査することである。
論文参考訳（メタデータ） (2023-07-13T02:31:55Z)
Privacy against Real-Time Speech Emotion Detection via Acoustic Adversarial Evasion of Machine Learning [7.387631194438338]
DARE-GPは、音声の書き起こし関連部分を保存しながら、ユーザの感情情報を隠蔽する付加的なノイズを生成するソリューションである。 DARE-GPは、既存の作品と異なり、a) 音声の書き起こしを保護しながら、(b) 未確認のブラックボックスのSER分類器に対して、(b) 音の聞こえない発話をリアルタイムに保護し、(c) 声の書き起こしを現実的に音響的に保護する。
論文参考訳（メタデータ） (2022-11-17T00:25:05Z)
Direction-Aware Joint Adaptation of Neural Speech Enhancement and Recognition in Real Multiparty Conversational Environments [21.493664174262737]
本稿では,現実の多人数会話環境における音声コミュニケーションを支援する拡張現実ヘッドセットの雑音音声認識について述べる。本研究では,高信頼な推定文字を用いたクリーン音声信号とノイズ音声信号を用いて,マスク推定器とASRモデルを実行時に共同で更新する半教師付き適応手法を提案する。
論文参考訳（メタデータ） (2022-07-15T03:43:35Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。