論文の概要: RealClass: A Framework for Classroom Speech Simulation with Public Datasets and Game Engines
- arxiv url: http://arxiv.org/abs/2510.01462v1
- Date: Wed, 01 Oct 2025 21:04:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 14:32:17.240193
- Title: RealClass: A Framework for Classroom Speech Simulation with Public Datasets and Game Engines
- Title(参考訳): RealClass: 公開データセットとゲームエンジンを用いた教室音声シミュレーションフレームワーク
- Authors: Ahmed Adel Attia, Jing Liu, Carol Espy Wilson,
- Abstract要約: 本稿では,ゲームエンジンを用いた教室騒音と室内インパルス応答(RIR)コーパスの合成手法を提案する。
本稿では、合成された教室ノイズコーパスと、公開されているコーパスからコンパイルされた教室音声データセットを組み合わせたデータセットであるRealClassを提案する。
- 参考スコア(独自算出の注目度): 7.505518573248786
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The scarcity of large-scale classroom speech data has hindered the development of AI-driven speech models for education. Classroom datasets remain limited and not publicly available, and the absence of dedicated classroom noise or Room Impulse Response (RIR) corpora prevents the use of standard data augmentation techniques. In this paper, we introduce a scalable methodology for synthesizing classroom noise and RIRs using game engines, a versatile framework that can extend to other domains beyond the classroom. Building on this methodology, we present RealClass, a dataset that combines a synthesized classroom noise corpus with a classroom speech dataset compiled from publicly available corpora. The speech data pairs a children's speech corpus with instructional speech extracted from YouTube videos to approximate real classroom interactions in clean conditions. Experiments on clean and noisy speech show that RealClass closely approximates real classroom speech, making it a valuable asset in the absence of abundant real classroom speech.
- Abstract(参考訳): 大規模教室での音声データの不足は、教育用AI駆動音声モデルの開発を妨げている。
教室のデータセットは限定的であり公開されていないが、専用の教室ノイズやRoom Impulse Response (RIR)コーパスがないため、標準データ拡張技術の使用が妨げられている。
本稿では,教室外の他の領域に拡張可能な多目的フレームワークであるゲームエンジンを用いて,教室の騒音とRIRを合成するスケーラブルな手法を提案する。
本手法に基づいて, 合成教室ノイズコーパスと, 公開されているコーパスから収集した教室音声データセットを組み合わせたデータセットであるRealClassを提案する。
音声データは、子どもの音声コーパスとYouTubeビデオから抽出した指導音声とを照合し、クリーンな環境下での実際の教室間相互作用を近似する。
クリーンで騒々しい音声の実験では、RealClassは実際の教室でのスピーチを密接に近似しており、実際の教室でのスピーチが豊富でないことに価値がある。
関連論文リスト
- SimClass: A Classroom Speech Dataset Generated via Game Engine Simulation For Automatic Speech Recognition Research [3.411077163447709]
ゲームエンジンを用いて教室の騒音を合成するスケーラブルな手法を提案する。
合成教室ノイズコーパスとシミュレーション教室音声データセットの両方を含むデータセットであるSimClassを提案する。
論文 参考訳(メタデータ) (2025-06-10T19:51:57Z) - Speech Unlearning [14.755831733659699]
音声タスクのための機械学習を導入し,新しい研究課題について紹介する。
本研究の目的は、訓練された音声モデルから特定のデータの影響を、完全に再訓練することなく効率的に効果的に除去することである。
プライバシー保護、時代遅れまたはノイズの多いデータの削除、バイアス軽減に重要な応用がある。
論文 参考訳(メタデータ) (2025-06-01T06:04:16Z) - OpenOmni: Advancing Open-Source Omnimodal Large Language Models with Progressive Multimodal Alignment and Real-Time Self-Aware Emotional Speech Synthesis [95.27191872116306]
nameは、一様アライメントと音声生成を統合する2段階のトレーニングフレームワークである。
雑用、視覚言語、音声言語ベンチマークで最先端モデルを上回っている。
nameは、非自己回帰モードで1秒のレイテンシでリアルタイムの音声生成を実現する。
論文 参考訳(メタデータ) (2025-01-08T15:18:09Z) - Scaling Speech-Text Pre-training with Synthetic Interleaved Data [31.77653849518526]
音声言語モデル(SpeechLM)は音声入力を受け入れ、音声出力を生成し、より自然な人間とコンピュータの相互作用を可能にする。
従来のSpeechLMの開発手法は、教師なし音声データとパラレル音声テキストデータの可用性の制限によって制約されている。
本稿では,テキストコーパスから得られた大規模合成インターリーブデータを活用することによって,音声テキスト事前学習のスケールアップを行う手法を提案する。
論文 参考訳(メタデータ) (2024-11-26T17:19:09Z) - On decoder-only architecture for speech-to-text and large language model
integration [59.49886892602309]
Speech-LLaMAは、音声情報をテキストベースの大規模言語モデルに効果的に組み込む新しいアプローチである。
我々は多言語音声からテキストへの翻訳タスクの実験を行い、強いベースラインよりも大幅に改善されたことを示す。
論文 参考訳(メタデータ) (2023-07-08T06:47:58Z) - Video-Guided Curriculum Learning for Spoken Video Grounding [65.49979202728167]
音声言語記述から所望のビデオ断片をローカライズすることを目的とした,新たなタスクである音声ビデオグラウンドティング(SVG)を導入する。
識別音素の修正と雑音の多い音声から映像関連情報を抽出するために,新しいビデオ指導カリキュラム学習(VGCL)を開発した。
さらに,ActivityNetをベースとした,最初の大規模音声グラウンドデータセットを収集する。
論文 参考訳(メタデータ) (2022-09-01T07:47:01Z) - Audio-Visual Speech Codecs: Rethinking Audio-Visual Speech Enhancement
by Re-Synthesis [67.73554826428762]
本稿では,AR/VRにおける高忠実度通信のための新しい音声・視覚音声強調フレームワークを提案する。
提案手法は音声・視覚音声の手がかりを利用してニューラル音声のコードを生成することで,ノイズ信号からクリーンでリアルな音声を効率的に合成する。
論文 参考訳(メタデータ) (2022-03-31T17:57:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。