論文の概要: MCGA: A Multi-task Classical Chinese Literary Genre Audio Corpus
- arxiv url: http://arxiv.org/abs/2601.09270v2
- Date: Sat, 17 Jan 2026 06:27:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 14:05:45.097884
- Title: MCGA: A Multi-task Classical Chinese Literary Genre Audio Corpus
- Title(参考訳): MCGA: マルチタスクの中国古典音楽コーパス
- Authors: Yexing Du, Kaiyuan Liu, Bihe Zhang, Youcheng Pan, Bo Yang, Liangyu Huo, Xiyuan Zhang, Jian Xie, Daojing He, Yang Xiang, Ming Liu, Bin Qin,
- Abstract要約: MCGA (Multi-task Classical Chinese Literary Genre Audio Corpus) は、22,000のオーディオサンプルからなる119時間コーパスである。
自動音声認識(ASR)、音声からテキストへの翻訳(S2TT)、音声感情キャプション(SEC)、音声質問応答(SQA)、音声理解(SU)、音声推論(SR)の6つのタスクにまたがる多様な文学ジャンルを含んでいる。
- 参考スコア(独自算出の注目度): 28.12441904527545
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: With the rapid advancement of Multimodal Large Language Models (MLLMs), their potential has gained significant attention in Chinese Classical Studies (CCS). While existing research primarily focuses on text and visual modalities, the audio corpus within this domain remains largely underexplored. To bridge this gap, we introduce the Multi-task Classical Chinese Literary Genre Audio Corpus (MCGA), a 119-hour corpus comprising 22,000 audio samples. It encompasses a diverse range of literary genres across six tasks: Automatic Speech Recognition (ASR), Speech-to-Text Translation (S2TT), Speech Emotion Captioning (SEC), Spoken Question Answering (SQA), Speech Understanding (SU), and Speech Reasoning (SR). Through the evaluation of ten MLLMs, our experimental results demonstrate that current MLLMs still face substantial challenges on the MCGA test set. Furthermore, we introduce a domain-specific metric for SEC and a metric to measure the consistency between speech and text capabilities. We release MCGA to the public to facilitate the development of more robust MLLMs. MCGA Corpus: https://github.com/yxduir/MCGA
- Abstract(参考訳): MLLM(Multimodal Large Language Models)の急速な発展に伴い、中国古典学(CCS)においてその可能性に大きな注目を集めている。
既存の研究は主にテキストとヴィジュアルモダリティに焦点を当てているが、この領域内の音声コーパスはほとんど探索されていない。
このギャップを埋めるために,22,000のオーディオサンプルからなる119時間コーパスであるMulti-task Classical Chinese Literary Genre Audio Corpus (MCGA)を導入する。
自動音声認識(ASR)、音声からテキストへの翻訳(S2TT)、音声感情キャプチャ(SEC)、音声質問回答(SQA)、音声理解(SU)、音声推論(SR)の6つのタスクにまたがる多様な文学ジャンルを含んでいる。
10個のMLLMを評価した結果,現在のMLLMはMCGAテストセットにおいて大きな課題に直面していることが明らかとなった。
さらに、SECのためのドメイン固有のメトリクスと、音声とテキストの整合性を測定するメトリクスを導入する。
我々は,より堅牢なMLLMの開発を促進するため,MCGAを一般公開する。
MCGA Corpus: https://github.com/yxduir/MCGA
関連論文リスト
- What Makes a Good Speech Tokenizer for LLM-Centric Speech Generation? A Systematic Study [58.55905182336196]
音声言語モデル(SLM)は、音声とテキストの理解と生成を統一するための有望な経路を提供する。
LLM中心のSLMにおける音声トークン化設計の役割について検討し,音声ヘッドと話者モデルを用いて検討した。
SLMにマルチトークン予測(MTP)を導入し、各隠れ状態が複数の音声トークンを復号化できるようにする。
論文 参考訳(メタデータ) (2025-06-14T15:26:31Z) - Advancing Singlish Understanding: Bridging the Gap with Datasets and Multimodal Models [38.608158064184366]
我々は、MNSC(Multitask National Speech Corpus)を導入し、最大のSinglishコーパスを標準化し、注釈する。
これらのデータセットは、自動音声認識(ASR)、音声質問回答(SQA)、音声対話要約(SDS)、パラ言語質問回答(PQA)など様々なタスクをサポートする。
本稿ではマルチタスクマルチモーダルモデルであるSingAudioLLMを提案する。
論文 参考訳(メタデータ) (2025-01-02T03:28:52Z) - Large Language Model Can Transcribe Speech in Multi-Talker Scenarios with Versatile Instructions [68.98811048970963]
我々は,多話者環境における音声の書き起こしにおける大規模言語モデル(LLM)の能力について,先駆的な研究を行う。
We use WavLM and Whisper encoder to extract multi-faceted speech representations that sensitive to speaker characteristics and semantic context。
提案システムであるMT-LLMのカクテルパーティーシナリオにおける有望な性能について実験を行った。
論文 参考訳(メタデータ) (2024-09-13T07:28:28Z) - SpeechPrompt: Prompting Speech Language Models for Speech Processing Tasks [94.10497337235083]
我々はまず,音声処理分野における音声 LM の促進の可能性を探る。
音声処理タスクを音声単位生成タスクに再構成する。
提案手法は, 強い微調整法と比較して, 競争性能を向上できることを示す。
論文 参考訳(メタデータ) (2024-08-23T13:00:10Z) - ERNIE-SAT: Speech and Text Joint Pretraining for Cross-Lingual
Multi-Speaker Text-to-Speech [58.93395189153713]
言語間複数話者音声合成タスクの事前学習法を拡張した。
本稿では,スペクトルと音素をランダムにマスキングする,音声・テキスト共同事前学習フレームワークを提案する。
本モデルは,話者埋め込み型マルチスピーカTS法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-11-07T13:35:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。