論文の概要: MCGA: A Multi-task Classical Chinese Literary Genre Audio Corpus
- arxiv url: http://arxiv.org/abs/2601.09270v1
- Date: Wed, 14 Jan 2026 08:05:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-15 18:59:20.329117
- Title: MCGA: A Multi-task Classical Chinese Literary Genre Audio Corpus
- Title(参考訳): MCGA: マルチタスクの中国古典音楽コーパス
- Authors: Yexing Du, Kaiyuan Liu, Bihe Zhang, Youcheng Pan, Bo Yang, Liangyu Huo, Xiyuan Zhang, Jian Xie, Daojing He, Yang Xiang, Ming Liu, Bin Qin,
- Abstract要約: マルチタスク古典中国語文学音声コーパス(MCGA)
ASR(Automatic Speech Recognition)、S2TT(A Speech-to-Text Translation)、SEC(A Speech Emotion Captioning)、SU(Spoken Question Answering)、SR(A Speech Reasoning)の6つのタスクにまたがる多様な文学ジャンルを含んでいる。
- 参考スコア(独自算出の注目度): 28.12441904527545
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: With the rapid advancement of Multimodal Large Language Models (MLLMs), their potential has garnered significant attention in Chinese Classical Studies (CCS). While existing research has primarily focused on text and visual modalities, the audio corpus within this domain remains largely underexplored. To bridge this gap, we propose the Multi-task Classical Chinese Literary Genre Audio Corpus (MCGA). It encompasses a diverse range of literary genres across six tasks: Automatic Speech Recognition (ASR), Speech-to-Text Translation (S2TT), Speech Emotion Captioning (SEC), Spoken Question Answering (SQA), Speech Understanding (SU), and Speech Reasoning (SR). Through the evaluation of ten MLLMs, our experimental results demonstrate that current models still face substantial challenges when processed on the MCGA test set. Furthermore, we introduce an evaluation metric for SEC and a metric to measure the consistency between the speech and text capabilities of MLLMs. We release MCGA and our code to the public to facilitate the development of MLLMs with more robust multidimensional audio capabilities in CCS. MCGA Corpus: https://github.com/yxduir/MCGA
- Abstract(参考訳): MLLM(Multimodal Large Language Models)の急速な発展に伴い、そのポテンシャルは中国古典学(CCS)において大きな注目を集めている。
既存の研究は主にテキストと視覚的モダリティに焦点を当てているが、この分野の音声コーパスはいまだに未調査である。
そこで我々は,このギャップを埋めるために,マルチタスクの古典中国語リテラリー・ジェネア・オーディオ・コーパス(MCGA)を提案する。
自動音声認識(ASR)、音声からテキストへの翻訳(S2TT)、音声感情キャプチャ(SEC)、音声質問回答(SQA)、音声理解(SU)、音声推論(SR)の6つのタスクにまたがる多様な文学ジャンルを含んでいる。
MLLMを10個評価した結果,MCGAテストセットで処理した場合,現在のモデルでは大きな課題に直面していることがわかった。
さらに、SECの評価基準とMLLMの音声とテキストの整合性を測定する指標を導入する。
我々はMCGAとコードを一般向けに公開し、CCSでより堅牢な多次元オーディオ機能を持つMLLMの開発を容易にする。
MCGA Corpus: https://github.com/yxduir/MCGA
関連論文リスト
- What Makes a Good Speech Tokenizer for LLM-Centric Speech Generation? A Systematic Study [58.55905182336196]
音声言語モデル(SLM)は、音声とテキストの理解と生成を統一するための有望な経路を提供する。
LLM中心のSLMにおける音声トークン化設計の役割について検討し,音声ヘッドと話者モデルを用いて検討した。
SLMにマルチトークン予測(MTP)を導入し、各隠れ状態が複数の音声トークンを復号化できるようにする。
論文 参考訳(メタデータ) (2025-06-14T15:26:31Z) - Advancing Singlish Understanding: Bridging the Gap with Datasets and Multimodal Models [38.608158064184366]
我々は、MNSC(Multitask National Speech Corpus)を導入し、最大のSinglishコーパスを標準化し、注釈する。
これらのデータセットは、自動音声認識(ASR)、音声質問回答(SQA)、音声対話要約(SDS)、パラ言語質問回答(PQA)など様々なタスクをサポートする。
本稿ではマルチタスクマルチモーダルモデルであるSingAudioLLMを提案する。
論文 参考訳(メタデータ) (2025-01-02T03:28:52Z) - Large Language Model Can Transcribe Speech in Multi-Talker Scenarios with Versatile Instructions [68.98811048970963]
我々は,多話者環境における音声の書き起こしにおける大規模言語モデル(LLM)の能力について,先駆的な研究を行う。
We use WavLM and Whisper encoder to extract multi-faceted speech representations that sensitive to speaker characteristics and semantic context。
提案システムであるMT-LLMのカクテルパーティーシナリオにおける有望な性能について実験を行った。
論文 参考訳(メタデータ) (2024-09-13T07:28:28Z) - SpeechPrompt: Prompting Speech Language Models for Speech Processing Tasks [94.10497337235083]
我々はまず,音声処理分野における音声 LM の促進の可能性を探る。
音声処理タスクを音声単位生成タスクに再構成する。
提案手法は, 強い微調整法と比較して, 競争性能を向上できることを示す。
論文 参考訳(メタデータ) (2024-08-23T13:00:10Z) - ERNIE-SAT: Speech and Text Joint Pretraining for Cross-Lingual
Multi-Speaker Text-to-Speech [58.93395189153713]
言語間複数話者音声合成タスクの事前学習法を拡張した。
本稿では,スペクトルと音素をランダムにマスキングする,音声・テキスト共同事前学習フレームワークを提案する。
本モデルは,話者埋め込み型マルチスピーカTS法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-11-07T13:35:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。