Fugu-MT 論文翻訳(概要): MCGA: A Multi-task Classical Chinese Literary Genre Audio Corpus

論文の概要: MCGA: A Multi-task Classical Chinese Literary Genre Audio Corpus

arxiv url: http://arxiv.org/abs/2601.09270v1
Date: Wed, 14 Jan 2026 08:05:16 GMT
ステータス: 翻訳完了
システム内更新日: 2026-01-15 18:59:20.329117
Title: MCGA: A Multi-task Classical Chinese Literary Genre Audio Corpus
Title（参考訳）: MCGA: マルチタスクの中国古典音楽コーパス
Authors: Yexing Du, Kaiyuan Liu, Bihe Zhang, Youcheng Pan, Bo Yang, Liangyu Huo, Xiyuan Zhang, Jian Xie, Daojing He, Yang Xiang, Ming Liu, Bin Qin,
Abstract要約: マルチタスク古典中国語文学音声コーパス(MCGA) ASR(Automatic Speech Recognition)、S2TT(A Speech-to-Text Translation)、SEC(A Speech Emotion Captioning)、SU(Spoken Question Answering)、SR(A Speech Reasoning)の6つのタスクにまたがる多様な文学ジャンルを含んでいる。
参考スコア（独自算出の注目度）: 28.12441904527545
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: With the rapid advancement of Multimodal Large Language Models (MLLMs), their potential has garnered significant attention in Chinese Classical Studies (CCS). While existing research has primarily focused on text and visual modalities, the audio corpus within this domain remains largely underexplored. To bridge this gap, we propose the Multi-task Classical Chinese Literary Genre Audio Corpus (MCGA). It encompasses a diverse range of literary genres across six tasks: Automatic Speech Recognition (ASR), Speech-to-Text Translation (S2TT), Speech Emotion Captioning (SEC), Spoken Question Answering (SQA), Speech Understanding (SU), and Speech Reasoning (SR). Through the evaluation of ten MLLMs, our experimental results demonstrate that current models still face substantial challenges when processed on the MCGA test set. Furthermore, we introduce an evaluation metric for SEC and a metric to measure the consistency between the speech and text capabilities of MLLMs. We release MCGA and our code to the public to facilitate the development of MLLMs with more robust multidimensional audio capabilities in CCS. MCGA Corpus: https://github.com/yxduir/MCGA
Abstract（参考訳）: MLLM(Multimodal Large Language Models)の急速な発展に伴い、そのポテンシャルは中国古典学(CCS)において大きな注目を集めている。既存の研究は主にテキストと視覚的モダリティに焦点を当てているが、この分野の音声コーパスはいまだに未調査である。そこで我々は,このギャップを埋めるために,マルチタスクの古典中国語リテラリー・ジェネア・オーディオ・コーパス(MCGA)を提案する。自動音声認識(ASR)、音声からテキストへの翻訳(S2TT)、音声感情キャプチャ(SEC)、音声質問回答(SQA)、音声理解(SU)、音声推論(SR)の6つのタスクにまたがる多様な文学ジャンルを含んでいる。 MLLMを10個評価した結果,MCGAテストセットで処理した場合,現在のモデルでは大きな課題に直面していることがわかった。さらに、SECの評価基準とMLLMの音声とテキストの整合性を測定する指標を導入する。我々はMCGAとコードを一般向けに公開し、CCSでより堅牢な多次元オーディオ機能を持つMLLMの開発を容易にする。 MCGA Corpus: https://github.com/yxduir/MCGA

関連論文リスト

Do Language Models Associate Sound with Meaning? A Multimodal Study of Sound Symbolism [20.62188582405012]
MLLM(Multimodal Large Language Models)が人間の言語における聴覚情報をどのように解釈するかを検討する。 LEX-ICONは,4つの自然言語から8,052個の単語からなる,広範囲なミメティックな単語データセットである。その結果,(1)MLLMの音韻直感は,複数の意味的次元にわたる既存の言語研究と一致し,(2)印象的音韻に焦点をあてる音韻的注意パターンが明らかになった。
論文参考訳（メタデータ） (2025-11-13T07:46:09Z)
What Makes a Good Speech Tokenizer for LLM-Centric Speech Generation? A Systematic Study [58.55905182336196]
音声言語モデル(SLM)は、音声とテキストの理解と生成を統一するための有望な経路を提供する。 LLM中心のSLMにおける音声トークン化設計の役割について検討し,音声ヘッドと話者モデルを用いて検討した。 SLMにマルチトークン予測(MTP)を導入し、各隠れ状態が複数の音声トークンを復号化できるようにする。
論文参考訳（メタデータ） (2025-06-14T15:26:31Z)
MMSU: A Massive Multi-task Spoken Language Understanding and Reasoning Benchmark [42.58439306999647]
MMSUは、47の異なるタスクにまたがって、5000の厳密にキュレートされたオーディオクエスト・アンサートレットで構成されている。我々は、音声学、韻律、修辞学、構文学、意味論、パラ言語学を含む言語理論のベンチマークを定めている。 MMSUは、音声言語理解の包括的評価のための新しい標準を確立する。
論文参考訳（メタデータ） (2025-06-05T09:09:36Z)
Advancing Singlish Understanding: Bridging the Gap with Datasets and Multimodal Models [38.608158064184366]
我々は、MNSC(Multitask National Speech Corpus)を導入し、最大のSinglishコーパスを標準化し、注釈する。これらのデータセットは、自動音声認識(ASR)、音声質問回答(SQA)、音声対話要約(SDS)、パラ言語質問回答(PQA)など様々なタスクをサポートする。本稿ではマルチタスクマルチモーダルモデルであるSingAudioLLMを提案する。
論文参考訳（メタデータ） (2025-01-02T03:28:52Z)
Long-Form Speech Generation with Spoken Language Models [64.29591880693468]
テキストなしの音声言語モデルは、数十秒を超える可読な音声を生成するのに苦労する。我々は、長音の音声から学習し、サンプルする最初の音声言語モデルであるSpeechSSMを導出する。 SpeechSSMは線形時間列モデリングの最近の進歩を活用し、コヒーレンスと効率性において現在のトランスフォーマー音声LMを大幅に上回っている。
論文参考訳（メタデータ） (2024-12-24T18:56:46Z)
Large Language Model Can Transcribe Speech in Multi-Talker Scenarios with Versatile Instructions [68.98811048970963]
我々は,多話者環境における音声の書き起こしにおける大規模言語モデル(LLM)の能力について,先駆的な研究を行う。 We use WavLM and Whisper encoder to extract multi-faceted speech representations that sensitive to speaker characteristics and semantic context。提案システムであるMT-LLMのカクテルパーティーシナリオにおける有望な性能について実験を行った。
論文参考訳（メタデータ） (2024-09-13T07:28:28Z)
SpeechPrompt: Prompting Speech Language Models for Speech Processing Tasks [94.10497337235083]
我々はまず,音声処理分野における音声 LM の促進の可能性を探る。音声処理タスクを音声単位生成タスクに再構成する。提案手法は, 強い微調整法と比較して, 競争性能を向上できることを示す。
論文参考訳（メタデータ） (2024-08-23T13:00:10Z)
Beyond Silent Letters: Amplifying LLMs in Emotion Recognition with Vocal Nuances [3.396456345114466]
本稿では,音声特徴を自然言語記述に変換するSpeechCueLLMを提案する。我々は、IEMOCAPとMELDの2つのデータセット上でSpeechCueLLMを評価し、感情認識精度を大幅に改善した。
論文参考訳（メタデータ） (2024-07-31T03:53:14Z)
Toward Joint Language Modeling for Speech Units and Text [89.32163954508489]
音声単位とテキストの共用言語モデリングについて検討する。音声とテキストの混在度を評価するための自動計測手法を提案する。提案手法を用いて音声単位とテキストを混合することにより,SLUタスクにおける音声のみのベースラインを改良することを示す。
論文参考訳（メタデータ） (2023-10-12T20:53:39Z)
SpeechGen: Unlocking the Generative Power of Speech Language Models with Prompts [108.04306136086807]
本稿では,SpeechGenと呼ばれる統合フレームワークを用いて,各種タスクの音声LMを刺激するための即時チューニングの適用について検討する。提案した統合フレームワークは効率と有効性に大きな可能性を秘めている。
論文参考訳（メタデータ） (2023-06-03T22:35:27Z)
ERNIE-SAT: Speech and Text Joint Pretraining for Cross-Lingual Multi-Speaker Text-to-Speech [58.93395189153713]
言語間複数話者音声合成タスクの事前学習法を拡張した。本稿では,スペクトルと音素をランダムにマスキングする,音声・テキスト共同事前学習フレームワークを提案する。本モデルは,話者埋め込み型マルチスピーカTS法よりも優れた性能を示す。
論文参考訳（メタデータ） (2022-11-07T13:35:16Z)
Towards Language Modelling in the Speech Domain Using Sub-word Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文参考訳（メタデータ） (2021-10-31T22:48:30Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。