論文の概要: The Eloquence team submission for task 1 of MLC-SLM challenge
- arxiv url: http://arxiv.org/abs/2507.19308v1
- Date: Fri, 25 Jul 2025 14:23:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-29 14:15:47.147608
- Title: The Eloquence team submission for task 1 of MLC-SLM challenge
- Title(参考訳): MLC-SLMチャレンジの課題1にEloquenceチームが応募
- Authors: Lorenzo Concina, Jordi Luque, Alessio Brutti, Marco Matassoni, Yuchen Zhang,
- Abstract要約: MLC-SLM(Multiversual Conversational Speech Language Model)の課題1に向けて実施した研究と実験について述べる。
この課題は、言語モデルアーキテクチャの開発を通じて、多言語会話音声認識の進歩に焦点を当てる。
- 参考スコア(独自算出の注目度): 12.442720957990533
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we present our studies and experiments carried out for the task 1 of the Challenge and Workshop on Multilingual Conversational Speech Language Model (MLC-SLM), which focuses on advancing multilingual conversational speech recognition through the development of speech language models architectures. Given the increasing relevance of real-world conversational data for building robust Spoken Dialogue Systems, we explore three approaches to multilingual ASR. First, we conduct an evaluation of the official baseline to better understand its strengths and limitations, by training two projectors (linear and qformer) with different foundation models. Second we leverage the SLAM-ASR framework to train a custom multilingual linear projector. Finally we investigate the role of contrastive learning and the extended conversational context in enhancing the robustness of recognition.
- Abstract(参考訳): 本稿では,多言語対話型言語モデル(MLC-SLM)の課題1において,言語モデル構築による多言語対話型音声認識の高度化に着目した研究と実験を行った。
堅牢な音声対話システムを構築するための実世界の会話データとの関連性が高まっていることを踏まえ,多言語ASRに対する3つのアプローチについて検討する。
まず、異なる基礎モデルを用いて2つのプロジェクタ(線形およびqformer)を訓練することにより、その強度と限界をよりよく理解するための公式ベースラインの評価を行う。
次に、SLAM-ASRフレームワークを利用して、カスタムの多言語線形プロジェクタをトレーニングします。
最後に,認識の堅牢性を高める上で,コントラスト学習と会話コンテキストの拡張が果たす役割について検討する。
関連論文リスト
- Triple X: A LLM-Based Multilingual Speech Recognition System for the INTERSPEECH2025 MLC-SLM Challenge [24.966911190845817]
本稿では,MLC-SLM(Multi-Lingual Conversational Speech Language Modeling, MLC-SLM)チャレンジのタスク1に提案した3つの音声認識システムについて述べる。
本研究は,多言語対話シナリオにおける音声認識の精度を,革新的なエンコーダ・アダプタ・LLMアーキテクチャを用いて最適化することに焦点を当てる。
論文 参考訳(メタデータ) (2025-07-23T07:48:33Z) - A Unified Speech LLM for Diarization and Speech Recognition in Multilingual Conversations [25.58593495281218]
本稿では、ダイアリゼーションとASRをエンドツーエンドで共同で行う統一音声LLMを提案する。
トレーニングデータフォーマットを再構成し,推論手順を変更することで,事前分類音声に固有のあいまいさに対処する。
論文 参考訳(メタデータ) (2025-06-26T01:54:02Z) - Building a Taiwanese Mandarin Spoken Language Model: A First Attempt [44.54200115439157]
本報告は,マルチターン会話におけるリアルタイム音声対話を実現するために,台湾語マンダリンのための大規模音声言語モデル(MLL)を構築することを目的とする。
エンドツーエンドモデルにはデコーダのみのトランスフォーマーアーキテクチャが組み込まれており,会話の流路を保ちながらシームレスな対話を実現することを目的としている。
論文 参考訳(メタデータ) (2024-11-11T16:37:40Z) - A Survey on Large Language Models with Multilingualism: Recent Advances and New Frontiers [51.8203871494146]
LLM(Large Language Models)の急速な開発は、自然言語処理における顕著な多言語機能を示している。
LLMのブレークスルーにもかかわらず、多言語シナリオの研究は依然として不十分である。
本調査は,多言語問題に対する研究コミュニティの取り組みを支援することを目的としており,LLMに基づく多言語自然言語処理における中核概念,鍵技術,最新の発展の包括的理解を提供する。
論文 参考訳(メタデータ) (2024-05-17T17:47:39Z) - Teaching a Multilingual Large Language Model to Understand Multilingual Speech via Multi-Instructional Training [29.47243668154796]
BLOOMZMMSは多言語LLMと多言語音声エンコーダを統合する新しいモデルである。
本稿では,言語知識のテキストから音声モダリティへの伝達性を示す。
ゼロショット評価の結果は、複数のタスクにまたがるアプローチの堅牢性を確認します。
論文 参考訳(メタデータ) (2024-04-16T21:45:59Z) - Towards Joint Modeling of Dialogue Response and Speech Synthesis based
on Large Language Model [8.180382743037082]
本稿では,AI音声対話システムの構築の可能性について考察する。
論文 参考訳(メタデータ) (2023-09-20T01:48:27Z) - ComSL: A Composite Speech-Language Model for End-to-End Speech-to-Text
Translation [79.66359274050885]
公的な事前訓練された音声のみのモデルと言語のみのモデルからなる複合アーキテクチャ上に構築された音声言語モデルであるComSLを提案する。
提案手法は,エンドツーエンドの音声-テキスト翻訳タスクにおいて有効であることを示す。
論文 参考訳(メタデータ) (2023-05-24T07:42:15Z) - SpokenWOZ: A Large-Scale Speech-Text Benchmark for Spoken Task-Oriented Dialogue Agents [70.08842857515141]
SpokenWOZは音声TODのための大規模音声テキストデータセットである。
SpokenWOZでは、クロスターンスロットと推論スロット検出が新たな課題である。
論文 参考訳(メタデータ) (2023-05-22T13:47:51Z) - Cue-CoT: Chain-of-thought Prompting for Responding to In-depth Dialogue
Questions with LLMs [59.74002011562726]
我々は、よりパーソナライズされ魅力的な応答を提供するために、新しい言語的キューに基づく思考の連鎖(textitCue-CoT)を提案する。
中国語と英語の6つのデータセットからなる詳細な対話質問を用いたベンチマークを構築した。
実験により,提案手法は,すべてのデータセットにおいて,テクステルパーフルネスとテクスチタアクセプタビリティの両方の観点から,標準的プロンプト法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-05-19T16:27:43Z) - A Multi-task Multi-stage Transitional Training Framework for Neural Chat
Translation [84.59697583372888]
ニューラルチャット翻訳(NCT)は、異なる言語の話者間の言語間チャットを翻訳することを目的としている。
既存の文脈対応NMTモデルは、注釈付きバイリンガル対話のリソースが限られているため、満足な性能を達成できない。
NCTモデルをバイリンガルチャット翻訳データセットと追加の単言語対話を用いて訓練するマルチタスク・マルチステージ・トランザクショナル(MMT)トレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2023-01-27T14:41:16Z) - ERNIE-SAT: Speech and Text Joint Pretraining for Cross-Lingual
Multi-Speaker Text-to-Speech [58.93395189153713]
言語間複数話者音声合成タスクの事前学習法を拡張した。
本稿では,スペクトルと音素をランダムにマスキングする,音声・テキスト共同事前学習フレームワークを提案する。
本モデルは,話者埋め込み型マルチスピーカTS法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-11-07T13:35:16Z) - BiToD: A Bilingual Multi-Domain Dataset For Task-Oriented Dialogue
Modeling [52.99188200886738]
BiToDは、エンドツーエンドのタスク指向対話モデリングのための最初のバイリンガルなマルチドメインデータセットである。
BiToDには、大規模で現実的なバイリンガル知識ベースを持つ7k以上のマルチドメイン対話(144k発声)が含まれている。
論文 参考訳(メタデータ) (2021-06-05T03:38:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。