論文の概要: Language Family Matters: Evaluating LLM-Based ASR Across Linguistic Boundaries
- arxiv url: http://arxiv.org/abs/2601.18899v2
- Date: Mon, 02 Feb 2026 18:02:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:32.827109
- Title: Language Family Matters: Evaluating LLM-Based ASR Across Linguistic Boundaries
- Title(参考訳): 言語家族の問題:言語境界を越えたLLMに基づくASRの評価
- Authors: Yuchen Zhang, Ravi Shekhar, Haralambos Mouratidis,
- Abstract要約: 大言語モデル (LLM) を利用した自動音声認識 (ASR) システムは限られた資源で高い性能を達成する。
本稿では,言語家族のメンバーシップに基づく,効率的で斬新なコネクタ共有戦略を提案する。
- 参考スコア(独自算出の注目度): 5.770962296305264
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Large Language Model (LLM)-powered Automatic Speech Recognition (ASR) systems achieve strong performance with limited resources by linking a frozen speech encoder to a pretrained LLM via a lightweight connector. Prior work trains a separate connector per language, overlooking linguistic relatedness. We propose an efficient and novel connector-sharing strategy based on linguistic family membership, enabling one connector per family, and empirically validate its effectiveness across two multilingual LLMs and two real-world corpora spanning curated and crowd-sourced speech. Our results show that family-based connectors reduce parameter count while improving generalization across domains, offering a practical and scalable strategy for multilingual ASR deployment.
- Abstract(参考訳): LLM(Large Language Model)を利用した自動音声認識(ASR)システムは,凍結した音声エンコーダを軽量コネクタを介して予め訓練されたLLMに接続することにより,限られた資源で強力な性能を実現する。
以前の仕事は言語間の関連性を見越して、言語ごとに別々のコネクターを訓練する。
本研究では,言語家族のメンバーシップに基づく効率的で斬新なコネクタ共有戦略を提案し,家族ごとのコネクタを1つ提供し,その効果を2つの多言語LLMと2つの実世界コーパスで実証的に検証する。
提案手法は,多言語ASR展開のための実用的かつスケーラブルな戦略を提供するとともに,ドメイン間の一般化を改善しつつ,家族ベースのコネクタがパラメータ数を減少させることを示す。
関連論文リスト
- Multimodal In-context Learning for ASR of Low-resource Languages [16.078416187950207]
大規模言語モデル(LLM)を用いたインコンテキスト学習(ICL)はこの問題に対処する。
本稿では,マルチモーダル ICL (MICL) を用いて,LLM が未知言語を学習できるかどうかを検討する。
言語間移動学習は、訓練なしでターゲット言語でのMICL効率を向上させる。
論文 参考訳(メタデータ) (2026-01-09T10:52:23Z) - PART: Progressive Alignment Representation Training for Multilingual Speech-To-Text with LLMs [58.2469845374385]
進歩的アライメント表現訓練(PART)について紹介する。
Partは多段階およびマルチタスクのフレームワークで、言語内のアライメントと言語間のアライメントを分離する。
CommonVoice 15の実験では、Fleurs、Wenetspeech、CoVoST2が、Particleが従来のアプローチを上回ることを示している。
論文 参考訳(メタデータ) (2025-09-24T03:54:14Z) - Boosting Code-Switching ASR with Mixture of Experts Enhanced Speech-Conditioned LLM [1.3089936156875277]
我々は,Mixture of Experts (MoE) ベースのコネクタと統合された音声条件付き大規模言語モデル (LLM) を提案する。
音声認識タスクへのLLMのテキスト生成能力を向上するためのIDIT機構を提案する。
また、複数の言語を効率的に管理するMoEアーキテクチャとのコネクタも提示する。
論文 参考訳(メタデータ) (2024-09-24T09:20:22Z) - Enhancing Code-switched Text-to-Speech Synthesis Capability in Large Language Models with only Monolingual Corpora [13.891322931352649]
本稿では,CS-LLM(Code-Switched Large Language Model)を提案する。
具体的には、多言語音声認識と合成タスクにより、LLMの多言語音声処理能力を向上することから始める。
我々は,CS TTS 能力を改善した LLM を装備するために,異なる単言語音声コーパスから単語を分割・分割する効果的なコードスイッチング(CS)データ構築戦略を開発した。
論文 参考訳(メタデータ) (2024-09-17T08:11:07Z) - Adapting Multilingual LLMs to Low-Resource Languages with Knowledge Graphs via Adapters [3.7273829129985305]
本稿では,言語から多言語大モデル(LLM)へのグラフ知識の統合について検討する。
我々は、感情分析(SA)および名前付きエンティティ認識(NER)における低リソース言語(LRL)の性能向上のために、言語固有のアダプタを使用している。
構造化グラフ知識が,SA および NER における LRL の多言語 LLM の性能に与える影響を評価する。
論文 参考訳(メタデータ) (2024-07-01T15:56:24Z) - Efficient Spoken Language Recognition via Multilabel Classification [53.662747523872305]
我々のモデルは,現在の最先端手法よりも桁違いに小さく,高速でありながら,競争力のある結果が得られることを示す。
我々のマルチラベル戦略は、マルチクラス分類よりも非ターゲット言語の方が堅牢である。
論文 参考訳(メタデータ) (2023-06-02T23:04:19Z) - Efficiently Aligned Cross-Lingual Transfer Learning for Conversational
Tasks using Prompt-Tuning [98.60739735409243]
英語のような高リソース言語で訓練された言語モデルの言語間移動は、多くのNLPタスクのために広く研究されている。
並列および大規模多言語会話データセットである言語間アライメント事前学習のためのXSGDを導入する。
協調的な言語間表現を容易にするために,アライメントプロンプトを学習するための効率的なプロンプトチューニング手法を開発した。
論文 参考訳(メタデータ) (2023-04-03T18:46:01Z) - LAMASSU: Streaming Language-Agnostic Multilingual Speech Recognition and
Translation Using Neural Transducers [71.76680102779765]
自動音声認識(ASR)と音声翻訳(ST)はどちらもモデル構造としてニューラルトランスデューサを使用することができる。
ニューラルトランスデューサを用いた多言語音声認識および翻訳モデルであるLAMASSUを提案する。
論文 参考訳(メタデータ) (2022-11-05T04:03:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。