論文の概要: Multimodal In-context Learning for ASR of Low-resource Languages
- arxiv url: http://arxiv.org/abs/2601.05707v1
- Date: Fri, 09 Jan 2026 10:52:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-12 17:41:49.948272
- Title: Multimodal In-context Learning for ASR of Low-resource Languages
- Title(参考訳): 低リソース言語ASRのためのマルチモーダルインコンテキスト学習
- Authors: Zhaolin Li, Jan Niehues,
- Abstract要約: 大規模言語モデル(LLM)を用いたインコンテキスト学習(ICL)はこの問題に対処する。
本稿では,マルチモーダル ICL (MICL) を用いて,LLM が未知言語を学習できるかどうかを検討する。
言語間移動学習は、訓練なしでターゲット言語でのMICL効率を向上させる。
- 参考スコア(独自算出の注目度): 16.078416187950207
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Automatic speech recognition (ASR) still covers only a small fraction of the world's languages, mainly due to supervised data scarcity. In-context learning (ICL) with large language models (LLMs) addresses this problem, but prior work largely focuses on high-resource languages covered during training and text-only settings. This paper investigates whether speech LLMs can learn unseen languages with multimodal ICL (MICL), and how this learning can be used to improve ASR. We conduct experiments with two speech LLMs, Phi-4 and Qwen3-Omni, on three diverse endangered languages. Firstly, we find that MICL is effective for unseen languages, leveraging both speech and text modalities. We further show that cross-lingual transfer learning improves MICL efficiency on target languages without training on them. Moreover, we analyze attention patterns to interpret MICL mechanisms, and we observe layer-dependent preferences between audio and text context, with an overall bias towards text. Finally, we show that prompt-based ASR with speech LLMs performs poorly on unseen languages, motivating a simple ASR system that combines a stronger acoustic model with a speech LLM via MICL-based selection of acoustic hypotheses. Results show that MICL consistently improves ASR performance, and that cross-lingual transfer learning matches or outperforms corpus-trained language models without using target-language data. Our code is publicly available.
- Abstract(参考訳): 自動音声認識(ASR)は、主に教師付きデータ不足のため、世界の言語のごく一部しかカバーしていない。
大規模言語モデル(LLM)を備えたインコンテキスト学習(ICL)はこの問題に対処するが、以前の研究は主にトレーニングやテキストのみの設定でカバーされた高リソース言語に焦点を当てていた。
本稿では,マルチモーダル ICL (MICL) を用いてLLMが未知の言語を学習できるかどうかについて検討し,この学習を用いてASRを改善する方法について述べる。
Phi-4 と Qwen3-Omni の 2 つの音声 LLM を用いて, 多様な絶滅危惧言語を用いて実験を行った。
まず、MICLは未知の言語に対して有効であり、音声とテキストの両方のモダリティを利用する。
さらに, 言語間移動学習は, 学習を伴わずに, 対象言語でのMICL効率を向上させることを示す。
さらに、MICLメカニズムを解釈するための注意パターンを分析し、音声とテキストのコンテキスト間の層依存的な嗜好を、テキストに対する全体的な偏見とともに観察する。
最後に,音声LLMを用いたプロンプトベースASRは,より強い音響モデルとMICLに基づく音声LLMを組み合わせた単純なASRシステムを構築することで,未知の言語に対して性能が低いことを示す。
その結果、MICLはASR性能を一貫して改善し、言語間変換学習はターゲット言語データを用いることなく、コーパス学習された言語モデルに適合し、性能が向上することが示された。
私たちのコードは公開されています。
関連論文リスト
- In-context Language Learning for Endangered Languages in Speech Recognition [15.294500162002345]
In-context Learning (ICL) を用いて,大規模言語モデル (LLM) が未知の低リソース言語を学習できるかどうかを検討する。
ICLは、これらの言語に特化して訓練された専用言語モデルに匹敵する、あるいは超越したASR性能を実現することができることを示す。
論文 参考訳(メタデータ) (2025-05-26T18:38:59Z) - Zero-resource Speech Translation and Recognition with LLMs [38.11535502039386]
我々は,ペア音声テキストデータを見たことのない言語において,多言語大言語モデル(LLM)を用いてSTとASRを実行することを提案する。
我々は、事前訓練された多言語音声エンコーダ、多言語LLM、およびLLMのトークン埋め込み空間に音声表現をマッピングする軽量適応モジュールを用いて、これを実現する。
論文 参考訳(メタデータ) (2024-12-24T17:37:11Z) - Think Carefully and Check Again! Meta-Generation Unlocking LLMs for Low-Resource Cross-Lingual Summarization [108.6908427615402]
CLS(Cross-lingual summarization)は、異なるターゲット言語でソーステキストの要約を生成することを目的としている。
現在、インストラクションチューニング付き大規模言語モデル (LLM) は様々な英語タスクで優れている。
近年の研究では、LCSタスクにおけるLCMの性能は、わずかな設定でも満足できないことが示されている。
論文 参考訳(メタデータ) (2024-10-26T00:39:44Z) - SMILE: Speech Meta In-Context Learning for Low-Resource Language Automatic Speech Recognition [55.2480439325792]
音声メタインコンテキスト学習(SMILE)は、メタラーニングと音声インコンテキスト学習(SICL)を組み合わせた革新的なフレームワークである
SMILEは、トレーニング不要な多言語ASRタスクにおいて、ベースライン手法よりも一貫して優れていることを示す。
論文 参考訳(メタデータ) (2024-09-16T16:04:16Z) - Enhancing Multilingual Capabilities of Large Language Models through
Self-Distillation from Resource-Rich Languages [60.162717568496355]
大規模言語モデル(LLM)は多言語コーパスで事前訓練されている。
彼らのパフォーマンスは、いくつかのリソース豊富な言語と比較して、ほとんどの言語でまだ遅れています。
論文 参考訳(メタデータ) (2024-02-19T15:07:32Z) - Cross-lingual Machine Reading Comprehension with Language Branch
Knowledge Distillation [105.41167108465085]
言語間機械読解(CLMRC)は、ローソース言語に大規模なデータセットがないため、依然として難しい問題である。
本稿では,Language Branch Machine Reading (LBMRC) という新しい拡張手法を提案する。
LBMRCは、個々の言語に精通したMultiple Machine Read comprehension (MRC)モデルを訓練する。
複数の言語分岐モデルから全ての対象言語に対する単一モデルへのアマルガメート知識の多言語蒸留アプローチを考案する。
論文 参考訳(メタデータ) (2020-10-27T13:12:17Z) - That Sounds Familiar: an Analysis of Phonetic Representations Transfer
Across Languages [72.9927937955371]
我々は、他言語に存在するリソースを用いて、多言語自動音声認識モデルを訓練する。
我々は,多言語設定における全言語間での大幅な改善と,多言語設定におけるスターク劣化を観察した。
分析の結果、ひとつの言語に固有の電話でさえ、他の言語からのトレーニングデータを追加することで大きなメリットがあることがわかった。
論文 参考訳(メタデータ) (2020-05-16T22:28:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。