論文の概要: Speak in Context: Multilingual ASR with Speech Context Alignment via Contrastive Learning
- arxiv url: http://arxiv.org/abs/2603.06505v1
- Date: Fri, 06 Mar 2026 17:37:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-09 13:17:46.300432
- Title: Speak in Context: Multilingual ASR with Speech Context Alignment via Contrastive Learning
- Title(参考訳): Speak in Context:コントラスト学習による音声コンテキストアライメントを用いた多言語ASR
- Authors: Yuchen Zhang, Haralambos Mouratidis, Ravi Shekhar,
- Abstract要約: 多様な言語とアクセントをサポートするコンテキスト対応多言語ASRフレームワークを提案する。
提案手法は,フリーズした音声エンコーダと,軽量プロジェクションモジュールによるデコーダのみの言語モデルを組み合わせたものである。
文脈入力は認識品質を継続的に改善することを示す。
- 参考スコア(独自算出の注目度): 5.770962296305264
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Automatic speech recognition (ASR) has benefited from advances in pretrained speech and language models, yet most systems remain constrained to monolingual settings and short, isolated utterances. While recent efforts in context-aware ASR show promise, two key challenges persist: limited multilingual support and the absence of principled alignment between speech and contextual representations. In this paper, we introduce a context-aware multilingual ASR framework that supports diverse languages and accents while preserving the modularity of pretrained models. Our approach combines a frozen speech encoder and a decoder-only language model via a lightweight projection module, allowing structured context prompts, including dialogue history and biasing words, to guide transcription. To improve interaction between speech and context, we employ a contrastive learning objective that aligns their representations in a shared embedding space. Evaluations on over 1,500 hours of real-world conversational speech across 11 languages and 5 English dialects show that contextual input consistently improves recognition quality. Contrastive alignment provides additional gains when applied to different context types, with an overall performance gain of over 5%. These results highlight the importance of both contextual modeling and cross-modal alignment in multilingual ASR.
- Abstract(参考訳): 音声認識(ASR)は、事前訓練された音声と言語モデルの進歩の恩恵を受けてきたが、ほとんどのシステムは単言語的な設定と短い孤立した発話に制約を受け続けている。
文脈認識型ASRにおける最近の取り組みは、約束を示す一方で、多言語サポートの制限と、音声と文脈表現の原則的アライメントの欠如という2つの主要な課題が続いている。
本稿では,事前学習モデルのモジュラリティを維持しつつ,多様な言語やアクセントをサポートするコンテキスト対応多言語ASRフレームワークを提案する。
提案手法は,対話履歴や偏りのある単語を含む構造化された文脈プロンプトで書き起こしをガイドする,軽量なプロジェクションモジュールを介して,凍結した音声エンコーダとデコーダのみの言語モデルを組み合わせる。
音声と文脈の相互作用を改善するために,表現を共有埋め込み空間に整列させるコントラスト学習の目的を用いる。
11の言語と5つの英語方言にわたる1500時間以上の実世界の会話音声の評価は、文脈入力が認識品質を一貫して改善することを示している。
コントラストアライメントは、異なるコンテキストタイプに適用した場合、全体のパフォーマンスが5%以上向上する。
これらの結果は,多言語ASRにおけるコンテキストモデリングとモーダルアライメントの両方の重要性を強調している。
関連論文リスト
- PART: Progressive Alignment Representation Training for Multilingual Speech-To-Text with LLMs [58.2469845374385]
進歩的アライメント表現訓練(PART)について紹介する。
Partは多段階およびマルチタスクのフレームワークで、言語内のアライメントと言語間のアライメントを分離する。
CommonVoice 15の実験では、Fleurs、Wenetspeech、CoVoST2が、Particleが従来のアプローチを上回ることを示している。
論文 参考訳(メタデータ) (2025-09-24T03:54:14Z) - Bi-directional Context-Enhanced Speech Large Language Models for Multilingual Conversational ASR [23.285609467633865]
本稿では、多言語連続会話自動音声認識(ASR)を改善するために、言語固有の双方向コンテキストを音声大言語モデル(SLLM)に統合する。
トレーニング中の文字レベルのコンテキストマスキング戦略を提案する。これにより、コンテキストの一部がランダムに除去され、堅牢性が向上し、推論中に発生する可能性のある欠陥のある文字のエミュレートが向上する。
論文 参考訳(メタデータ) (2025-06-16T12:03:23Z) - What Makes a Good Speech Tokenizer for LLM-Centric Speech Generation? A Systematic Study [58.55905182336196]
音声言語モデル(SLM)は、音声とテキストの理解と生成を統一するための有望な経路を提供する。
LLM中心のSLMにおける音声トークン化設計の役割について検討し,音声ヘッドと話者モデルを用いて検討した。
SLMにマルチトークン予測(MTP)を導入し、各隠れ状態が複数の音声トークンを復号化できるようにする。
論文 参考訳(メタデータ) (2025-06-14T15:26:31Z) - In-Context Learning Boosts Speech Recognition via Human-like Adaptation to Speakers and Language Varieties [24.74769794165231]
本稿では,Phi-4 Multimodal におけるコンテキスト内学習(ICL)を実現するスケーラブルなフレームワークを提案する。
単語の誤り率を相対的に19.7%減少させるのは、12の例に過ぎない。
全体として、我々の新しいICL適応方式は、人間の聴取者と同様の性能を示す。
論文 参考訳(メタデータ) (2025-05-20T20:20:37Z) - VITA-1.5: Towards GPT-4o Level Real-Time Vision and Speech Interaction [114.35537839800372]
音声はマルチモーダル対話システムにおいて重要な役割を担い、視覚と音声の両方にハイパフォーマンスを実装することは依然として重要な課題である。
視覚情報と音声情報の両方を段階的に学習する多段階学習手法を提案する。
提案手法は, 視覚言語能力の強いだけでなく, ASR と TTS モジュールを分離することなく, 音声音声対話を効率的に行うことができる。
論文 参考訳(メタデータ) (2025-01-03T18:59:52Z) - Channel-aware Decoupling Network for Multi-turn Dialogue Comprehension [81.47133615169203]
本稿では,PrLMの逐次文脈化を超えて,発話間の包括的相互作用のための合成学習を提案する。
私たちは、モデルが対話ドメインに適応するのを助けるために、ドメイン適応型トレーニング戦略を採用しています。
実験の結果,提案手法は4つの公開ベンチマークデータセットにおいて,強力なPrLMベースラインを著しく向上させることがわかった。
論文 参考訳(メタデータ) (2023-01-10T13:18:25Z) - MAESTRO: Matched Speech Text Representations through Modality Matching [35.566604806335626]
Maestroは、音声とテキストのモダリティから学習した表現を統一する自己教師型訓練手法である。
単語誤り率(WER)を11%低減したVoxPopuli多言語ASR上でのSOTA(State-of-the-art)を確立する。
我々はCoVoST 2上に新しい最先端のSOTA(State-of-the-art)を確立し、21以上の言語で平均2.8BLEUを改善した。
論文 参考訳(メタデータ) (2022-04-07T12:48:16Z) - VQMIVC: Vector Quantization and Mutual Information-Based Unsupervised
Speech Representation Disentanglement for One-shot Voice Conversion [54.29557210925752]
ワンショット音声変換は、音声表現のアンタングルメントによって効果的に実現できる。
コンテンツエンコーディングにはベクトル量子化(VQ)を使用し、トレーニング中に相互情報(MI)を相関指標として導入する。
実験結果は,提案手法が効果的に非絡み合った音声表現を学習する際の優位性を反映している。
論文 参考訳(メタデータ) (2021-06-18T13:50:38Z) - Bridging the Modality Gap for Speech-to-Text Translation [57.47099674461832]
エンド・ツー・エンドの音声翻訳は、ある言語における音声を、エンド・ツー・エンドの方法で他の言語におけるテキストに変換することを目的としている。
既存のほとんどの手法では、音響表現と意味情報を同時に学習するために、単一のエンコーダを持つエンコーダ・デコーダ構造を用いる。
本稿では,音声とテキスト間のモダリティギャップを埋めることで,エンドツーエンドのモデル性能を向上させることを目的とした音声翻訳モデルのための音声テキスト適応手法を提案する。
論文 参考訳(メタデータ) (2020-10-28T12:33:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。