論文の概要: CALM: Joint Contextual Acoustic-Linguistic Modeling for Personalization of Multi-Speaker ASR
- arxiv url: http://arxiv.org/abs/2601.22792v1
- Date: Fri, 30 Jan 2026 10:12:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-02 18:28:15.378577
- Title: CALM: Joint Contextual Acoustic-Linguistic Modeling for Personalization of Multi-Speaker ASR
- Title(参考訳): CALM:マルチスピーカASRのパーソナライズのための統合文脈音響言語モデル
- Authors: Muhammad Shakeel, Yosuke Fukumoto, Chikara Maeda, Chyi-Jiunn Lin, Shinji Watanabe,
- Abstract要約: 本稿では,自動音声認識のための共同文脈音響言語モデリングフレームワークCALMを提案する。
CALMは話者埋め込み駆動型ターゲットスピーカ抽出と動的語彙に基づく文脈バイアスを実装している。
両話者混合の場合,CALM は LibriSpeech2Mix では 12.7 から 4.7 に,CSJMix2 では 16.6 から 8.4 にバイアス付き文字誤り率 (B-CER) を減少させる(eval3)。
- 参考スコア(独自算出の注目度): 41.86433172822149
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present CALM, a joint Contextual Acoustic-Linguistic Modeling framework for multi-speaker automatic speech recognition (ASR). In personalized AI scenarios, the joint availability of acoustic and linguistic cues naturally motivates the integration of target-speaker conditioning with contextual biasing in overlapping conversations. CALM implements this integration in an end-to-end framework through speaker embedding-driven target-speaker extraction and dynamic vocabulary-based contextual biasing. We evaluate CALM on simulated English (LibriSpeechMix) and Japanese (Corpus of Spontaneous Japanese mixtures, CSJMix). On two-speaker mixtures, CALM reduces biased word error rate (B-WER) from 12.7 to 4.7 on LibriSpeech2Mix and biased character error rate (B-CER) from 16.6 to 8.4 on CSJMix2 (eval3), demonstrating the effectiveness of joint acoustic-linguistic modeling across languages. We additionally report results on the AMI corpus (IHM-mix condition) to validate performance on standardized speech mixtures.
- Abstract(参考訳): 本稿では,多話者自動音声認識(ASR)のための共同文脈音響言語モデリングフレームワークCALMを提案する。
パーソナライズされたAIシナリオでは、音響的および言語的手がかりの併用が自然に、重複する会話におけるコンテキストバイアスとターゲット話者条件の統合を動機付けている。
CALMはこの統合を、話者埋め込み駆動型ターゲット話者抽出と動的語彙に基づくコンテキストバイアスを通じてエンドツーエンドフレームワークで実装する。
シミュレーション英語 (LibriSpeechMix) と日本語 (CSJMix) を用いたCALMの評価を行った。
2話者混合では、CALM は LibriSpeech2Mix で 12.7 から 4.7 に、CSJMix2 (eval3) で 16.6 から 8.4 にバイアス付き文字誤り率 (B-CER) を減少させ、言語間の共同音響言語モデリングの有効性を示す。
また、AMIコーパス(IHM-mix条件)の結果を報告し、標準化された混合音声の性能を検証する。
関連論文リスト
- Unifying Diarization, Separation, and ASR with Multi-Speaker Encoder [53.00939565103065]
本稿では、話者ダイアリゼーション(SD)、音声分離(SS)、マルチ話者自動音声認識(ASR)タスクの表現を共同で学習する新しいアーキテクチャを提案する。
我々は,UMEの複数の層から隠された表現を残重畳符号化(RWSE)として活用し,異なる意味レベルからの情報を効果的に活用する。
このジョイントトレーニングアプローチは,タスク間の相互依存性を捕捉し,重なり合う音声データの全体的な性能を向上させる。
論文 参考訳(メタデータ) (2025-08-28T06:50:57Z) - AudioJudge: Understanding What Works in Large Audio Model Based Speech Evaluation [55.607230723223346]
本研究は,Large Audio Model (LAM) をAudioJudgeの裁判官として体系的に研究し,両課題に対処する統一評価フレームワークを提供することができるかどうかを検討する。
本稿では、発音、発話速度、話者識別、音声品質、自動ベンチマークのためのシステムレベルの人間の嗜好シミュレーションなど、音声特徴検出タスクにまたがるAudioJudgeについて検討する。
本稿では,多視点アンサンブルAudioJudgeを導入し,音声評価を語彙内容,音声品質,パラ言語特徴の専門判断者に分解し,人間の嗜好と最大0.91のスピアマン相関を達成させる手法を提案する。
論文 参考訳(メタデータ) (2025-07-17T00:39:18Z) - Training Articulatory Inversion Models for Interspeaker Consistency [34.667379055539236]
AAIは音声から調音への逆写像をモデル化しようとする。
AAIの最近の研究は、単一話者データセットに自己監視学習(SSL)モデルを適用することを提案した。
単一話者データと複数話者データに基づいて訓練されたSSL適応モデルが、英語とロシア語の話者識別に一貫性のある音声目標を生成するかどうかを検討する。
論文 参考訳(メタデータ) (2025-05-26T21:19:20Z) - Seeing Speech and Sound: Distinguishing and Locating Audios in Visual Scenes [16.530816405275715]
本稿では,音声と非音声の両方を同時に視覚的シーン内でグラウンド化できる統一モデルを提案する。
既存のアプローチは、通常、音声または非音声のどちらかを独立に、あるいはせいぜい一緒に扱うことに限定されるが、連続的に混合しない。
論文 参考訳(メタデータ) (2025-03-24T16:56:04Z) - MSA-ASR: Efficient Multilingual Speaker Attribution with frozen ASR Models [59.80042864360884]
話者分布自動音声認識(SA-ASR)は,対応する話者に文字を正確に割り当てながら音声を転写することを目的としている。
本稿では,凍結した多言語ASRモデルを用いて話者属性を転写に組み込む新しい手法を提案する。
論文 参考訳(メタデータ) (2024-11-27T09:01:08Z) - Speech collage: code-switched audio generation by collaging monolingual
corpora [50.356820349870986]
Speech Collage は音声セグメントをスプライシングすることでモノリンガルコーパスからCSデータを合成する手法である。
2つのシナリオにおける音声認識における生成データの影響について検討する。
論文 参考訳(メタデータ) (2023-09-27T14:17:53Z) - A Sidecar Separator Can Convert a Single-Speaker Speech Recognition
System to a Multi-Speaker One [40.16292149818563]
我々は,多話者シナリオのためのよく訓練されたASRモデルを実現するために,サイドカーセパレータを開発した。
提案手法は,2話者混合LibriMixデータセットにおいて,従来の最先端技術よりも大きなマージンを達成している。
論文 参考訳(メタデータ) (2023-02-20T11:09:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。