Fugu-MT 論文翻訳(概要): FiLM-Based Speaker Conditioning of a SpeechLLM for Pathological Speech Recognition

論文の概要: FiLM-Based Speaker Conditioning of a SpeechLLM for Pathological Speech Recognition

arxiv url: http://arxiv.org/abs/2606.06211v1
Date: Thu, 04 Jun 2026 14:20:11 GMT
ステータス: 翻訳完了
システム内更新日: 2026-06-05 22:39:44.851268
Title: FiLM-Based Speaker Conditioning of a SpeechLLM for Pathological Speech Recognition
Title（参考訳）: 病的音声認識のための音声LLMのFLMに基づく話者条件付け
Authors: Fernando López, Santosh Kesiraju, Jordi Luque,
Abstract要約: 特徴量線形変調(FiLM)を用いた話者条件付けの検討基本モデルの重みを変更することなく、個々の病理話者に内部表現を適用する。その結果、話者条件付きASRは、確立された適応戦略と競合することが示された。
参考スコア（独自算出の注目度）: 43.42989171223751
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Automatic speech recognition (ASR) has advanced remarkably for standard speech; however, pathological speech from neurological conditions remains a significant challenge. We investigate speaker conditioning via Feature-wise Linear Modulation (FiLM), injecting x-vector-derived information into each transformer layer of a frozen ASR encoder to adapt internal representations to individual pathological speakers without modifying base model weights. We benchmark this for the ASR task against standard and parameter-efficient fine-tuning baselines, complemented by post-processing, on Spanish and English pathological speech. Additionally, we evaluate if the adapted model preserves the ability to answer speech-related questions. Results show that speaker-conditioned ASR is competitive with established adaptation strategies while retaining performance on non-conditioned speech.
Abstract（参考訳）: 音声認識 (ASR) は, 標準的な音声に対して顕著に進歩しているが, 神経疾患からの病理的発話は依然として重要な課題である。凍結型ASRエンコーダの各トランス層にxベクター由来の情報を注入し,基本モデル重みを変更せずに内部表現を個々の病的話者に適応させることにより,FiLMによる話者条件付けについて検討する。我々は,ASRタスクに対して,スペイン語および英語の病理的音声に対して,後処理によって補完される標準およびパラメータ効率の高い微調整ベースラインに対して,これをベンチマークする。さらに、適応モデルが音声関連質問に答える能力を保っているかどうかを評価する。その結果, 話者条件付きASRは, 非条件音声の性能を維持しつつ, 既存の適応戦略と競合することがわかった。

関連論文リスト

Prototype-Based Disentanglement for Controllable Dysarthric Speech Synthesis [2.411338616884766]
変形性音声は、高い変動性とラベル付きデータに制限がある。現在のアプローチは、合成データ拡張や音声再構成に依存している。本稿では,プロトタイプベースのディスアングルメント TTS フレームワーク ProtoDisent-TTS を提案する。
論文参考訳（メタデータ） (2026-02-09T14:14:51Z)
Variational Low-Rank Adaptation for Personalized Impaired Speech Recognition [8.838919369202525]
先天性障害による音声障害は,音声認識システムにおいて大きな課題となる。 Whisperのような最先端のASRモデルは、トレーニングデータの可用性の制限と高い音響可変性のために、まだ非ノルマ的音声に苦慮している。本研究では,データ効率のよい微調整のためのベイジアン低ランク適応に基づく新しいASRパーソナライズ手法を提案する。
論文参考訳（メタデータ） (2025-09-23T13:44:58Z)
Adapting Foundation Speech Recognition Models to Impaired Speech: A Semantic Re-chaining Approach for Personalization of German Speech [0.562479170374811]
脳性麻痺や遺伝性障害などの症状による音声障害は、自動音声認識システムに重大な課題をもたらす。本稿では,ASRモデルをパーソナライズする実用的で軽量なパイプラインを提案し,単語の選択を形式化し,セマンティック・コヒーレンスによる音声障害者データセットを充実させる。提案手法は,非典型的音声パターンを持つ個人に対するコミュニケーション障壁を低減する可能性を示した。
論文参考訳（メタデータ） (2025-06-23T15:30:50Z)
Unsupervised Rhythm and Voice Conversion of Dysarthric to Healthy Speech for ASR [18.701864254184308]
自己教師付き音声表現に基づくリズムと音声の変換手法を組み合わせることで、典型的な音声に変形をマッピングする。提案したリズム変換は, より重篤な変形症例を有するトーゴコーパスの話者のパフォーマンスを特に向上させることが判明した。
論文参考訳（メタデータ） (2025-01-17T15:39:21Z)
MSA-ASR: Efficient Multilingual Speaker Attribution with frozen ASR Models [59.80042864360884]
話者分布自動音声認識(SA-ASR)は,対応する話者に文字を正確に割り当てながら音声を転写することを目的としている。本稿では,凍結した多言語ASRモデルを用いて話者属性を転写に組み込む新しい手法を提案する。
論文参考訳（メタデータ） (2024-11-27T09:01:08Z)
UNIT-DSR: Dysarthric Speech Reconstruction System Using Speech Unit Normalization [60.43992089087448]
変形性音声再構成システムは、変形性音声を正常な音声に変換することを目的としている。本稿では,HuBERTのドメイン適応能力を活用して学習効率を向上させるユニットDSRシステムを提案する。 NEDアプローチと比較すると、ユニットDSRシステムは音声単位正規化器とユニットHiFi-GANボコーダのみで構成されている。
論文参考訳（メタデータ） (2024-01-26T06:08:47Z)
Prompt Tuning of Deep Neural Networks for Speaker-adaptive Visual Speech Recognition [66.94463981654216]
話者適応型視覚音声認識(VSR)のためのディープニューラルネットワーク(DNN)の即時チューニング手法を提案する。我々は、事前訓練されたモデルパラメータを変更する代わりに、ターゲット話者の適応データを微調整する。提案手法の有効性を単語レベルのVSRデータベースと文レベルのVSRデータベースで評価した。
論文参考訳（メタデータ） (2023-02-16T06:01:31Z)
Direction-Aware Joint Adaptation of Neural Speech Enhancement and Recognition in Real Multiparty Conversational Environments [21.493664174262737]
本稿では,現実の多人数会話環境における音声コミュニケーションを支援する拡張現実ヘッドセットの雑音音声認識について述べる。本研究では,高信頼な推定文字を用いたクリーン音声信号とノイズ音声信号を用いて,マスク推定器とASRモデルを実行時に共同で更新する半教師付き適応手法を提案する。
論文参考訳（メタデータ） (2022-07-15T03:43:35Z)
On-the-Fly Feature Based Rapid Speaker Adaptation for Dysarthric and Elderly Speech Recognition [53.17176024917725]
話者レベルのデータの共有化は、データ集約型モデルに基づく話者適応手法の実用的利用を制限する。本稿では,2種類のデータ効率,特徴量に基づくオンザフライ話者適応手法を提案する。
論文参考訳（メタデータ） (2022-03-28T09:12:24Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。