Fugu-MT 論文翻訳(概要): Speaker Verification with Speech-Aware LLMs: Evaluation and Augmentation

論文の概要: Speaker Verification with Speech-Aware LLMs: Evaluation and Augmentation

arxiv url: http://arxiv.org/abs/2603.10827v1
Date: Wed, 11 Mar 2026 14:34:25 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-12 16:22:32.999446
Title: Speaker Verification with Speech-Aware LLMs: Evaluation and Augmentation
Title（参考訳）: 音声認識LLMによる話者検証:評価と拡張
Authors: Thomas Thebaud, Yuzhe Wang, Laureano Moro-Velazquez, Jesus Villalba-Lopez, Najim Dehak,
Abstract要約: 音声対応の大規模言語モデル(LLM)は、音声入力を受け入れることができるが、その訓練目的は主に言語内容や感情や話者の性別といった特定の分野を強調している。本稿では,APIのみのモデルとオープンウェイトモデルの両方に対して,連続的な検証スコアを生成するモデルに依存しないスコアリングプロトコルを提案する。
参考スコア（独自算出の注目度）: 17.398708962032686
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Speech-aware large language models (LLMs) can accept speech inputs, yet their training objectives largely emphasize linguistic content or specific fields such as emotions or the speaker's gender, leaving it unclear whether they encode speaker identity. First, we propose a model-agnostic scoring protocol that produces continuous verification scores for both API-only and open-weight models, using confidence scores or log-likelihood ratios from the Yes/No token probabilities. Using this protocol, we benchmark recent speech-aware LLMs and observe weak speaker discrimination (EERs above 20% on VoxCeleb1). Second, we introduce a lightweight augmentation that equips an LLM with ASV capability by injecting frozen ECAPA-TDNN speaker embeddings through a learned projection and training only LoRA adapters. On TinyLLaMA-1.1B, the resulting ECAPA-LLM achieves 1.03% EER on VoxCeleb1-E, approaching a dedicated speaker verification system while preserving a natural-language interface.
Abstract（参考訳）: 音声認識型大規模言語モデル(LLM)は、音声入力を受け入れることができるが、その訓練目的は、言語内容や感情や話者の性別などの特定の分野に重点を置いており、話者のアイデンティティを符号化するかどうかは不明である。まず、信頼度スコアやYes/Noトークン確率の対数類似率を用いて、APIのみとオープンウェイトの両方のモデルに対して連続的な検証スコアを生成するモデル非依存のスコアリングプロトコルを提案する。このプロトコルを用いて、近年の音声認識LLMをベンチマークし、弱い話者識別(VoxCeleb1では20%以上のEER)を観察する。第2に、学習したプロジェクションを通して凍結ECAPA-TDNN話者埋め込みを注入し、LORAアダプタのみを訓練することにより、LSMにASV機能を持たせる軽量な拡張を導入する。 TinyLLaMA-1.1Bでは、ECAPA-LLMはVoxCeleb1-E上で1.03%のEERを達成する。

関連論文リスト

VoxEmo: Benchmarking Speech Emotion Recognition with Speech LLMs [54.75016325571445]
音声大言語モデル (LLM) は, 音声の感情認識において, 生成インタフェースを介する大きな可能性を示す。クローズドセットからオープンテキスト生成へのシフトは、ゼロショット性を導入し、プロンプトに非常に敏感な評価を与える。本稿では,VoxEmoについて紹介する。VoxEmoは音声LLMのための15言語に35の感情コーパスを含む総合的なSERベンチマークである。
論文参考訳（メタデータ） (2026-03-09T21:10:34Z)
What Makes a Good Speech Tokenizer for LLM-Centric Speech Generation? A Systematic Study [58.55905182336196]
音声言語モデル(SLM)は、音声とテキストの理解と生成を統一するための有望な経路を提供する。 LLM中心のSLMにおける音声トークン化設計の役割について検討し,音声ヘッドと話者モデルを用いて検討した。 SLMにマルチトークン予測(MTP)を導入し、各隠れ状態が複数の音声トークンを復号化できるようにする。
論文参考訳（メタデータ） (2025-06-14T15:26:31Z)
Speech Recognition With LLMs Adapted to Disordered Speech Using Reinforcement Learning [13.113505050543298]
本稿では,音声入力を処理可能な大規模言語モデルを提案する。人間の嗜好に基づく強化学習でさらに調整することで、従来の微調整よりも混乱した音声に適応できることが示される。
論文参考訳（メタデータ） (2024-12-25T00:16:22Z)
Large Language Models are Strong Audio-Visual Speech Recognition Learners [53.142635674428874]
マルチモーダル・大規模言語モデル(MLLM)は,近年,多モーダル理解能力の強化により,研究の焦点となっている。本稿では,Llama-AVSRを提案する。我々は,最大公的なAVSRベンチマークであるLSS3に対する提案手法を評価し,WERが0.79%,AVSRが0.77%であるASRとAVSRのタスクに対して,新しい最先端の結果が得られることを示した。
論文参考訳（メタデータ） (2024-09-18T21:17:27Z)
DiscreteSLU: A Large Language Model with Self-Supervised Discrete Speech Units for Spoken Language Understanding [51.32965203977845]
本稿では,連続的な音声エンコーダ出力の代わりに離散音声単位(DSU)を用いることを提案する。提案モデルでは, 未知領域からの音声入力に対する頑健な性能と, 音声質問応答における指示追従能力を示す。この結果から,ASRタスクとデータセットは,音声質問応答タスクの指導訓練に必須ではないことが示唆された。
論文参考訳（メタデータ） (2024-06-13T17:28:13Z)
AudioPaLM: A Large Language Model That Can Speak and Listen [79.44757696533709]
本稿では,音声理解・生成のための大規模言語モデルであるAudioPaLMを紹介する。 AudioPaLMはテキストベースの言語モデルと音声ベースの言語モデルを融合する。音声認識や音声音声翻訳などの応用により、テキストと音声を処理および生成することができる。
論文参考訳（メタデータ） (2023-06-22T14:37:54Z)
Incorporating L2 Phonemes Using Articulatory Features for Robust Speech Recognition [2.8360662552057323]
本研究は,韓国語音素を指すL2音素の効率的な組み込みについて,音声特徴分析を用いて検討した。格子のない最大相互情報(LF-MMI)の目的をエンドツーエンドに使い、音響モデルを訓練し、複数の発音候補のうちの1つを調整・予測する。実験結果から,提案手法は韓国語L2音声のASR精度をL1音声データのみに基づく訓練により向上させることが示された。
論文参考訳（メタデータ） (2023-06-05T01:55:33Z)
Spoken Question Answering and Speech Continuation Using Spectrogram-Powered LLM [19.36630667212398]
本稿では,事前学習された大規模言語モデル(LLM)を適応させて,音声質問応答(QA)と音声継続を行う新しいアプローチであるSpectronを提案する。我々のアプローチの鍵は、音声認識、テキスト継続、音声合成を共同で監督する訓練目標である。提案手法は話者保存とセマンティック・コヒーレンスにおいて既存の言語モデルを上回る。
論文参考訳（メタデータ） (2023-05-24T15:39:43Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。