論文の概要: SpeakerLLM: A Speaker-Specialized Audio-LLM for Speaker Understanding and Verification Reasoning
- arxiv url: http://arxiv.org/abs/2605.15044v1
- Date: Thu, 14 May 2026 16:36:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-15 21:45:34.952788
- Title: SpeakerLLM: A Speaker-Specialized Audio-LLM for Speaker Understanding and Verification Reasoning
- Title(参考訳): SpeakerLLM:話者理解と検証のための話者特化オーディオLLM
- Authors: KiHyun Nam, Jungwoo Heo, Siu Bae, Ha-Jin Yu, Joon Son Chung,
- Abstract要約: SpeakerLLMは、単一発話話者プロファイリング、記録条件理解、発話対話者比較、自然なインタフェース内でのエビデンス-組織された検証推論を統一する話者特化オーディオ-LLMフレームワークである。
SpeakerLLMは、複数の粒度の話者証拠をキャプチャするために設計された階層型話者トークンライザを使用する。
- 参考スコア(独自算出の注目度): 39.96444209787657
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As audio-first agents become increasingly common in physical AI, conversational robots, and screenless wearables, audio large language models (audio-LLMs) must integrate speaker-specific understanding to support user authorization, personalization, and context-aware interaction. This requires modeling who is speaking, how the voice sounds, and how recording conditions affect speaker cues. Conventional speaker verification systems provide strong scalar scores but little linguistic evidence, while current audio-LLMs and speaker-aware language models have limited ability to organize speaker information beyond binary labels or descriptive profiles. We present SpeakerLLM, a speaker-specialized audio-LLM framework that unifies single-utterance speaker profiling, recording-condition understanding, utterance-pair speaker comparison, and evidence-organized verification reasoning within a natural-language interface. We construct verification-reasoning targets and a decision-composition policy that separate profile-level evidence from the final same-or-different decision and organize recording condition, profile evidence, and the decision into a structured trace. At its core, SpeakerLLM uses a hierarchical speaker tokenizer designed to capture multiple granularities of speaker evidence. Utterance-level speaker embeddings summarize identity and profile-level cues, whereas frame-level speaker features preserve fine-grained acoustic descriptors. Experiments show that SpeakerLLM-Base improves speaker-profile and recording-condition understanding over general audio-LLMs, while SpeakerLLM-VR preserves strong generated-verdict accuracy and produces decision traces grounded in the supervised verification reasoning schema. We will release the metadata-enriched supervision dataset and target-construction code for reproducibility.
- Abstract(参考訳): 音声ファーストエージェントは、物理AI、会話ロボット、スクリーンレスウェアラブルでますます一般的になっているため、オーディオ大言語モデル(オーディオ-LLM)は、ユーザ認証、パーソナライゼーション、コンテキスト認識インタラクションをサポートするために、話者固有の理解を統合する必要がある。
これは、誰が話すか、音声がどのように聞こえるか、録音条件が話者の手がかりに与える影響をモデル化する必要がある。
従来の話者検証システムは、強いスカラースコアを提供するが言語的な証拠は少ないが、現在のオーディオLLMや話者認識言語モデルは、バイナリラベルや記述プロファイルを超えて話者情報を整理する能力に制限がある。
本稿では、単一発話話者プロファイリング、記録条件理解、発話対話者比較、および自然言語インタフェース内でのエビデンス-組織的検証推論を統一する話者特化オーディオ-LLMフレームワークであるSpeakerLLMを提案する。
我々は、最終的な同一又は異なる決定からプロファイルレベルの証拠を分離し、記録条件、プロファイルエビデンス、および決定を構造化されたトレースに構成する検証推論ターゲットと決定構成ポリシーを構築した。
SpeakerLLMの中核となるのは、複数の話者証拠を捉えるために設計された階層型話者トークンーザである。
発話レベルの話者埋め込みは、アイデンティティとプロファイルレベルのキューを要約するが、フレームレベルの話者は、きめ細かい音響ディスクリプタを保持する。
実験の結果,SpeakerLLM-Baseは一般の音声-LLMに対する話者認識と記録条件の理解を改善し,SpeakerLLM-VRは強い生成予測精度を維持し,教師付き検証推論スキーマに基づく決定トレースを生成することがわかった。
メタデータに富んだ監視データセットと再現性のためのターゲット・コンストラクション・コードをリリースする。
関連論文リスト
- DELULU: Discriminative Embedding Learning Using Latent Units for Speaker-Aware Self-Supervised Speech Foundational Model [65.93900011975238]
DELULUは、話者を意識した、検証、ダイアリゼーション、プロファイリングのための基礎モデルである。
マスク付き予測と妄想を組み合わせ、堅牢性と一般化をさらに強化する2つの目的を用いて訓練される。
以上の結果から,DELULUは話者認識音声処理の強力なユニバーサルエンコーダであり,タスク固有の微調整がなくても優れた性能が得られることがわかった。
論文 参考訳(メタデータ) (2025-10-20T15:35:55Z) - CoLMbo: Speaker Language Model for Descriptive Profiling [56.57669166980832]
話者認識システムは、しばしば分類タスクに限られ、詳細な話者特性を生成するのに苦労する。
本稿では、話者エンコーダとプロンプトベースの条件付けを統合することで、これらの制約に対処する話者言語モデル(SLM)であるCoLMboを紹介する。
CoLMboはユーザ定義のプロンプトを利用して、新しい話者特性に動的に適応し、カスタマイズされた記述を提供する。
論文 参考訳(メタデータ) (2025-06-11T03:50:16Z) - ExPO: Explainable Phonetic Trait-Oriented Network for Speaker Verification [48.98768967435808]
我々は,音声が登録話者の同一性に一致するかどうかを検証するために,計算手法を用いる。
多くの成功にもかかわらず、我々はまだ説明可能な結果を提供する話者検証システムを開発していない。
本稿では, 話者の音声特性を紹介するために, 説明可能な音声トラヒック指向(ExPO)ネットワークを提案する。
論文 参考訳(メタデータ) (2025-01-10T05:53:37Z) - Residual Information in Deep Speaker Embedding Architectures [4.619541348328938]
本稿では,最新の高性能DNNアーキテクチャを用いて抽出した6組の話者埋め込みについて解析する。
データセットには46人の話者が同じプロンプトを発信し、プロのスタジオや自宅の環境に記録されている。
その結果、解析された埋め込みの識別力は非常に高いが、分析された全てのアーキテクチャにおいて、残余情報は依然として表現の中に存在することがわかった。
論文 参考訳(メタデータ) (2023-02-06T12:37:57Z) - Controllable speech synthesis by learning discrete phoneme-level
prosodic representations [53.926969174260705]
直感的な離散ラベルを用いたF0と持続時間に対する音素レベル韻律制御のための新しい手法を提案する。
複数話者音声データセットから音素レベルF0と持続時間の特徴を識別するために用いられる教師なし韻律クラスタリングプロセスを提案する。
論文 参考訳(メタデータ) (2022-11-29T15:43:36Z) - Content-Aware Speaker Embeddings for Speaker Diarisation [3.6398652091809987]
コンテンツ認識型話者埋め込み(CASE)アプローチを提案する。
ケースファクターは話者認識から自動音声認識(asr)を導き、話者特性のモデル化に焦点をあてる。
caseは従来の方法に比べて17.8%の相対的な話者誤り率削減を達成した。
論文 参考訳(メタデータ) (2021-02-12T12:02:03Z) - Joint Speaker Counting, Speech Recognition, and Speaker Identification
for Overlapped Speech of Any Number of Speakers [38.3469744871394]
エンドツーエンドの話者分散音声認識モデルを提案する。
重複した音声における話者カウント、音声認識、話者識別を統一する。
論文 参考訳(メタデータ) (2020-06-19T02:05:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。