論文の概要: CoLMbo: Speaker Language Model for Descriptive Profiling
- arxiv url: http://arxiv.org/abs/2506.09375v1
- Date: Wed, 11 Jun 2025 03:50:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 06:35:02.336579
- Title: CoLMbo: Speaker Language Model for Descriptive Profiling
- Title(参考訳): CoLMbo: 記述型プロファイリングのための話者言語モデル
- Authors: Massa Baali, Shuo Han, Syed Abdul Hannan, Purusottam Samal, Karanveer Singh, Soham Deshmukh, Rita Singh, Bhiksha Raj,
- Abstract要約: 話者認識システムは、しばしば分類タスクに限られ、詳細な話者特性を生成するのに苦労する。
本稿では、話者エンコーダとプロンプトベースの条件付けを統合することで、これらの制約に対処する話者言語モデル(SLM)であるCoLMboを紹介する。
CoLMboはユーザ定義のプロンプトを利用して、新しい話者特性に動的に適応し、カスタマイズされた記述を提供する。
- 参考スコア(独自算出の注目度): 26.12072633724134
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Speaker recognition systems are often limited to classification tasks and struggle to generate detailed speaker characteristics or provide context-rich descriptions. These models primarily extract embeddings for speaker identification but fail to capture demographic attributes such as dialect, gender, and age in a structured manner. This paper introduces CoLMbo, a Speaker Language Model (SLM) that addresses these limitations by integrating a speaker encoder with prompt-based conditioning. This allows for the creation of detailed captions based on speaker embeddings. CoLMbo utilizes user-defined prompts to adapt dynamically to new speaker characteristics and provides customized descriptions, including regional dialect variations and age-related traits. This innovative approach not only enhances traditional speaker profiling but also excels in zero-shot scenarios across diverse datasets, marking a significant advancement in the field of speaker recognition.
- Abstract(参考訳): 話者認識システムは、しばしば分類タスクに限られ、詳細な話者特性の生成や文脈に富んだ記述の提供に苦慮する。
これらのモデルは、主に話者識別のための埋め込みを抽出するが、方言、性別、年齢などの人口特性を構造化された方法で捉えることができない。
本稿では、話者エンコーダとプロンプトベースの条件付けを統合することで、これらの制約に対処する話者言語モデル(SLM)であるCoLMboを紹介する。
これにより、話者埋め込みに基づいた詳細なキャプションの作成が可能になる。
CoLMboは、ユーザ定義のプロンプトを使用して、新しい話者特性に動的に適応し、地域方言のバリエーションや年齢に関連する特徴を含むカスタマイズされた記述を提供する。
この革新的なアプローチは、従来の話者プロファイリングを強化するだけでなく、多様なデータセットをまたいだゼロショットシナリオにも優れている。
関連論文リスト
- MSA-ASR: Efficient Multilingual Speaker Attribution with frozen ASR Models [59.80042864360884]
話者分布自動音声認識(SA-ASR)は,対応する話者に文字を正確に割り当てながら音声を転写することを目的としている。
本稿では,凍結した多言語ASRモデルを用いて話者属性を転写に組み込む新しい手法を提案する。
論文 参考訳(メタデータ) (2024-11-27T09:01:08Z) - Identifying Speakers in Dialogue Transcripts: A Text-based Approach Using Pretrained Language Models [83.7506131809624]
本稿では,デジタルメディアアーカイブにおけるコンテンツアクセシビリティと検索可能性を高める重要な課題である,対話テキスト中の話者名を識別する手法を提案する。
本稿では,メディアサムコーパスから派生した大規模データセットについて述べる。
本稿では,話者名を正確に属性付けるために,対話中の文脈的手がかりを活用する,話者IDに適したトランスフォーマーモデルを提案する。
論文 参考訳(メタデータ) (2024-07-16T18:03:58Z) - We Need Variations in Speech Generation: Sub-center Modelling for Speaker Embeddings [47.2515056854372]
本稿では,学習中に話者単位の複数のサブセンタを利用する新しい話者埋め込みネットワークを提案する。
このサブセンターモデリングにより、埋め込みは話者分類性能を維持しながら、幅広い話者固有のバリエーションを捉えることができる。
論文 参考訳(メタデータ) (2024-07-05T06:54:24Z) - Improving Speaker Diarization using Semantic Information: Joint Pairwise
Constraints Propagation [53.01238689626378]
本稿では,話者ダイアリゼーションシステムにおける意味情報を活用する新しい手法を提案する。
音声言語理解モジュールを導入し、話者関連意味情報を抽出する。
本稿では,これらの制約を話者ダイアリゼーションパイプラインに統合する新しい枠組みを提案する。
論文 参考訳(メタデータ) (2023-09-19T09:13:30Z) - PromptTTS++: Controlling Speaker Identity in Prompt-Based Text-to-Speech
Using Natural Language Descriptions [21.15647416266187]
本稿では,自然言語記述を用いた話者識別制御が可能な音声合成システムPromptTTS++を提案する。
本稿では,話し方とほぼ独立に設計された音声特性を記述した話者プロンプトの概念を紹介する。
主観評価の結果,提案手法は話者プロンプトを使わずに話者特性を制御できることがわかった。
論文 参考訳(メタデータ) (2023-09-15T04:11:37Z) - Self supervised learning for robust voice cloning [3.7989740031754806]
自己教師型フレームワークで学習した特徴を用いて,高品質な音声表現を生成する。
学習した特徴は、事前訓練された発話レベルの埋め込みや、非減衰タコトロンアーキテクチャへの入力として使用される。
この手法により、ラベルなしマルチスピーカデータセットでモデルをトレーニングし、未知の話者埋め込みを用いて話者の声を模倣することができる。
論文 参考訳(メタデータ) (2022-04-07T13:05:24Z) - Content-Aware Speaker Embeddings for Speaker Diarisation [3.6398652091809987]
コンテンツ認識型話者埋め込み(CASE)アプローチを提案する。
ケースファクターは話者認識から自動音声認識(asr)を導き、話者特性のモデル化に焦点をあてる。
caseは従来の方法に比べて17.8%の相対的な話者誤り率削減を達成した。
論文 参考訳(メタデータ) (2021-02-12T12:02:03Z) - Joint Speaker Counting, Speech Recognition, and Speaker Identification
for Overlapped Speech of Any Number of Speakers [38.3469744871394]
エンドツーエンドの話者分散音声認識モデルを提案する。
重複した音声における話者カウント、音声認識、話者識別を統一する。
論文 参考訳(メタデータ) (2020-06-19T02:05:18Z) - Speaker Diarization with Lexical Information [59.983797884955]
本研究では,音声認識による語彙情報を活用した話者ダイアリゼーション手法を提案する。
本稿では,話者クラスタリングプロセスに単語レベルの話者回転確率を組み込んだ話者ダイアリゼーションシステムを提案し,全体的なダイアリゼーション精度を向上させる。
論文 参考訳(メタデータ) (2020-04-13T17:16:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。