論文の概要: DAME: Duration-Aware Matryoshka Embedding for Duration-Robust Speaker Verification
- arxiv url: http://arxiv.org/abs/2601.13999v1
- Date: Tue, 20 Jan 2026 14:20:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:23.346067
- Title: DAME: Duration-Aware Matryoshka Embedding for Duration-Robust Speaker Verification
- Title(参考訳): DAME: 耐久性を意識したMateryoshka組込みによる話者検証
- Authors: Youngmoon Jung, Joon-Young Yang, Ju-ho Kim, Jaeyoung Roh, Chang Woo Han, Hoon-Young Cho,
- Abstract要約: 短い音声区間における話者識別的手がかりが限られているため、短時間話者検証は依然として困難である。
Duration-Aware Matryoshka Embedding (DAME) を提案する。
DAMEはスクラッチとファインチューニングの両方のトレーニングをサポートし、従来の大型マージンファインチューニングの直接的な代替として機能する。
- 参考スコア(独自算出の注目度): 24.474179536226362
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Short-utterance speaker verification remains challenging due to limited speaker-discriminative cues in short speech segments. While existing methods focus on enhancing speaker encoders, the embedding learning strategy still forces a single fixed-dimensional representation reused for utterances of any length, leaving capacity misaligned with the information available at different durations. We propose Duration-Aware Matryoshka Embedding (DAME), a model-agnostic framework that builds a nested hierarchy of sub-embeddings aligned to utterance durations: lower-dimensional representations capture compact speaker traits from short utterances, while higher dimensions encode richer details from longer speech. DAME supports both training from scratch and fine-tuning, and serves as a direct alternative to conventional large-margin fine-tuning, consistently improving performance across durations. On the VoxCeleb1-O/E/H and VOiCES evaluation sets, DAME consistently reduces the equal error rate on 1-s and other short-duration trials, while maintaining full-length performance with no additional inference cost. These gains generalize across various speaker encoder architectures under both general training and fine-tuning setups.
- Abstract(参考訳): 短い音声区間における話者識別的手がかりが限られているため、短時間話者検証は依然として困難である。
既存の手法では、話者エンコーダの強化に重点を置いているが、埋め込み学習戦略では、任意の長さの発話のために再利用された1つの固定次元表現を、異なる期間で利用可能な情報と不一致で残している。
DAME(Duration-Aware Matryoshka Embedding)は、低次元表現は短い発話からコンパクトな話者特性をキャプチャし、高次元はより長い発話からよりリッチな詳細をエンコードする。
DAMEは、スクラッチとファインチューニングの両方のトレーニングをサポートし、従来の大型のファインチューニングの直接的な代替として機能し、持続時間にわたってパフォーマンスを継続的に改善している。
VoxCeleb1-O/E/H と VOiCES の評価セットでは、DAME は1-s や他の短い試行で同等のエラー率を一貫して低減し、追加の推論コストなしでフル長の性能を維持している。
これらのゲインは、一般的なトレーニングと微調整の両方のセットアップの下で、様々な話者エンコーダアーキテクチャにまたがって一般化される。
関連論文リスト
- TagSpeech: End-to-End Multi-Speaker ASR and Diarization with Fine-Grained Temporal Grounding [15.908533215017059]
本稿では,テンポラルアンカーグラウンドを用いた統合フレームワークTagSpeechについて述べる。
本フレームワークは,(1)SOT(Serialized Output Training)を用いて微調整されたセマンティックストリームと話者ストリームを分離してターンテイクダイナミクスを学習し,(2)セマンティック理解と話者追跡の同期信号として機能するインターリーブ時間アンカー機構である。
論文 参考訳(メタデータ) (2026-01-11T12:40:07Z) - Training-free Context-adaptive Attention for Efficient Long Context Modeling [57.703159205740185]
トレーニングフリーコンテキスト適応注意(TCA-Attention)は、学習不要なスパースアテンション機構であり、効率的な長文推論のための情報トークンのみに選択的に参画する。
TCA-Attentionは2.8$times$のスピードアップを実現し、128Kのコンテキスト長でKVキャッシュを61%削減し、フルアテンションに匹敵するパフォーマンスを維持している。
論文 参考訳(メタデータ) (2025-12-10T01:54:57Z) - DELULU: Discriminative Embedding Learning Using Latent Units for Speaker-Aware Self-Supervised Speech Foundational Model [65.93900011975238]
DELULUは、話者を意識した、検証、ダイアリゼーション、プロファイリングのための基礎モデルである。
マスク付き予測と妄想を組み合わせ、堅牢性と一般化をさらに強化する2つの目的を用いて訓練される。
以上の結果から,DELULUは話者認識音声処理の強力なユニバーサルエンコーダであり,タスク固有の微調整がなくても優れた性能が得られることがわかった。
論文 参考訳(メタデータ) (2025-10-20T15:35:55Z) - Towards Low-Latency Tracking of Multiple Speakers With Short-Context Speaker Embeddings [52.985061676464554]
短文脈話者埋め込み抽出のための知識蒸留に基づく学習手法を提案する。
我々は、ビームフォーミングを用いて興味ある話者の空間情報を活用し、重複を低減する。
以上の結果から,本モデルは短文埋め込み抽出に有効であり,重なりやすいことが示唆された。
論文 参考訳(メタデータ) (2025-08-18T11:32:13Z) - READ: Real-time and Efficient Asynchronous Diffusion for Audio-driven Talking Head Generation [55.58089937219475]
本稿では,最初のリアルタイム拡散変換器を用いた音声ヘッド生成フレームワークREADを提案する。
提案手法はまず,VAEを用いて高度に圧縮されたビデオ潜時空間を学習し,音声生成におけるトークン数を大幅に削減する。
また,READは,実行時間を大幅に短縮した競合する音声ヘッドビデオを生成することにより,最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2025-08-05T13:57:03Z) - TIME: Temporal-Sensitive Multi-Dimensional Instruction Tuning and Robust Benchmarking for Video-LLMs [56.92627816895305]
ビデオ大言語モデルは、ビデオ質問応答のようなタスクにおいて顕著なパフォーマンスを達成した。
我々のデータセットは5つの重要な次元にわたる時間的理解の向上に焦点を当てている。
本稿では,時間に敏感なタスクを既存の命令データセットにシームレスに統合するマルチタスクプロンプト微調整手法を提案する。
論文 参考訳(メタデータ) (2025-03-13T03:05:11Z) - Universal speaker recognition encoders for different speech segments
duration [7.104489204959814]
プールされた短い音声セグメントと長い音声セグメントを同時に訓練するシステムでは、最適な検証結果が得られない。
我々は,任意のタイプのニューラルネットワークアーキテクチャに対して,ユニバーサル話者エンコーダを訓練するための簡単なレシピについて述べる。
論文 参考訳(メタデータ) (2022-10-28T16:06:00Z) - Segment Aggregation for short utterances speaker verification using raw
waveforms [47.41124427552161]
本稿では,短い発話に対する話者検証の性能劣化を補う手法を提案する。
提案手法はアンサンブルに基づく設計を採用し,話者検証システムの安定性と精度を向上させる。
論文 参考訳(メタデータ) (2020-05-07T08:57:22Z) - Meta-Learning for Short Utterance Speaker Recognition with Imbalance
Length Pairs [65.28795726837386]
不均衡長ペアのためのメタラーニングフレームワークを提案する。
長い発話のサポートセットと様々な長さの短い発話のクエリセットでトレーニングする。
これら2つの学習スキームを組み合わせることで、既存の最先端話者検証モデルよりも優れた性能が得られる。
論文 参考訳(メタデータ) (2020-04-06T17:53:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。