論文の概要: Rethinking Leveraging Pre-Trained Multi-Layer Representations for Speaker Verification
- arxiv url: http://arxiv.org/abs/2512.22148v1
- Date: Mon, 15 Dec 2025 07:39:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-04 08:45:17.073829
- Title: Rethinking Leveraging Pre-Trained Multi-Layer Representations for Speaker Verification
- Title(参考訳): 話者検証のための事前学習型複数階層表現の再検討
- Authors: Jin Sob Kim, Hyun Joon Park, Wooseok Shin, Sung Won Han,
- Abstract要約: 本稿では,話者検証のための事前学習音声モデルから層間表現を集約する新しい手法であるLayer Attentive Pooling(LAP)を提案する。
LAPは、複数の視点から各層の重要性を評価し、平均値ではなく最大値プーリングを用いる。
- 参考スコア(独自算出の注目度): 14.58145497173618
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent speaker verification studies have achieved notable success by leveraging layer-wise output from pre-trained Transformer models. However, few have explored the advancements in aggregating these multi-level features beyond the static weighted average. We present Layer Attentive Pooling (LAP), a novel strategy for aggregating inter-layer representations from pre-trained speech models for speaker verification. LAP assesses the significance of each layer from multiple perspectives time-dynamically, and employs max pooling instead of averaging. Additionally, we propose a lightweight backend speaker model comprising LAP and Attentive Statistical Temporal Pooling (ASTP) to extract speaker embeddings from pre-trained model output. Experiments on the VoxCeleb benchmark reveal that our compact architecture achieves state-of-the-art performance while greatly reducing the training time. We further analyzed LAP design and its dynamic weighting mechanism for capturing speaker characteristics.
- Abstract(参考訳): 最近の話者検証研究は、事前訓練されたトランスフォーマーモデルから層ワイズ出力を活用することで顕著な成功を収めている。
しかし、静的な重み付け平均を超えてこれらのマルチレベル特徴を集約する進歩を探求する者は少ない。
本稿では,話者検証のための事前学習音声モデルから層間表現を集約する新しい手法であるLayer Attentive Pooling(LAP)を提案する。
LAPは、複数の視点から各層の重要性を評価し、平均値ではなく最大値プーリングを用いる。
さらに,事前学習したモデルから話者埋め込みを抽出するために,LAPとASTPを組み合わせた軽量なバックエンド話者モデルを提案する。
VoxCelebベンチマークの実験から、我々のコンパクトアーキテクチャは最先端のパフォーマンスを実現し、トレーニング時間を大幅に短縮することが明らかとなった。
さらに,LAP設計とその動的重み付け機構について検討した。
関連論文リスト
- Language Ranker: A Lightweight Ranking framework for LLM Decoding [70.01564145836129]
本稿では,レコメンデーションパイプラインのランク付け段階に類似した復号過程を概念化する。
この知見に触発されて、我々はLanguage Rankerを提案する。
実験の結果、Language Rankerは大規模報酬モデルに匹敵するパフォーマンスを達成する一方で、0.5Mの追加パラメータしか必要としないことがわかった。
論文 参考訳(メタデータ) (2025-10-23T17:56:46Z) - Learning Robust Spatial Representations from Binaural Audio through Feature Distillation [64.36563387033921]
データラベルを必要とせずに音声の頑健な空間表現を学習するために,特徴蒸留に基づく事前学習ステージの利用について検討する。
実験により, 事前学習したモデルでは, 騒音および残響環境における性能が向上していることが示された。
論文 参考訳(メタデータ) (2025-08-28T15:43:15Z) - Lla-VAP: LSTM Ensemble of Llama and VAP for Turn-Taking Prediction [0.0]
本プロジェクトは,マルチモーダルアンサンブルアプローチを用いて,ターンテイク予測のための既存の戦略を拡張した。
我々は,スクリプト化されたシナリオと記述されていないシナリオの両方において,TRPを識別する精度と効率を改善することを目的としている。
論文 参考訳(メタデータ) (2024-12-24T00:20:38Z) - Universal Pooling Method of Multi-layer Features from Pretrained Models for Speaker Verification [7.005068872406135]
大規模事前学習ネットワークを活用した自動話者検証(ASV)研究の最近の進歩が達成されている。
ASVのための事前学習モデルの多層特性を利用するための新しい手法を提案する。
提案した層間処理が,事前学習モデルを利用する利点の最大化にどのように役立つかを示す。
論文 参考訳(メタデータ) (2024-09-12T05:55:32Z) - Cross-modal Prompts: Adapting Large Pre-trained Models for Audio-Visual
Downstream Tasks [55.36987468073152]
本稿では,DG-SCT(Dual-Guided Space-Channel-Temporal)アテンション機構を提案する。
DG-SCTモジュールはトレーニング可能なクロスモーダル・インタラクション・レイヤを事前トレーニングされたオーディオ・ビジュアル・エンコーダに組み込む。
提案手法は, AVE, AVVP, AVS, AVQA, AVQAを含む複数のダウンストリームタスクにまたがる最先端の処理結果を実現する。
論文 参考訳(メタデータ) (2023-11-09T05:24:20Z) - DASA: Difficulty-Aware Semantic Augmentation for Speaker Verification [55.306583814017046]
本稿では,話者認証のための難易度認識型セマンティック拡張(DASA)手法を提案する。
DASAは、話者埋め込み空間における多様なトレーニングサンプルを、無視できる余分な計算コストで生成する。
最も良い結果は、CN-Celeb評価セット上でのEER測定値の14.6%の相対的な減少を達成する。
論文 参考訳(メタデータ) (2023-10-18T17:07:05Z) - Online Continual Learning in Keyword Spotting for Low-Resource Devices
via Pooling High-Order Temporal Statistics [22.129910930772]
キーワード スポッティング(KWS)モデルは、新しいユーザ定義の単語に、以前の単語を忘れずに迅速に適応すべきである。
我々は,凍結したバックボーンを持つKWSモデルを用いて,非反復的なサンプルストリームから新たな単語を段階的に認識する組込みオンライン連続学習(EOCL)のセットアップを検討する。
本稿では,事前学習したバックボーンから抽出した音声特徴の高次モーメントを高次に計算する高次特徴空間を構築するためのTAP(Temporal Aware Pooling)を提案する。
論文 参考訳(メタデータ) (2023-07-24T10:04:27Z) - Comparative layer-wise analysis of self-supervised speech models [29.258085176788097]
標準相関解析(CCA)に基づく軽量解析ツールを用いて、各層に符号化された音響・音声・単語レベルの特性を測定する。
これらの特性は、モデルによって異なる層間で進化し、その変動は事前学習対象の選択に関係している。
CCAのトレンドは、下流タスクの関心層を選択するための信頼性の高いガイダンスを提供し、シングルレイヤのパフォーマンスがすべてのレイヤで一致または改善されることに気付き、事前学習されたモデルをより効率的に使用するための意味を示唆している。
論文 参考訳(メタデータ) (2022-11-08T00:59:05Z) - Self-supervised models of audio effectively explain human cortical
responses to speech [71.57870452667369]
我々は、自己教師型音声表現学習の進歩に乗じて、人間の聴覚システムの最先端モデルを作成する。
これらの結果から,ヒト大脳皮質における音声処理の異なる段階に関連する情報の階層構造を,自己教師型モデルで効果的に把握できることが示唆された。
論文 参考訳(メタデータ) (2022-05-27T22:04:02Z) - Target-Speaker Voice Activity Detection: a Novel Approach for
Multi-Speaker Diarization in a Dinner Party Scenario [51.50631198081903]
本稿では,TS-VAD(Target-Speaker Voice Activity Detection)手法を提案する。
TS-VADは各時間フレーム上の各話者の活動を直接予測する。
CHiME-6での実験では、TS-VADが最先端の結果を得ることが示された。
論文 参考訳(メタデータ) (2020-05-14T21:24:56Z) - Improving Multi-Scale Aggregation Using Feature Pyramid Module for
Robust Speaker Verification of Variable-Duration Utterances [15.887661651035712]
トップダウン経路と横方向接続を介して複数の層から特徴の話者識別情報を強化するモジュールを提案する。
短い発話と長い発話の両方において、最先端のアプローチよりも優れたパフォーマンスを実現する。
論文 参考訳(メタデータ) (2020-04-07T08:35:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。