論文の概要: HyWA: Hypernetwork Weight Adapting Personalized Voice Activity Detection
- arxiv url: http://arxiv.org/abs/2510.12947v1
- Date: Tue, 14 Oct 2025 19:46:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-16 20:13:28.396921
- Title: HyWA: Hypernetwork Weight Adapting Personalized Voice Activity Detection
- Title(参考訳): HyWA:パーソナライズされた音声アクティビティ検出に対応するハイパーネットワークウェイト
- Authors: Mahsa Ghazvini Nejad, Hamed Jafarzadeh Asl, Amin Edraki, Mohammadreza Sadeghi, Masoud Asgharian, Yuanhao Yu, Vahid Partovi Nia,
- Abstract要約: 提案手法では,標準音声活動検出モデルにおいて,いくつかの選択されたレイヤの重みを変更するためにハイパーネットワークを利用する。
これにより、VADアーキテクチャを変更することなく、話者条件付けが可能になる。
PVADの性能は一貫した改善が見られた。
- 参考スコア(独自算出の注目度): 11.87055924485068
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Personalized Voice Activity Detection (PVAD) systems activate only in response to a specific target speaker by incorporating speaker embeddings from enrollment utterances. Unlike existing methods that require architectural changes, such as FiLM layers, our approach employs a hypernetwork to modify the weights of a few selected layers within a standard voice activity detection (VAD) model. This enables speaker conditioning without changing the VAD architecture, allowing the same VAD model to adapt to different speakers by updating only a small subset of the layers. We propose HyWA-PVAD, a hypernetwork weight adaptation method, and evaluate it against multiple baseline conditioning techniques. Our comparison shows consistent improvements in PVAD performance. HyWA also offers practical advantages for deployment by preserving the core VAD architecture. Our new approach improves the current conditioning techniques in two ways: i) increases the mean average precision, ii) simplifies deployment by reusing the same VAD architecture.
- Abstract(参考訳): 個人化音声活動検出(PVAD)システムは、登録発話からの話者埋め込みを組み込むことで、特定のターゲット話者に応答してのみ起動する。
従来のFiLM層のようなアーキテクチャ変更を必要とする手法とは違って,我々の手法では,標準的な音声活動検出(VAD)モデルにおいて,いくつかの選択されたレイヤの重みを変更するためにハイパーネットワークを採用している。
これにより、VADアーキテクチャを変更することなく、話者条件付けが可能になり、同じVADモデルが、レイヤの小さなサブセットだけを更新することで、異なる話者に適応することができる。
ハイパーネットワークの重み適応手法であるHyWA-PVADを提案する。
PVADの性能は一貫した改善が見られた。
HyWAはまた、コアVADアーキテクチャを保存することで、デプロイに実用的な利点を提供します。
私たちの新しいアプローチは、現在のコンディショニングテクニックを2つの方法で改善します。
一 平均的な精度を高めること。
二 同じVADアーキテクチャを再利用してデプロイメントを簡略化すること。
関連論文リスト
- High-Fidelity Speech Enhancement via Discrete Audio Tokens [35.61634772862795]
DAC-SE1は言語モデルに基づくSEフレームワークで、離散的な高解像度オーディオ表現を利用する。
実験の結果,DAC-SE1は客観的指標とMUSHRAによる人的評価の両方において,最先端の自己回帰SE法を超越していることがわかった。
論文 参考訳(メタデータ) (2025-10-02T16:38:05Z) - SSVD: Structured SVD for Parameter-Efficient Fine-Tuning and Benchmarking under Domain Shift in ASR [65.90944188787786]
ローランク適応(LoRA)は、音声アプリケーションで広く使われているが、VeRA、DoRA、PiSSA、SVFTといった最先端の変種は、主に言語や視覚タスクのために開発されており、音声による検証は限られている。
本研究は,これらのPEFTメソッドをESPnet内での総合的な統合とベンチマークを行う。
本研究では、0.1Bから2Bまでのモデルスケールで、幼児の発話や方言の変化を含むドメインシフト音声認識タスクに関するすべての手法を評価する。
論文 参考訳(メタデータ) (2025-09-02T20:51:17Z) - Dynamic Context-oriented Decomposition for Task-aware Low-rank Adaptation with Less Forgetting and Faster Convergence [131.41894248194995]
タスク認識方式でアダプタを初期化する新しい手法であるコンテキスト指向分解適応(CorDA)を提案する。
本手法は,タスク認識により,知識保存モード (KPM) と命令レビューモード (IPM) の2つのオプション適応モードを実現する。
論文 参考訳(メタデータ) (2025-06-16T07:55:14Z) - Prompt Tuning of Deep Neural Networks for Speaker-adaptive Visual Speech Recognition [66.94463981654216]
話者適応型視覚音声認識(VSR)のためのディープニューラルネットワーク(DNN)の即時チューニング手法を提案する。
我々は、事前訓練されたモデルパラメータを変更する代わりに、ターゲット話者の適応データを微調整する。
提案手法の有効性を単語レベルのVSRデータベースと文レベルのVSRデータベースで評価した。
論文 参考訳(メタデータ) (2023-02-16T06:01:31Z) - Dynamic Kernels and Channel Attention with Multi-Layer Embedding
Aggregation for Speaker Verification [28.833851817220616]
本稿では,畳み込みニューラルネットワークにおける注意に基づく動的カーネルを用いたモデル分解能の向上手法を提案する。
提案した動的畳み込みモデルはVoxCeleb1テストセットで1.62%のEERと0.18のミニDCFを達成し、ECAPA-TDNNと比較して17%改善した。
論文 参考訳(メタデータ) (2022-11-03T17:13:28Z) - Cross-domain Voice Activity Detection with Self-Supervised
Representations [9.02236667251654]
音声活動検出(Voice Activity Detection, VAD)は、音声信号の音声区間を検出することを目的とする。
現在の最先端の手法は、音響に直接含まれている特徴を活用するニューラルネットワークのトレーニングに重点を置いている。
自己監視学習(SSL)に基づく表現は,異なる領域に適応可能であることを示す。
論文 参考訳(メタデータ) (2022-09-22T14:53:44Z) - AdaStereo: An Efficient Domain-Adaptive Stereo Matching Approach [50.855679274530615]
本稿では,AdaStereoというドメイン適応型アプローチを提案する。
我々のモデルは、KITTI、Middlebury、ETH3D、DrivingStereoなど、複数のベンチマークで最先端のクロスドメイン性能を実現している。
提案手法は,様々なドメイン適応設定に対して堅牢であり,迅速な適応アプリケーションシナリオや実環境展開に容易に組み込むことができる。
論文 参考訳(メタデータ) (2021-12-09T15:10:47Z) - A Unified Deep Learning Framework for Short-Duration Speaker
Verification in Adverse Environments [16.91453126121351]
話者検証(SV)システムは、特に雑音や残響環境において、短い音声セグメントに対して堅牢であるべきである。
これら2つの要件を満たすため、機能ピラミッドモジュール(FPM)ベースのマルチスケールアグリゲーション(MSA)と自己適応型ソフトVAD(SAS-VAD)を導入する。
SV、VAD、SEモデルを統合されたディープラーニングフレームワークで組み合わせ、エンドツーエンドでネットワーク全体を共同でトレーニングします。
論文 参考訳(メタデータ) (2020-10-06T04:51:45Z) - Many-to-Many Voice Transformer Network [55.17770019619078]
本稿では,S2S学習フレームワークに基づく音声変換(VC)手法を提案する。
これにより、音声特性、ピッチ輪郭、入力音声の持続時間の同時変換が可能となる。
論文 参考訳(メタデータ) (2020-05-18T04:02:08Z) - Target-Speaker Voice Activity Detection: a Novel Approach for
Multi-Speaker Diarization in a Dinner Party Scenario [51.50631198081903]
本稿では,TS-VAD(Target-Speaker Voice Activity Detection)手法を提案する。
TS-VADは各時間フレーム上の各話者の活動を直接予測する。
CHiME-6での実験では、TS-VADが最先端の結果を得ることが示された。
論文 参考訳(メタデータ) (2020-05-14T21:24:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。