論文の概要: AlphaFlowTSE: One-Step Generative Target Speaker Extraction via Conditional AlphaFlow
- arxiv url: http://arxiv.org/abs/2603.10701v1
- Date: Wed, 11 Mar 2026 12:14:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-12 16:22:32.938243
- Title: AlphaFlowTSE: One-Step Generative Target Speaker Extraction via Conditional AlphaFlow
- Title(参考訳): AlphaFlowTSE:条件付きアルファフローによる1ステップ生成ターゲット話者抽出
- Authors: Duojia Li, Shuhan Zhang, Zihan Qian, Wenxuan Wu, Shuai Wang, Qingyang Hong, Lin Li, Haizhou Li,
- Abstract要約: 本稿では,ヤコビアンベクター生成物 (JVP) を用いた一段階条件生成モデルを提案する。
Libri2MixとREAL-Tの実験から、AlphaFlowTSEは下流自動音声認識(ASR)のためのターゲット話者類似性と実混合性を改善することが確認された。
- 参考スコア(独自算出の注目度): 39.38826937846528
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In target speaker extraction (TSE), we aim to recover target speech from a multi-talker mixture using a short enrollment utterance as reference. Recent studies on diffusion and flow-matching generators have improved target-speech fidelity. However, multi-step sampling increases latency, and one-step solutions often rely on a mixture-dependent time coordinate that can be unreliable for real-world conversations. We present AlphaFlowTSE, a one-step conditional generative model trained with a Jacobian-vector product (JVP)-free AlphaFlow objective. AlphaFlowTSE learns mean-velocity transport along a mixture-to-target trajectory starting from the observed mixture, eliminating auxiliary mixing-ratio prediction, and stabilizes training by combining flow matching with an interval-consistency teacher-student target. Experiments on Libri2Mix and REAL-T confirm that AlphaFlowTSE improves target-speaker similarity and real-mixture generalization for downstream automatic speech recognition (ASR).
- Abstract(参考訳): ターゲット話者抽出 (TSE) では, 短時間の音声を基準として, 多話者混合からターゲット音声を復元することを目的としている。
拡散・流動整合発電機の最近の研究により, ターゲット音声の忠実度が向上した。
しかし、マルチステップサンプリングはレイテンシを増大させ、ワンステップソリューションは実世界の会話では信頼性の低い混合時間座標に依存することが多い。
ヤコビアンベクター生成物(JVP)を用いた一段階条件生成モデルであるAlphaFlowTSEを提案する。
AlphaFlowTSEは、観測混合物から始まる混合-ターゲット軌道に沿った平均-速度輸送を学習し、補助混合-比率予測を排除し、間隔整合教師-学生目標とのフローマッチングを組み合わせることでトレーニングを安定化する。
Libri2MixとREAL-Tの実験により、AlphaFlowTSEは、下流自動音声認識(ASR)のためのターゲット話者類似性と実混合一般化を改善することを確認した。
関連論文リスト
- Drax: Speech Recognition with Discrete Flow Matching [26.991421132974097]
拡散およびフローベース非自己回帰モデル(NAR)は、大規模言語モデリングにおいて強い将来性を示している。
自動音声認識(ASR)のための離散フローマッチングフレームワークDraxを提案する。
中間推定誤差に類似したトラジェクトリを通してモデルを誘導する音声条件付き確率パスを構築する。
論文 参考訳(メタデータ) (2025-10-05T11:38:01Z) - FlowTSE: Target Speaker Extraction with Flow Matching [16.054014378418316]
FlowTSEは、条件付きフローマッチングに基づく、シンプルだが効果的なTSEアプローチである。
位相再構成が重要であるタスクに対しては、混合信号の複雑なSTFTを条件とした新しいボコーダを提案する。
論文 参考訳(メタデータ) (2025-05-20T15:01:30Z) - Adversarial AutoMixup [50.1874436169571]
本稿では,AdAutomixupを提案する。
画像分類のための堅牢な分類器を訓練するために、挑戦的なサンプルを生成する。
本手法は, 様々な分類シナリオにおいて, 技術状況に優れる。
論文 参考訳(メタデータ) (2023-12-19T08:55:00Z) - Expeditious Saliency-guided Mix-up through Random Gradient Thresholding [89.59134648542042]
混合学習アプローチはディープニューラルネットワークの一般化能力向上に有効であることが証明されている。
本稿では,両経路の分岐点に位置する新しい手法を提案する。
我々はR-Mixという手法を「Random Mix-up」という概念にちなむ。
より良い意思決定プロトコルが存在するかどうかという問題に対処するために、我々は、ミックスアップポリシーを決定する強化学習エージェントを訓練する。
論文 参考訳(メタデータ) (2022-12-09T14:29:57Z) - SMILE: Self-Distilled MIxup for Efficient Transfer LEarning [42.59451803498095]
本研究では, SMILE-Self-Distilled Mixup for EffIcient Transfer LEarningを提案する。
混合画像を入力として、SMILEはCNN特徴抽出器の出力を正規化し、入力の混合特徴ベクトルから学習する。
トリプルレギュラライザーは、特徴空間とラベル空間の両方で混合効果のバランスをとりながら、前訓練タスクのサンプル間の線形性をバインドします。
論文 参考訳(メタデータ) (2021-03-25T16:02:21Z) - Temporal-Spatial Neural Filter: Direction Informed End-to-End
Multi-channel Target Speech Separation [66.46123655365113]
ターゲット音声分離とは、混合信号からターゲット話者の音声を抽出することを指す。
主な課題は、複雑な音響環境とリアルタイム処理の要件である。
複数話者混合から対象音声波形を直接推定する時間空間ニューラルフィルタを提案する。
論文 参考訳(メタデータ) (2020-01-02T11:12:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。