論文の概要: Multiple Choice Learning for Efficient Speech Separation with Many Speakers
- arxiv url: http://arxiv.org/abs/2411.18497v1
- Date: Wed, 27 Nov 2024 16:38:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-28 15:27:45.329817
- Title: Multiple Choice Learning for Efficient Speech Separation with Many Speakers
- Title(参考訳): 多話者による効率的な音声分離のための複数選択学習
- Authors: David Perera, François Derrida, Théo Mariotte, Gaël Richard, Slim Essid,
- Abstract要約: 教師付き設定における音声分離モデルの訓練は、置換問題を提起する。
我々は、もともとあいまいなタスクに取り組むために導入されたMultiple Choice Learningフレームワークについて検討する。
- 参考スコア(独自算出の注目度): 14.259149632246555
- License:
- Abstract: Training speech separation models in the supervised setting raises a permutation problem: finding the best assignation between the model predictions and the ground truth separated signals. This inherently ambiguous task is customarily solved using Permutation Invariant Training (PIT). In this article, we instead consider using the Multiple Choice Learning (MCL) framework, which was originally introduced to tackle ambiguous tasks. We demonstrate experimentally on the popular WSJ0-mix and LibriMix benchmarks that MCL matches the performances of PIT, while being computationally advantageous. This opens the door to a promising research direction, as MCL can be naturally extended to handle a variable number of speakers, or to tackle speech separation in the unsupervised setting.
- Abstract(参考訳): 教師付き設定における音声分離モデルの訓練は、モデル予測と基底真理分離信号の最適な割り当てを見つけるという、置換問題を引き起こす。
本質的にあいまいなタスクは、Permutation Invariant Training (PIT)を使用して、慣習的に解決される。
本稿では,あいまいなタスクに対処するために最初に導入されたMCL(Multiple Choice Learning)フレームワークについて検討する。
MCLがPITの性能に匹敵し,計算的に有利である,人気の高いWSJ0-mixとLibriMixベンチマークを実験的に実証した。
これにより、MCLは様々な話者を扱うために自然に拡張したり、教師なしの設定で音声分離に取り組むことができるため、有望な研究方向への扉を開くことができる。
関連論文リスト
- UCB-driven Utility Function Search for Multi-objective Reinforcement Learning [75.11267478778295]
マルチオブジェクト強化学習(MORL)エージェントでは、意思決定行動の最適化を行う。
重みベクトル w でパラメータ化される線型効用関数の場合に焦点を当てる。
学習過程の異なる段階で最も有望な重みベクトルを効率的に探索する上信頼境界に基づく手法を提案する。
論文 参考訳(メタデータ) (2024-05-01T09:34:42Z) - Relative Preference Optimization: Enhancing LLM Alignment through Contrasting Responses across Identical and Diverse Prompts [95.09994361995389]
Relative Preference Optimization (RPO) は、同一のプロンプトと関連するプロンプトの両方から、より多く、あまり好まれない応答を識別するように設計されている。
RPOは、大きな言語モデルをユーザの好みに合わせて調整し、トレーニングプロセスにおける適応性を改善する優れた能力を示している。
論文 参考訳(メタデータ) (2024-02-12T22:47:57Z) - Resilient Multiple Choice Learning: A learned scoring scheme with
application to audio scene analysis [8.896068269039452]
回帰設定における条件分布推定のための弾力性多重選択学習(rMCL)を提案する。
rMCLは、一連の仮説に対してWinner-Takes-All(WTA)損失を用いて、マルチモーダル密度推定に取り組むための単純なフレームワークである。
論文 参考訳(メタデータ) (2023-11-02T07:54:03Z) - Enhancing Chain-of-Thoughts Prompting with Iterative Bootstrapping in Large Language Models [81.01397924280612]
大規模言語モデル (LLM) は、ステップ・バイ・ステップ・チェーン・オブ・シークレット (CoT) をデモンストレーションとして組み込むことで、様々な推論タスクにおいて高い効果的な性能を達成することができる。
本稿では,イターCoT (Iterative bootstrapping in Chain-of-Thoughts Prompting) を導入する。
論文 参考訳(メタデータ) (2023-04-23T13:54:39Z) - KECP: Knowledge Enhanced Contrastive Prompting for Few-shot Extractive
Question Answering [28.18555591429343]
我々はKECP(Knowledge Enhanced Contrastive Prompt-tuning)という新しいフレームワークを提案する。
PLMにポインタヘッドを追加する代わりに、タスクを非自己回帰型マスケッド言語モデリング(MLM)生成問題に変換する。
提案手法は,数ショット設定における最先端のアプローチを大きなマージンで一貫して上回っている。
論文 参考訳(メタデータ) (2022-05-06T08:31:02Z) - Single-channel speech separation using Soft-minimum Permutation
Invariant Training [60.99112031408449]
教師付き音声分離における長寿命問題は、それぞれの分離された音声信号の正しいラベルを見つけることである。
Permutation Invariant Training (PIT) はラベルあいまいさ問題に対処する上で有望な解決策であることが示されている。
そこで本研究では,PITの不効率に対処する確率的最適化フレームワークを提案する。
論文 参考訳(メタデータ) (2021-11-16T17:25:05Z) - Many-Speakers Single Channel Speech Separation with Optimal Permutation
Training [91.22679787578438]
我々は、$O(C3)$時間の複雑さで訓練するためにハンガリーのアルゴリズムを使用する置換不変トレーニングを提示します。
私たちのアプローチは、最大$ 20$スピーカーを分離し、大きな$ C$の以前の結果を幅広いマージンで改善します。
論文 参考訳(メタデータ) (2021-04-18T20:56:12Z) - Guided Training: A Simple Method for Single-channel Speaker Separation [40.34570426165019]
本稿では,話者分離における置換問題を解決するため,長期記憶モデル(LSTM)を訓練する戦略を提案する。
シーケンスモデリングの強力な能力のため、LSTMはそのメモリセルを使用して、ターゲット音声と干渉音声の追跡と分離を行うことができる。
論文 参考訳(メタデータ) (2021-03-26T08:46:50Z) - On permutation invariant training for speech source separation [20.82852423999727]
話者独立音源分離モデルにおける置換あいまいさ問題を対象とした置換不変訓練(PIT)について検討する。
まず,STFT領域に対して提案されたフレームレベルPIT(tPIT)とクラスタリングに基づく2段階話者分離追跡アルゴリズムについて検討する。
第2に、発話レベルPIT(uPIT)による局所的な置換誤差を低減するため、最近提案された「プロブレム非依存音声特徴」に基づく深い特徴損失を伴う補助話者ID損失を拡張した。
論文 参考訳(メタデータ) (2021-02-09T16:57:32Z) - Stabilizing Label Assignment for Speech Separation by Self-supervised
Pre-training [58.30339239234169]
本稿では,音声分離モデルの訓練において,ラベル割り当てを安定させるために,自己教師付き事前学習を行うことを提案する。
複数のタイプの自己教師的アプローチ、いくつかの典型的な音声分離モデル、2つの異なるデータセットに対する実験により、適切な自己教師的アプローチが選択された場合、非常に優れた改善が達成可能であることが示された。
論文 参考訳(メタデータ) (2020-10-29T06:07:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。