論文の概要: Stabilizing Label Assignment for Speech Separation by Self-supervised
Pre-training
- arxiv url: http://arxiv.org/abs/2010.15366v3
- Date: Sun, 22 Aug 2021 06:26:39 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-01 23:27:51.385379
- Title: Stabilizing Label Assignment for Speech Separation by Self-supervised
Pre-training
- Title(参考訳): 自己教師付き事前学習による音声分離のためのラベル割り当ての安定化
- Authors: Sung-Feng Huang, Shun-Po Chuang, Da-Rong Liu, Yi-Chen Chen, Gene-Ping
Yang, Hung-yi Lee
- Abstract要約: 本稿では,音声分離モデルの訓練において,ラベル割り当てを安定させるために,自己教師付き事前学習を行うことを提案する。
複数のタイプの自己教師的アプローチ、いくつかの典型的な音声分離モデル、2つの異なるデータセットに対する実験により、適切な自己教師的アプローチが選択された場合、非常に優れた改善が達成可能であることが示された。
- 参考スコア(独自算出の注目度): 58.30339239234169
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Speech separation has been well developed, with the very successful
permutation invariant training (PIT) approach, although the frequent label
assignment switching happening during PIT training remains to be a problem when
better convergence speed and achievable performance are desired. In this paper,
we propose to perform self-supervised pre-training to stabilize the label
assignment in training the speech separation model. Experiments over several
types of self-supervised approaches, several typical speech separation models
and two different datasets showed that very good improvements are achievable if
a proper self-supervised approach is chosen.
- Abstract(参考訳): 音声の分離は,pit(permutation invariant training)アプローチが非常に成功したが,ピットトレーニング中に発生するラベル割り当ての切り替えは,収束速度の向上と実現可能な性能が望まれる場合には問題となっている。
本稿では,音声分離モデルの学習においてラベル割り当てを安定させるために,自己教師付き事前学習を行うことを提案する。
複数のタイプの自己教師的アプローチ、いくつかの典型的な音声分離モデル、2つの異なるデータセットに対する実験により、適切な自己教師的アプローチを選択すると、非常に優れた改善が達成可能であることが示された。
関連論文リスト
- Bridging the Training-Inference Gap in LLMs by Leveraging Self-Generated Tokens [45.745443096804586]
言語モデルは、トレーニングデータセットで過去のトークンが与えられた次のトークンの可能性を最大化するためにしばしば訓練される。
推論時間の間は、前述したトークンを入力として次のトークンを予測することによって、テキストを逐次かつ自動回帰的に生成する。
本稿では、モデル自己生成に基づく2つの簡単なアプローチを提案し、この訓練時間と推論時間との相違に対処する。
論文 参考訳(メタデータ) (2024-10-18T17:48:27Z) - Rethinking Self-training for Semi-supervised Landmark Detection: A Selection-free Approach [4.511384690621755]
Self-Training for Landmark Detection (STLD) は、明示的な擬似ラベル選択を必要としない手法である。
STLDは、確認バイアスに対処するタスクカリキュラムを構築する。
3つの顔と1つの医学的ランドマーク検出ベンチマークの実験は、STLDが既存の方法より優れていることを示している。
論文 参考訳(メタデータ) (2024-04-06T08:45:07Z) - Rethinking Classifier Re-Training in Long-Tailed Recognition: A Simple
Logits Retargeting Approach [102.0769560460338]
我々は,クラスごとのサンプル数に関する事前知識を必要とせず,シンプルなロジットアプローチ(LORT)を開発した。
提案手法は,CIFAR100-LT, ImageNet-LT, iNaturalist 2018など,様々な不均衡データセットの最先端性能を実現する。
論文 参考訳(メタデータ) (2024-03-01T03:27:08Z) - Uncertainty-aware Sampling for Long-tailed Semi-supervised Learning [89.98353600316285]
擬似ラベルサンプリングのモデル化プロセスに不確実性を導入し、各クラスにおけるモデル性能が異なる訓練段階によって異なることを考慮した。
このアプローチにより、モデルは異なる訓練段階における擬似ラベルの不確かさを認識でき、それによって異なるクラスの選択閾値を適応的に調整できる。
FixMatchのような他の手法と比較して、UDTSは自然シーン画像データセットの精度を少なくとも5.26%、1.75%、9.96%、1.28%向上させる。
論文 参考訳(メタデータ) (2024-01-09T08:59:39Z) - Improving Label Assignments Learning by Dynamic Sample Dropout Combined
with Layer-wise Optimization in Speech Separation [8.489574755691613]
教師付き音声分離では、モデルを更新する最適な置換を選択することで、ラベルのあいまいさを扱うために、置換不変トレーニング(PIT)が広く使用されている。
これまでの研究では、PITは隣接した時代における過剰なラベル割り当ての切り替えに悩まされており、より良いラベル割り当てを学ぶためのモデルが妨げられていた。
本研究では,学習中のラベル割り当てに悪影響を及ぼす可能性のあるサンプルを除外するために,過去のベストラベル割り当てと評価指標を考慮した新しいトレーニング戦略である動的サンプルドロップアウト(DSD)を提案する。
論文 参考訳(メタデータ) (2023-11-20T21:37:38Z) - Supervision-Guided Codebooks for Masked Prediction in Speech
Pre-training [102.14558233502514]
自己教師型学習(SSL)における事前学習のマズード予測は,音声認識における顕著な進歩をみせている。
本稿では,自動音声認識(ASR)の性能向上のための2つの教師付きコードブック生成手法を提案する。
論文 参考訳(メタデータ) (2022-06-21T06:08:30Z) - Single-channel speech separation using Soft-minimum Permutation
Invariant Training [60.99112031408449]
教師付き音声分離における長寿命問題は、それぞれの分離された音声信号の正しいラベルを見つけることである。
Permutation Invariant Training (PIT) はラベルあいまいさ問題に対処する上で有望な解決策であることが示されている。
そこで本研究では,PITの不効率に対処する確率的最適化フレームワークを提案する。
論文 参考訳(メタデータ) (2021-11-16T17:25:05Z) - Two-phase Pseudo Label Densification for Self-training based Domain
Adaptation [93.03265290594278]
TPLDと呼ばれる,新規な二相擬似ラベル高密度化フレームワークを提案する。
第1フェーズでは,スライディングウインドウ投票を用いて,画像内の内在的空間相関を利用して,自信のある予測を広める。
第2フェーズでは,信頼度に基づく容易な分類を行う。
トレーニングプロセスの容易化と騒音予測の回避を目的として,ブートストラップ機構の導入を行った。
論文 参考訳(メタデータ) (2020-12-09T02:35:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。