論文の概要: Towards Matching Phones and Speech Representations
- arxiv url: http://arxiv.org/abs/2310.17558v1
- Date: Thu, 26 Oct 2023 16:47:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-27 18:54:55.471683
- Title: Towards Matching Phones and Speech Representations
- Title(参考訳): 電話と音声のマッチングに向けて
- Authors: Gene-Ping Yang and Hao Tang
- Abstract要約: 自己教師型表現のクラスタセントロイドが,携帯電話のインスタンスの変動を減少させ,携帯電話間の関係を尊重するか否かを検討する。
次に、マッチング結果を用いて擬似ラベルを生成し、自己教師付き表現を改善するための新たな損失関数を導入する。
- 参考スコア(独自算出の注目度): 12.152079582837509
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning phone types from phone instances has been a long-standing problem,
while still being open. In this work, we revisit this problem in the context of
self-supervised learning, and pose it as the problem of matching cluster
centroids to phone embeddings. We study two key properties that enable
matching, namely, whether cluster centroids of self-supervised representations
reduce the variability of phone instances and respect the relationship among
phones. We then use the matching result to produce pseudo-labels and introduce
a new loss function for improving self-supervised representations. Our
experiments show that the matching result captures the relationship among
phones. Training the new loss function jointly with the regular self-supervised
losses, such as APC and CPC, significantly improves the downstream phone
classification.
- Abstract(参考訳): 電話のインスタンスから電話のタイプを学ぶことは、長い間問題だったが、まだオープンだ。
本研究では,この問題を自己教師付き学習の文脈で再検討し,クラスタセンタロイドと電話の埋め込みをマッチングする問題として捉える。
自己教師付き表現のクラスタセンタロイドが、電話インスタンスの変動を減少させ、電話間の関係を尊重するかどうかという2つの重要な特性について検討した。
次に、マッチング結果を用いて擬似ラベルを生成し、自己教師付き表現を改善する新しい損失関数を導入する。
実験の結果,一致した結果が電話機間の関係を捉えることがわかった。
APCやCPCのような正規の自己監督的損失と連動して新しい損失関数を訓練することで、ダウンストリーム電話の分類を大幅に改善する。
関連論文リスト
- AsyCo: An Asymmetric Dual-task Co-training Model for Partial-label Learning [53.97072488455662]
自己学習モデルは、最先端のパフォーマンスを実現するが、誤って曖昧なインスタンスによって生じるエラーの蓄積問題に悩まされる。
本稿では,2つのネットワーク,すなわち曖昧なネットワークと補助的なネットワークに,異なる視点から明確に学習するよう強制する,AsyCoという非対称なデュアルタスク協調学習モデルを提案する。
AsyCoの有効性を実証するため、一様および一様にラベル付けされた部分ラベル付きデータセットの実験を行った。
論文 参考訳(メタデータ) (2024-07-21T02:08:51Z) - iMatching: Imperative Correspondence Learning [5.568520539073218]
特徴対応学習のための自己指導型命令型学習(IL)を導入する。
カメラのポーズやディープラベルを使わずに、任意の未中断ビデオの対応学習を可能にする。
特徴マッチングやポーズ推定などのタスクにおいて,優れた性能を示す。
論文 参考訳(メタデータ) (2023-12-04T18:58:20Z) - Match me if you can: Semi-Supervised Semantic Correspondence Learning with Unpaired Images [76.47980643420375]
本稿では,意味的対応の学習に固有のデータ・ハングリー・マターが存在するという仮説に基づく。
我々は,機械の監督を通じて,ペア化されたキーポイントを確実に強化する単純な機械注釈器を実証する。
我々のモデルは,SPair-71k,PF-PASCAL,PF-WILLOWといった意味対応学習ベンチマークの最先端モデルを上回る。
論文 参考訳(メタデータ) (2023-11-30T13:22:15Z) - Preserving Phonemic Distinctions for Ordinal Regression: A Novel Loss
Function for Automatic Pronunciation Assessment [10.844822448167937]
回帰に基づくAPAモデルの学習のための音素コントラストオーディショナル(PCO)損失を提案する。
具体的には、MSE損失に音素識別正則化器を導入し、異なる音素カテゴリの特徴表現を遠方へ誘導する。
speechocean762ベンチマークデータセットで行った広範な実験結果から,本モデルの有効性と有効性が示唆された。
論文 参考訳(メタデータ) (2023-10-03T07:05:37Z) - Correct-N-Contrast: A Contrastive Approach for Improving Robustness to
Spurious Correlations [59.24031936150582]
豪華な相関関係は、堅牢な機械学習にとって大きな課題となる。
経験的リスク最小化(ERM)で訓練されたモデルは、クラスラベルとスプリアス属性の相関に依存することを学習することができる。
CNC(Correct-N-Contrast, Correct-N-Contrast)を提案する。
論文 参考訳(メタデータ) (2022-03-03T05:03:28Z) - Causal Scene BERT: Improving object detection by searching for
challenging groups of data [125.40669814080047]
コンピュータビジョンアプリケーションは、物体検出のようなタスクのためにニューラルネットワークでパラメータ化された学習ベースの知覚モジュールに依存している。
これらのモジュールは、トレーニングプロセスに固有のバイアスのため、予想される誤差が低いが、データの非定型的なグループに対して高い誤差を持つことが多い。
本研究の主な貢献は,シミュレートされたシーンに対して因果的介入を行うことにより,前向きにそのようなグループを発見する擬似オートマチック手法である。
論文 参考訳(メタデータ) (2022-02-08T05:14:16Z) - Learning What Makes a Difference from Counterfactual Examples and
Gradient Supervision [57.14468881854616]
ニューラルネットワークの一般化能力を改善するための補助的学習目標を提案する。
我々は、異なるラベルを持つ最小差の例のペア、すなわち反ファクトまたはコントラストの例を使用し、タスクの根底にある因果構造を示す信号を与える。
このテクニックで訓練されたモデルは、配布外テストセットのパフォーマンスを向上させる。
論文 参考訳(メタデータ) (2020-04-20T02:47:49Z) - Unsupervised Person Re-identification via Softened Similarity Learning [122.70472387837542]
人物再識別(re-ID)はコンピュータビジョンにおいて重要なトピックである。
本稿では,ラベル付き情報を必要としないre-IDの教師なし設定について検討する。
2つの画像ベースおよびビデオベースデータセットの実験は、最先端のパフォーマンスを示している。
論文 参考訳(メタデータ) (2020-04-07T17:16:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。