論文の概要: Phoneme Segmentation Using Self-Supervised Speech Models
- arxiv url: http://arxiv.org/abs/2211.01461v1
- Date: Wed, 2 Nov 2022 19:57:31 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-04 13:52:12.340648
- Title: Phoneme Segmentation Using Self-Supervised Speech Models
- Title(参考訳): 自己教師付き音声モデルを用いた音素セグメンテーション
- Authors: Luke Strgar and David Harwath
- Abstract要約: 音素セグメンテーションのタスクに伝達学習を適用し、タスクの自己教師型事前学習において学習した表現の有用性を実証する。
我々のモデルは、事前学習で学んだ特徴を操作する戦略的に配置された畳み込みによるトランスフォーマースタイルのエンコーダを拡張している。
- 参考スコア(独自算出の注目度): 13.956691231452336
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We apply transfer learning to the task of phoneme segmentation and
demonstrate the utility of representations learned in self-supervised
pre-training for the task. Our model extends transformer-style encoders with
strategically placed convolutions that manipulate features learned in
pre-training. Using the TIMIT and Buckeye corpora we train and test the model
in the supervised and unsupervised settings. The latter case is accomplished by
furnishing a noisy label-set with the predictions of a separate model, it
having been trained in an unsupervised fashion. Results indicate our model
eclipses previous state-of-the-art performance in both settings and on both
datasets. Finally, following observations during published code review and
attempts to reproduce past segmentation results, we find a need to disambiguate
the definition and implementation of widely-used evaluation metrics. We resolve
this ambiguity by delineating two distinct evaluation schemes and describing
their nuances.
- Abstract(参考訳): 音素セグメンテーションのタスクに伝達学習を適用し、タスクの自己教師型事前学習において学習した表現の有用性を実証する。
本モデルは,事前学習で学習した特徴を戦略的に配置した畳み込みにより,トランスフォーマー方式のエンコーダを拡張する。
TIMITとBuckeyeのコーパスを使用して、教師なしおよび教師なしの設定でモデルをトレーニングし、テストします。
後者のケースは、教師なしの方法で訓練された別モデルの予測にノイズの多いラベルセットを組み込むことによって達成される。
その結果、我々のモデルは、両方のデータセットにおいて、過去の最先端のパフォーマンスを上回ります。
最後に、公開コードレビューの観察と過去のセグメンテーション結果を再現しようとする試みに従い、広く使われている評価メトリクスの定義と実装を曖昧にする必要性を見出した。
この曖昧さを、2つの異なる評価スキームを記述し、そのニュアンスを記述することで解決する。
関連論文リスト
- With a Little Help from your own Past: Prototypical Memory Networks for
Image Captioning [47.96387857237473]
我々は、他のトレーニングサンプルを処理しながら得られたアクティベーションに注意を向けるネットワークを考案した。
私たちのメモリは、プロトタイプベクトルの定義を通じて過去のキーと値の分布をモデル化します。
本研究では,エンコーダ・デコーダ変換器の性能を3.7 CIDErポイント向上できることを示す。
論文 参考訳(メタデータ) (2023-08-23T18:53:00Z) - Unsupervised Continual Semantic Adaptation through Neural Rendering [32.099350613956716]
セマンティックセグメンテーションの課題に対する連続的マルチシーン適応について検討する。
本稿では,セグメンテーションモデルの予測を融合させることで,シーン毎にセマンティック・NeRFネットワークを訓練する。
我々は,Voxelベースのベースラインと最先端の教師なしドメイン適応手法の両方より優れているScanNetに対するアプローチを評価した。
論文 参考訳(メタデータ) (2022-11-25T09:31:41Z) - Parameter Decoupling Strategy for Semi-supervised 3D Left Atrium
Segmentation [0.0]
本稿では,パラメータ分離戦略に基づく半教師付きセグメンテーションモデルを提案する。
提案手法は,Atrial Challengeデータセット上での最先端の半教師付き手法と競合する結果を得た。
論文 参考訳(メタデータ) (2021-09-20T14:51:42Z) - Revisiting Contrastive Methods for Unsupervised Learning of Visual
Representations [78.12377360145078]
対照的な自己教師型学習は、セグメンテーションやオブジェクト検出といった多くの下流タスクにおいて教師付き事前訓練よりも優れています。
本稿では,データセットのバイアスが既存手法にどのように影響するかを最初に検討する。
現在のコントラストアプローチは、(i)オブジェクト中心対シーン中心、(ii)一様対ロングテール、(iii)一般対ドメイン固有データセットなど、驚くほどうまく機能することを示す。
論文 参考訳(メタデータ) (2021-06-10T17:59:13Z) - D-LEMA: Deep Learning Ensembles from Multiple Annotations -- Application
to Skin Lesion Segmentation [14.266037264648533]
画像に対するアノテーションの意見のコレクションを活用することは、ゴールド基準を推定する興味深い方法です。
深層モデル学習時のアノテーションの不一致に対処する手法を提案する。
論文 参考訳(メタデータ) (2020-12-14T01:51:22Z) - UmBERTo-MTSA @ AcCompl-It: Improving Complexity and Acceptability
Prediction with Multi-task Learning on Self-Supervised Annotations [0.0]
本研究は,ラベル付きデータの適度な使用量のみの学習モデルの性能向上に使用される,自己教師型データ拡張手法について述べる。
神経言語モデルは、EVALITA 2020におけるAcCompl-it共有タスクのコンテキストにおいて、この手順を用いて微調整される。
論文 参考訳(メタデータ) (2020-11-10T15:50:37Z) - Self-Supervised Contrastive Learning for Unsupervised Phoneme
Segmentation [37.054709598792165]
このモデルは畳み込みニューラルネットワークであり、生波形上で直接動作する。
ノイズコントラスト推定原理を用いて信号のスペクトル変化を同定する。
テスト時には、モデル出力にピーク検出アルゴリズムを適用して最終境界を生成する。
論文 参考訳(メタデータ) (2020-07-27T12:10:21Z) - Deep Semi-supervised Knowledge Distillation for Overlapping Cervical
Cell Instance Segmentation [54.49894381464853]
本稿では, ラベル付きデータとラベルなしデータの両方を, 知識蒸留による精度向上に活用することを提案する。
摂動に敏感なサンプルマイニングを用いたマスク誘導型平均教師フレームワークを提案する。
実験の結果,ラベル付きデータのみから学習した教師付き手法と比較して,提案手法は性能を著しく向上することがわかった。
論文 参考訳(メタデータ) (2020-07-21T13:27:09Z) - Improving Semantic Segmentation via Self-Training [75.07114899941095]
半教師付きアプローチ,特に自己学習パラダイムを用いて,最先端の成果を得ることができることを示す。
まず、ラベル付きデータに基づいて教師モデルを訓練し、次にラベルなしデータの大規模なセット上で擬似ラベルを生成する。
私たちの堅牢なトレーニングフレームワークは、人名と擬似ラベルを共同で消化し、Cityscapes、CamVid、KITTIデータセット上で最高のパフォーマンスを達成することができます。
論文 参考訳(メタデータ) (2020-04-30T17:09:17Z) - Learning What Makes a Difference from Counterfactual Examples and
Gradient Supervision [57.14468881854616]
ニューラルネットワークの一般化能力を改善するための補助的学習目標を提案する。
我々は、異なるラベルを持つ最小差の例のペア、すなわち反ファクトまたはコントラストの例を使用し、タスクの根底にある因果構造を示す信号を与える。
このテクニックで訓練されたモデルは、配布外テストセットのパフォーマンスを向上させる。
論文 参考訳(メタデータ) (2020-04-20T02:47:49Z) - Document Ranking with a Pretrained Sequence-to-Sequence Model [56.44269917346376]
関連ラベルを「ターゲット語」として生成するためにシーケンス・ツー・シーケンス・モデルをどのように訓練するかを示す。
提案手法は,データポーラ方式におけるエンコーダのみのモデルよりも大幅に優れている。
論文 参考訳(メタデータ) (2020-03-14T22:29:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。