論文の概要: Self-Expressing Autoencoders for Unsupervised Spoken Term Discovery
- arxiv url: http://arxiv.org/abs/2007.13033v1
- Date: Sun, 26 Jul 2020 00:04:17 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-06 20:17:06.178249
- Title: Self-Expressing Autoencoders for Unsupervised Spoken Term Discovery
- Title(参考訳): 教師なし単語発見のための自己表現型オートエンコーダ
- Authors: Saurabhchand Bhati, Jes\'us Villalba, Piotr \.Zelasko, Najim Dehak
- Abstract要約: 教師なし音声用語発見は、音響セグメント境界の発見と、同じラベルで音響的に類似したセグメントのラベル付けという2つのタスクからなる。
フレーム特徴ベクトルはセグメント間よりもセグメント内で類似しているという仮定に基づいてセグメント化を行う。
自己表現型オートエンコーダフレームワークでこれを実現する。
- 参考スコア(独自算出の注目度): 37.36402108843216
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Unsupervised spoken term discovery consists of two tasks: finding the
acoustic segment boundaries and labeling acoustically similar segments with the
same labels. We perform segmentation based on the assumption that the frame
feature vectors are more similar within a segment than across the segments.
Therefore, for strong segmentation performance, it is crucial that the features
represent the phonetic properties of a frame more than other factors of
variability. We achieve this via a self-expressing autoencoder framework. It
consists of a single encoder and two decoders with shared weights. The encoder
projects the input features into a latent representation. One of the decoders
tries to reconstruct the input from these latent representations and the other
from the self-expressed version of them. We use the obtained features to
segment and cluster the speech data. We evaluate the performance of the
proposed method in the Zero Resource 2020 challenge unit discovery task. The
proposed system consistently outperforms the baseline, demonstrating the
usefulness of the method in learning representations.
- Abstract(参考訳): 教師なし音声用語発見は、音響セグメントの境界を見つけ、同じラベルで音響的に類似したセグメントをラベル付けする2つのタスクからなる。
フレーム特徴ベクトルはセグメント間よりもセグメント内で類似しているという仮定に基づいてセグメント化を行う。
したがって, 高いセグメンテーション性能を実現するためには, フレームの音韻特性が, 変動の他の要因よりも重要であることが重要である。
自己表現型オートエンコーダフレームワークでこれを実現する。
1つのエンコーダと2つの共有重みを持つデコーダで構成される。
エンコーダは入力特徴を潜在表現に投影する。
デコーダの1つは、これらの潜在表現から入力を再構築し、もう1つは自己表現版から入力を再構築しようとする。
得られた特徴を音声データのセグメンテーションとクラスタ化に利用する。
我々は,zero resource 2020 challenge unit discoveryタスクにおける提案手法の性能評価を行った。
提案システムはベースラインを一貫して上回り,表現学習における手法の有用性を示す。
関連論文リスト
- DiffCut: Catalyzing Zero-Shot Semantic Segmentation with Diffusion Features and Recursive Normalized Cut [62.63481844384229]
ファンデーションモデルは、言語、ビジョン、マルチモーダルタスクなど、さまざまな領域にまたがる強力なツールとして登場した。
本稿では,拡散UNetエンコーダを基礎ビジョンエンコーダとして使用し,教師なしゼロショットセグメンテーション手法であるDiffCutを紹介する。
我々の研究は、拡散UNetエンコーダに埋め込まれた極めて正確なセマンティック知識を強調し、下流タスクの基盤ビジョンエンコーダとして機能する。
論文 参考訳(メタデータ) (2024-06-05T01:32:31Z) - Revisiting speech segmentation and lexicon learning with better features [29.268728666438495]
我々は,未学習の音声を単語のようなセグメントに分割する自己教師型手法を再検討する。
まず,2段階の持続時間ペン化動的プログラミング法から始める。
第1の音響ユニット発見段階では、コントラスト予測符号を HuBERT に置き換える。
第2段階における単語セグメンテーションの後,HuBERT特徴量の平均化により,各セグメントに音響単語を埋め込む。
論文 参考訳(メタデータ) (2024-01-31T15:06:34Z) - An Explainable Proxy Model for Multiabel Audio Segmentation [1.7611027732647493]
音声活動(SAD)、音楽(MD)、ノイズ(ND)、重畳音声検出(OSD)を同時に解くための説明可能なマルチラベルセグメンテーションモデルを提案する。
2つのデータセットで実施された実験は、トレーニング済みのブラックボックスモデルと同様のパフォーマンスを示しながら、強い説明可能性を示している。
論文 参考訳(メタデータ) (2024-01-16T10:41:33Z) - Triple-View Knowledge Distillation for Semi-Supervised Semantic
Segmentation [54.23510028456082]
半教師付きセマンティックセグメンテーションのためのトリプルビュー知識蒸留フレームワークTriKDを提案する。
このフレームワークは、トリプルビューエンコーダとデュアル周波数デコーダを含む。
論文 参考訳(メタデータ) (2023-09-22T01:02:21Z) - Joint Inductive and Transductive Learning for Video Object Segmentation [107.32760625159301]
半教師付きオブジェクトセグメンテーションは、第1フレームのマスクだけを与えられたビデオシーケンスで対象オブジェクトをセグメンテーションするタスクである。
過去の最も優れた手法は、マッチングベースの帰納的推論やオンライン帰納的学習を採用していた。
本稿では,トランスダクティブ学習とインダクティブ学習を統合したフレームワークに統合し,それら間の補完を利用して,高精度かつ堅牢なビデオオブジェクトセグメンテーションを提案する。
論文 参考訳(メタデータ) (2021-08-08T16:25:48Z) - Dynamic Neural Representational Decoders for High-Resolution Semantic
Segmentation [98.05643473345474]
動的ニューラル表現デコーダ(NRD)と呼ばれる新しいデコーダを提案する。
エンコーダの出力上の各位置がセマンティックラベルの局所的なパッチに対応するので、この研究では、これらの局所的なパッチをコンパクトなニューラルネットワークで表現する。
このニューラル表現により、意味ラベル空間に先行する滑らかさを活用することができ、デコーダをより効率的にすることができる。
論文 参考訳(メタデータ) (2021-07-30T04:50:56Z) - Segmental Contrastive Predictive Coding for Unsupervised Word
Segmentation [33.35220574193796]
本稿では,信号構造を音素レベルでより高レベルにモデル化できるSCPC( segmental contrastive predictive coding)フレームワークを提案する。
微分可能な境界検出器は可変長のセグメントを見つけ、NCEを介してセグメントエンコーダを最適化する。
本稿では,TIMITおよびBuckeyeデータセットにおける既存の音素・単語分割手法より,単一モデルの方が優れていることを示す。
論文 参考訳(メタデータ) (2021-06-03T23:12:05Z) - Beyond Single Stage Encoder-Decoder Networks: Deep Decoders for Semantic
Image Segmentation [56.44853893149365]
セマンティックセグメンテーションのための単一エンコーダ-デコーダ手法は、セマンティックセグメンテーションの品質とレイヤー数あたりの効率の観点からピークに達している。
そこで本研究では,より多くの情報コンテンツを取得するために,浅層ネットワークの集合を用いたデコーダに基づく新しいアーキテクチャを提案する。
アーキテクチャをさらに改善するために,ネットワークの注目度を高めるために,クラスの再バランスを目的とした重み関数を導入する。
論文 参考訳(メタデータ) (2020-07-19T18:44:34Z) - Weakly Supervised Training of Hierarchical Attention Networks for
Speaker Identification [37.33388614967888]
弱ラベル付き話者識別問題を解くために階層的注意ネットワークを提案する。
フレームレベルエンコーダとセグメントレベルエンコーダで構成される階層構造を用いることで,話者関連情報をローカルかつグローバルに学習することを目指している。
論文 参考訳(メタデータ) (2020-05-15T22:57:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。