論文の概要、ライセンス

# (参考訳) 低リソース環境における離散音声単位からの教師なし単語セグメンテーション [全文訳有]

Unsupervised Word Segmentation from Discrete Speech Units in Low-Resource Settings ( http://arxiv.org/abs/2106.04298v1 )

ライセンス: CC BY 4.0
Marcely Zanon Boito, Bolaji Yusuf, Lucas Ondel, Aline Villavicencio, Laurent Besacier(参考訳) 口頭言語を文書化する際、音声からの教師なしワードセグメンテーション(UWS)は有用だが難しい作業である。 音声の書き起こしから、あるいはこれらがない場合には、教師なしの音声離散化モデルの出力から行うことができる。 これらの離散化モデルは生音声のみを用いて訓練され、下流(テキストベース)タスクに適用可能な離散音声単位を生成する。 本稿では,3つのベイズ的アプローチと2つのニューラルアプローチの5つのモデルを比較する。 2つのUWSモデルを実験し,フィンランド語,ハンガリー語,ムボシ語,ルーマニア語,ロシア語の低リソース環境での結果を報告する。 以上の結果から,音声識別のためのニューラルモデルの利用は困難であり,シーケンス長の制限に適応する必要がある可能性が示唆された。 入力音声信号の高品質かつ圧縮された離散表現を生成するSHMMおよびH-SHMMベイズモデルを用いて、最良のUWS結果を得る。

When documenting oral-languages, Unsupervised Word Segmentation (UWS) from speech is a useful, yet challenging, task. It can be performed from phonetic transcriptions, or in the absence of these, from the output of unsupervised speech discretization models. These discretization models are trained using raw speech only, producing discrete speech units which can be applied for downstream (text-based) tasks. In this paper we compare five of these models: three Bayesian and two neural approaches, with regards to the exploitability of the produced units for UWS. Two UWS models are experimented with and we report results for Finnish, Hungarian, Mboshi, Romanian and Russian in a low-resource setting (using only 5k sentences). Our results suggest that neural models for speech discretization are difficult to exploit in our setting, and that it might be necessary to adapt them to limit sequence length. We obtain our best UWS results by using the SHMM and H-SHMM Bayesian models, which produce high quality, yet compressed, discrete representations of the input speech signal.
公開日: Tue, 8 Jun 2021 12:50:37 GMT

※ 翻訳結果を表に示しています。PDFがオリジナルの論文です。翻訳結果のライセンスはCC BY-SA 4.0です。詳細はトップページをご参照ください。

翻訳結果

    Page: /      
英語(論文から抽出)日本語訳スコア
Unsupervised Word Segmentation from Discrete Speech Units 離散音声単位からの教師なし単語分割 0.67
in Low-Resource Settings Marcely Zanon Boito1, Bolaji Yusuf2,3, Lucas Ondel3, Aline Villavicencio4, Laurent Besacier1,5 低リソース設定で Marcely Zanon Boito1, Bolaji Yusuf2,3, Lucas Ondel3, Aline Villavicencio4, Laurent Besacier1,5 0.79
4University of Sheffield, EN, and Federal University of Rio Grande do Sul, BR シェフィールド大学とリオグランデ・ド・スル連邦大学(BR)の4大学 0.49
3Brno University of Technology, CZ 3Brno University of Technology, CZ 0.97
1 University Grenoble Alpes, FR 1 University Grenoble Alpes, FR 0.85
2Bogazici University, TR 2Bogazici University, TR 0.98
5Naver Labs Europe, FR 5Naver Labs Europe, FR 0.99
contact e-mail: marcely.zanon-boito at univ-grenoble-alpes. fr メール:marcely.zanon-boito at univ-grenoble-alpes. fr 0.46
1 2 0 2 n u J 1 2 0 2 n u J 0.85
8 ] L C . s c [ 8 ]LC。 sc [ 0.60
1 v 8 9 2 4 0 1 v 8 9 2 4 0 0.85
. 6 0 1 2 : v i X r a . 6 0 1 2 : v i X r a 0.85
Abstract When documenting oral-languages, Unsupervised Word Segmentation (UWS) from speech is a useful, yet challenging, task. 概要 口頭言語を文書化する際、音声からの教師なしワードセグメンテーション(UWS)は有用だが難しい作業である。
訳抜け防止モード: 概要 口頭言語を文書化する場合, 音声からの教師なし単語分割(UWS) 役に立つが 難しい タスクだ
0.60
It can be performed from phonetic transcriptions, or in the absence of these, from the output of unsupervised speech discretization models. 音声の書き起こしから、あるいはこれらがない場合には、教師なしの音声離散化モデルの出力から行うことができる。 0.67
These discretization models are trained using raw speech only, producing discrete speech units which can be applied for downstream (text-based) tasks. これらの離散化モデルは生音声のみを用いて訓練され、下流(テキストベース)タスクに適用可能な離散音声単位を生成する。
訳抜け防止モード: これらの離散化モデルは 生の言葉だけを使う。 下流(テキストベース)タスクに適用可能な離散音声単位の生成。
0.73
In this paper we compare five of these models: three Bayesian and two neural approaches, with regards to the exploitability of the produced units for UWS. 本稿では,3つのベイズ的アプローチと2つのニューラルアプローチの5つのモデルを比較する。
訳抜け防止モード: 本稿では,これら5つのモデル,3つのベイジアンと2つのニューラルアプローチを比較した。 製造したuws用ユニットの活用性について。
0.63
Two UWS models are experimented with and we report results for Finnish, Hungarian, Mboshi, Romanian and Russian in a low-resource setting (using only 5k sentences). 2つのUWSモデルを実験し,フィンランド語,ハンガリー語,ムボシ語,ルーマニア語,ロシア語の低リソース環境での結果を報告する。 0.66
Our results suggest that neural models for speech discretization are difficult to exploit in our setting, and that it might be necessary to adapt them to limit sequence length. 以上の結果から,音声識別のためのニューラルモデルの利用は困難であり,シーケンス長の制限に適応する必要がある可能性が示唆された。 0.73
We obtain our best UWS results by using the SHMM and H-SHMM Bayesian models, which produce high quality, yet compressed, discrete representations of the input speech signal. 入力音声信号の高品質かつ圧縮された離散表現を生成するSHMMおよびH-SHMMベイズモデルを用いて、最良のUWS結果を得る。 0.73
Index Terms: unsupervised word segmentation, speech discretization, acoustic unit discovery, low-resource conditions. Index Terms: 教師なし単語のセグメンテーション、音声の離散化、音響単位の検出、低リソース条件。 0.63
1. Introduction Popular models for speech processing rely on the availability of large amounts of speech data and their transcriptions, which reduces model applicability to a limited subset of languages considered high-resource. 1. はじめに 音声処理の一般的なモデルは、大量の音声データとその書き起こしの可用性に依存しており、高リソースと考えられる言語の限られたサブセットにモデルの適用性を減らす。 0.69
This excludes a considerable number of lowresource languages, including many from oral-tradition. これは、口承から多くの低リソース言語を除外している。 0.60
Besides, learning supervised representations from speech differs from the unsupervised way infants learn language, hinting that it should be possible to develop more data-efficient speech processing models. さらに、音声からの教師付き表現の学習は、乳幼児がよりデータ効率のよい音声処理モデルを開発することができることを示唆する、教師なしの言語学習とは異なる。 0.66
Recent efforts for Zero Resource [1, 2, 3, 4, 5, 6] processing focus on building speech systems using limited amounts of data (hence zero resource), and without textual or linguistic resources, for increasingly challenging tasks such as acoustic or lexical unit discovery. ゼロリソース [1, 2, 3, 4, 5, 6] 処理に対する最近の取り組みは、音響や語彙単位の発見のようなますます困難なタスクのために、限られた量のデータ(hence zero resource)を使用して音声システムを構築することに重点を置いている。 0.71
Such zero resource approaches also stimulated interest for computational language documentation [7, 8, 9, 10] and computational language acquisition [11]. このようなゼロリソースアプローチは、計算言語文書 [7, 8, 9, 10] や計算言語獲得 [11] にも関心を喚起した。 0.78
In this paper we address a challenging task: Unsupervised Word Segmentation (UWS) from speech, which consists of (without access to any supervision) outputting time-stamps delimiting stretches of speech, associated with class labels corresponding to word hypotheses. 本稿では,音声からの教師なし単語セグメンテーション(UWS: Unsupervised Word Segmentation)の課題に対処する。
訳抜け防止モード: 本稿では,音声からの教師なし単語セグメンテーション(UWS)について述べる。 それは(いかなる監督にもアクセスしない)時間を出す ― 言論の範囲を縮小する切手から成る 単語仮説に対応するクラスラベルに関連する。
0.71
We build on the work presented in [9] which proposed a cascaded model for UWS that first generates a discrete sequence from the speech signal using the model from [12], and then segments the discrete sequence into words 我々は[9]で提示された作業に基づいて、まず[12]からモデルを用いて音声信号から離散シーケンスを生成し、次にその離散シーケンスを単語に分割するUWSのカスケードモデルを提案する。 0.81
using a Bayesian [13] or a neural [14] approach. ベイジアン[13]またはニューラル[14]アプローチを使っています。 0.73
Since then, much progress has been made in automatic speech discretization: efficient Bayesian models for Acoustic Unit Discovery (AUD) emerged [15, 16], and neural approaches (typically made of an auto-encoder structure with a discretization layer) were also introduced [17, 18, 19]. 音響単位発見(aud)のための効率的なベイズモデル(aud)が[15, 16]に出現し、ニューラルネットワーク(典型的には離散化層を備えたオートエンコーダ構造)も導入された [17, 18, 19]。
訳抜け防止モード: それ以来、自動音声認識における多くの進歩が見られた。 アコースティック・ユニット・ディスカバリー(AUD)のための効率的なベイズモデル [15, 16] そして神経アプローチ(通常、離散層を持つオートエンコーダ構造で作られる) 17, 18, 19] も導入されました
0.86
Therefore, in this work we revise [9], by empirically investigating the exploitability of five recent approaches for speech discretization for the UWS task in a rather low-resource scenario (using 5k sentences only). そこで本研究では, 比較的低リソースシナリオ(5k文のみを使用)において, UWSタスクの音声認識に対する最近の5つのアプローチの活用性を実証的に検討することにより, [9] を改訂する。 0.70
More precisely, we compare three Bayesian speech discretization models (HMM [12], SHMM [15] and H-SHMM [16]), and two neural models (VQ-VAE [17] and vq-wav2vec [18]). より正確には、3つのベイズ音声認識モデル(HMM [12], SHMM [15], H-SHMM [16])と2つのニューラルモデル(VQ-VAE [17], vq-wav2vec [18])を比較した。 0.87
We train and extract discrete speech units from them using only 4-5 hours of speech, and we perform UWS from the sequences produced. 4~5時間のみの音声を用いて個々の音声単位を訓練・抽出し,生成したシーケンスからUWSを実行する。 0.69
Moreover, for investigating how generalizable these models are, we apply the same pipeline to five languages: Finnish, Hungarian, Mboshi, Romanian and Russian. さらに、これらのモデルをどの程度一般化するかを調べるために、フィンランド語、ハンガリー語、ボシ語、ルーマニア語、ロシア語の5つの言語に同じパイプラインを適用する。 0.58
In our experiments, we focus on the temporal aspect of the UWS task, evaluating the quality of the boundaries produced by these models. 実験では,UWSタスクの時間的側面に着目し,これらのモデルによって生成された境界の質を評価する。 0.79
Our experiments show that neural models for speech discretization are difficult to directly exploit for UWS, as they output very long sequences.1 In contrast to that, the Bayesian speech discretization approaches from [15, 16] are robust and generalizable, producing high quality, yet compressed, discrete speech sequences from the input utterances in all languages. その結果,[15,16]からのベイズ音声の離散化アプローチは頑健かつ一般化可能であり,すべての言語における入力発話から高品質だが圧縮された離散音声列を生成する。
訳抜け防止モード: 実験により,音声識別のためのニューラルモデルが直接uwsを活用することが困難であることが判明した。 それとは対照的に、非常に長いシーケンスを出力します。 15, 16] からのベイズ音声の離散化アプローチは堅牢で一般化可能である。 すべての言語の入力発話から高品質で圧縮された離散音声列を生成する。
0.62
We obtain our best results by using these sequences for training the neural UWS model from [14]. 我々は[14]から神経uwsモデルのトレーニングにこれらのシーケンスを用いることにより、最良の結果を得る。 0.65
Finally, the contributions of this work are the following. 最後に、この作品の貢献は以下のとおりである。 0.69
• We compare five models for speech discretization in lowresource settings for posterior application in the task of UWS. • UWSタスクにおける後処理のための低リソース設定における音声認識の5つのモデルを比較する。 0.68
Our results shed light on the direct exploitability of current discretization approaches. 以上の結果から,現状の離散化アプローチの直接的活用性に着目した。 0.57
• We investigate the generalization of the speech discretization models by training models in the following languages: Mboshi [20] (truly unwritten language), and Finnish, Hungarian, Romanian and Russian (from the multilingual dataset MaSS [21]). 本研究は,Mboshi[20](真に書かれていない言語)とフィンランド語,ハンガリー語,ルーマニア語,ロシア語(多言語データセットMSS[21]から)の訓練モデルによる音声認識モデルの一般化を検討する。 0.82
2. Related Work Some recent editions of the zero resource speech challenges [3, 4, 5] focused on UWS [22, 23] and Unsupervised Term Discov- 2. 関連作品 UWS [22, 23] と Unsupervised Term Discov に焦点を当てたゼロリソース音声問題 [3, 4, 5] の最近の版 0.74
1In this work we define the sequence length of a speech discretization output as the one obtained after merging consecutive 10ms windows that share the same prediction. 1本研究では、同一の予測を共有する10msの窓を連続して結合した後の音声識別出力のシーケンス長を推定する。 0.74
英語(論文から抽出)日本語訳スコア
ery (UTD) [24, 25] directly from speech.2 In contrast to that, in this paper we focus on a pipeline approach for UWS: we first perform speech discretization, followed by text-based UWS. ery (UTD) [24, 25] by speech.2 それとは対照的に、本論文では、UWSのパイプラインアプローチに焦点をあてる: まず、音声の離散化を行い、次にテキストベースのUWSを行う。 0.72
We focus on the evaluation of the direct exploitability of discrete speech units in low-resource settings, as their output allow us to deploy (lighter) text-based UWS approaches. 低リソース環境下での離散音声ユニットの直接的利用性の評価に焦点をあて,その出力によってテキストベースのUWSアプローチを(より軽い)展開することが可能となる。 0.66
In this setting, the UWS model can also take advantage of some extra supervision, such as the translations used in [9, 26]. この設定では、uwsモデルは[9, 26]で使われる翻訳のような追加の監督も利用できる。 0.57
Focusing on the use of discrete speech units, [27] propose constraining the VQ-VAE model in order to generate a more exploitable output representation for direct application to the UWS task. 離散音声単位の使用に着目した[27]では,UWSタスクへの直接適用のために,より活用可能な出力表現を生成するために,VQ-VAEモデルを制約することを提案する。 0.70
Different from that, in this work we focus on providing an empirical comparison of recent approaches, extending [9] and providing results in low-resource settings, and in five different languages. それとは違って、この作業では、最近のアプローチの実証的な比較、[9]の拡張、低リソースの設定、および5つの異なる言語での結果の提供に重点を置いています。 0.64
Moreover, this work falls into the category of computation language documentation approaches. さらに、この研究は計算言語ドキュメンテーションのアプローチのカテゴリに分類される。 0.74
Recent works in this field include the use of aligned translation for improving transcription quality [28], and for obtaining bilingual-rooted UWS [8, 14]. この分野での最近の研究は、[28]の転写品質向上のためのアライメント翻訳の使用、およびバイリンガルルーツUWS[8,14]の取得などである。 0.75
There are pipelines for obtaining manual [29] and automatic [30] transcriptions, and for aligning transcription and audio [31]. 手動[29]と自動[30]の書き起こし、書き起こしとオーディオ[31]の整列のためのパイプラインがある。
訳抜け防止モード: 手動[29]と自動[30]の転写を取得するパイプラインがある。 書き起こしと音声の調整のためです [31 ]
0.73
Other examples are methods for low-resource segmentation [32, 33], and for lexical unit discovery without textual resources [34]. 他の例として、低リソースセグメンテーション [32, 33] のメソッドや、テキストリソース [34] のない語彙単位探索のメソッドがある。
訳抜け防止モード: 他の例として、低リソースセグメンテーションのメソッドがあります [32, 33 ]。 テキストリソースのない語彙単位の発見 [34 ]
0.78
Finally, direct speech-to-speech [35] and speech-to-text [7, 36] architectures could be an option for the lack of transcription, but it remains to be seen how exploitable these can be in lowresource settings. 最後に、直接音声合成 [35] と音声変換 [7, 36] アーキテクチャは、書き起こしの欠如の選択肢になり得るが、低リソース設定でこれらをいかに活用できるかはまだわからない。 0.72
3. Unsupervised Speech Discretization 3. 教師なし音声識別 0.64
Models Speech discretization consists in labeling the speech signal into discrete speech units, which can correspond or not to the language phonetic inventory. モデル 音声の離散化は、音声信号を個別の音声単位にラベリングすることであり、言語音声インベントリに対応できるか否かを問わない。 0.67
This problem can be formulated as the learning of a set of U discrete units with embeddings H = {η1, . この問題は、埋め込み H = {η1, . の U 個の離散単位の集合の学習として定式化することができる。 0.68
. . , ηU} from a sequence of untranscribed acoustic features X = [x1, . . . , ηu} は, 書き起こされていない音響特徴の列 x = [x1, . 0.82
. . , xN ], as well as the assignment of frame to unit z = [z1, . . . , xn ] および z = [z1, ] へのフレームの割り当て。 0.74
. . , zN ]. . . とzNは言う。 0.78
Depending on the approach, neural or Bayesian, the assumptions and the inference regarding these three quantities will differ. アプローチによっては、ニューラルあるいはベイズ的であり、これらの3つの量に関する仮定と推論が異なる。 0.64
3.1. Neural (VQ-based) models VQ-VAE. 3.1. ニューラル(VQベース)モデルVQ-VAE。 0.71
It comprises an encoder, a decoder and a set of unit-specific embeddings H. The encoder is a neural network that transforms the data into a continuous latent representation V = (v1, . エンコーダは、データを連続的潜在表現v = (v1, ...)に変換するニューラルネットワークである。
訳抜け防止モード: エンコーダは、エンコーダ、デコーダ、ユニットのセット、特定の埋め込みhを含む。 データを連続的潜在表現 v = (v1,) に変換する。
0.50
. . , vN ). Each frame is then assigned to the closest embedding in the Euclidean sense (Eq. . . 、vN。 各フレームはユークリッドの意味で最も近い埋め込み(Eq)に割り当てられる。 0.70
1). The decoder transforms the sequence of quantized vectors into parameters of the conditional log-likelihood of the data p(xn|z) and the network is trained to maximize this likelihood. 1). デコーダは量子化されたベクトルの列をデータp(xn|z)の条件付きログ類似度パラメータに変換し、ネットワークはこの可能性の最大化を訓練する。 0.80
Since the quantization step is not differentiable, the encoder is trained with a straight through estimator [37]. 量子化ステップは微分不可能であるため、エンコーダはストレートスルー推定器[37]で訓練される。 0.71
In addition, a pair of (cid:96)2 losses are used to minimize the quantization error, and the overall objective function that is maximized is presented in Eq 2, where sg[·] is the stop-gradient operator. さらに、一対の(cid:96)2の損失は量子化誤差を最小化するために使用され、最大化される全体の目的関数は eq 2 で示され、sg[·] は停止勾配作用素である。 0.82
We define the likelihood p(xn|zn) = N (xn; µ(ηzn ), I). 確率 p(xn|zn) = N(xn; μ(ηzn ), I) を定義する。 0.75
Under this assumption, the loglikelihood reduces to the mean-squared error ||xn − µ(ηzn )||2 2. この仮定の下で、対数は平均二乗誤差 ||xn − μ(ηzn )||2 に還元される。 0.65
(1) ||vn − ηu||2. (1) ||vn − ηu||2。 0.68
zn = arg min zn = arg min 0.85
u 2The different between UWS and UTD is that the latter does not うーん 2 UWS と UTD の違いは、後者がそうでないことである。 0.65
produce a total segmentation of the speech signal. 音声信号の完全なセグメンテーションを生成します 0.72
N(cid:88) (cid:16) n(cid:88) (cid:16) 0.78
n=1 L = 1 N n=1 L = 1N 0.74
ln p(xn|zn) − k1|| sg[ηzn ] − vn||2 ln p(xn|zn) − k1|| sg[ηzn ] − vn||2 0.72
2 (cid:17) 2 (cid:17) 0.82
2 , − k2||ηzn − sg[vn]||2 2 , − k2||ηzn − sg[vn]||2 0.82
(2) vq-wav2vec. 2) vq-wav2vec。 0.66
This model is composed of an encoder (f : X −→ Z), a quantizer (q : Z −→ ˆZ) and an aggregator (g : ˆZ −→ C). このモデルは、エンコーダ(f : X − → Z)、量子化器(q : Z −→ Z)、アグリゲータ(g : Z −→ C)から構成される。 0.80
The encoder is a CNN which maps the raw speech input X into the dense feature representation Z. 符号化器は、生の音声入力xを高密度特徴表現zにマッピングするcnnである。 0.67
From this representation, the quantizer produces discrete labels ˆZ from a fixed size codebook e ∈ RV ×d with V representations of size d. Since replacing an encoder feature vector zi by a single entry in the codebook makes the method prone to model collapse, the authors independently quantize partitions of each feature vector by creating multiple groups G, arranging the feature vector into a matrix form z(cid:48) ∈ RG×(d/G). この表現から、量子化器は、固定サイズのコードブック e ∈ rv ×d から、サイズ d の v の表現で離散ラベル sz を生成する。エンコーダ特徴ベクトル zi をコードブックの単一エントリに置き換えることで、メソッドが崩壊し易くなるため、著者らは、複数のグループ g を作成して各特徴ベクトルの分割を独立に定量化し、特徴ベクトルを行列形式 z(cid:48) ∈ rg×(d/g) に配置する。 0.78
Considering each row by an integer index, the full feature vector is represented by the indices i ∈ [V ]G, with V being the possible number of variables for a given group, and each element ij corresponding to a fixed codebook vector (j ∈ |G|). 各行を整数インデックスで考えると、全特徴ベクトルはインデックス i ∈ [v ]g で表現され、v は与えられた群の変数の可能な数であり、各要素 ij は固定符号帳ベクトル (j ∈ |g|) に対応する。 0.78
For each of the G groups, the quantization is performed by using Gumbel-Softmax [38] or online k-means clustering. G群毎に、Gumbel-Softmax[38]またはオンラインk平均クラスタリングを用いて量子化を行う。 0.71
Finally, the aggregator combines multiple quantized feature vector time-steps into a new representation ci for each time step i. 最後に、アグリゲータは、複数の量子化された特徴ベクトル時間ステップを時間ステップiごとに新しい表現ciに結合する。 0.60
The model is trained to distinguish a sample k steps in the future ˆzi+k from distractor samples ˜z drawn from a distribution pn, by minimizing the contrastive loss for steps k = {1, . このモデルは、将来のシュジ+kのサンプル k ステップと、分布 pn から引き出された散逸したサンプル sz とを区別するために訓練され、ステップ k = {1, の対照的な損失を最小限に抑える。 0.69
. . , K} as in Eq 3, where T is the sequence length, (cid:124) σ(x) = 1/(1 + exp(−x)), σ(ˆz i+khk(ci) is the probability of ˆzi+k being the true sample, and hk(ci) is the step-specific affine transformation hk(ci) = Wkci + bk. . . 次数 t が列長 (cid:124) σ(x) = 1/(1 + exp(−x)) であるような eq 3 において、σ(\z i+khk(ci) が真のサンプルである確率であり、hk(ci) はステップ固有のアフィン変換 hk(ci) = wkci + bk である。 0.84
Finally, this loss is accumulated over all k steps L =(cid:80)K 最後に、この損失は すべての k ステップ L = (cid:80)K に蓄積される 0.78
k=1 Lk. T−k(cid:88) k=1 lk。 t−k(cid:88) 0.69
(cid:16) Lk = (cid:16) Lk= 0.79
(cid:124) i+khk(ci)) log σ(ˆz (cid:124) i+khk(ci))log σ(z) 0.76
i=1 (cid:124) + λE˜z∼pn [log σ(−˜z i=1 (cid:124) + λE シュズ・プン[log σ(− シュズ]) 0.61
hk(ci))] (cid:17) hk(ci)] (cid:17) 0.68
(3) Training. For VQ-VAE, the encoder has 4 Bi-LSTM layers each with output dimension 128 followed by a 16-dimensional and a feed-forward decoder with one hidden layer. (3) 訓練。 VQ-VAEの場合、エンコーダは出力次元128の4つのBi-LSTM層を持ち、次いで16次元のフィードフォワードデコーダと1つの隠蔽層を持つ。 0.74
The number of discovered units (quantization centroids) is set to 50. 検出された単位数(量子化中心体)は50に設定される。 0.74
This setting is unusually low but helps to reduce the length of the output sequence. この設定は異常に低いが、出力シーケンスの長さを減らすのに役立つ。 0.80
We set k1 = 2 and k2 = 4 (Eq. k1 = 2 と k2 = 4 (eq) とする。 0.77
2) and train3 with Adam with an initial learning rate of 2× 10−3 which is halved whenever the loss stagnates for two training epochs. 2)および,初期学習率2×10−3のadamによるtrain3は,2つのトレーニング時代において損失が停滞するたびに半減する。 0.73
For vq-wav2vec, we use the small model4 from [18], but with only 64 channels, residual scale of 0.2, and warm-up of 10k. vq-wav2vecでは、[18]の小さなmodel4を使用しますが、わずか64チャンネル、残留スケール0.2、ウォームアップ10kです。 0.61
For vocabulary we adopted G=2 and experimented having both V=4, resulting in 16 units (VQ-W2V-V16), and V=6, resulting in 36 units (VQ-W2V-V36). 語彙にはg=2を採用し,v=4と16単位(vq-w2v-v16),v=6をそれぞれ有し,36単位(vq-w2v-v36)とした。 0.59
Larger vocabularies resulted in excessively long sequences which could not be used for UWS.5 We also experimented reducing the representation by using Byte Pair Encoding (BPE) [39], hypothesizing that phones were being modeled by a combination of different units. 我々はまた、携帯電話が異なるユニットの組み合わせでモデル化されていることを仮定して、Byte Pair Encoding (BPE) [39] を用いて表現を減らす実験を行った。
訳抜け防止モード: UWS.5では使用できない大語彙が過剰に長い配列となり、表現の削減も試みた。 Byte Pair Encoding (BPE ) [ 39 ] 携帯電話は異なるユニットの組み合わせで モデル化されているという仮説です
0.79
In this setting, BPE serves as a method for identifying and clustering these patterns. この設定では、BPEはこれらのパターンの識別とクラスタリングの方法として機能する。 0.64
Surprisingly, we found that using BPE resulted in a decrease 驚くべきことに、BPEの使用が減少することがわかった。 0.68
3Implementation available BUTSpeechFIT/vq-aud 3実装 利用可能 BUTSpeechFIT/vq-aud 0.53
4Implementation available at: 4実装 利用可能 at: 0.69
at: https://github.com/ at: https://github.com/ 0.69
https://github.com/ https://github.com/ 0.52
pytorch/fairseq/tree /master/examples/wav 2vec pytorch/fairseq/tree /master/examples/wav 2vec 0.17
5The dpseg original implementation only processes sequences 5 the dpseg original implementation only processes sequences 0.94
shorter than 350 tokens. 350枚未満のトークンです 0.65
英語(論文から抽出)日本語訳スコア
Table 1: Statistics for the datasets computed over the text (FR), or over the phonemic representation (*). 表1: テキスト(FR)または音声表現(*)上で計算されたデータセットの統計。
訳抜け防止モード: 表1 : テキスト上で計算されたデータセットの統計(fr) または音素表現(*)の上に。
0.86
#Types #Tokens Avg Token #型 #刀剣 avgトークン 0.53
Length Avg #Tokens per Sentence 長さ Avg #Tokens per Sentence 0.80
MB-FR MB* FR FI* HU* RO* RU* FR MB-FR MB* FR FI* HU* RO* RU* FR 0.97
MaSS 6,633 5,162 MASS 6,633 5,162 0.54
12,088 12,993 6,795 10,624 7,226 12,088 12,993 6,795 10,624 7,226 0.44
30,556 42,715 30,556 42,715 0.50
70,226 69,755 84,613 67,176 94,527 70,226 69,755 84,613 67,176 94,527 0.44
4.2 4.4 6.0 5.9 4.5 6.2 4.1 4.2 4.4 6.0 5.9 4.5 6.2 4.1 0.47
6.0 8.3 13.2 13.1 15.9 12.6 17.8 6.0 8.3 13.2 13.1 15.9 12.6 17.8 0.47
in UWS performance, which shows that this model is not very consistent during labeling process. uwsパフォーマンスでは、ラベリングプロセス中にこのモデルがあまり一貫性がないことを示している。
訳抜け防止モード: UWS のパフォーマンスは このモデルはラベル付け過程において あまり一貫性がないことが示されます
0.76
3.2. Bayesian Generative Models For generative models, each acoustic unit embedding ηi represents the parameters of a probability distribution p(xn|ηzn , zn) with latent variables z. Discovering the units amounts to estimating the posterior distribution over the embeddings H and the assignment variables z given by: 3.2. ベイズ生成モデル 生成モデルの場合、各音響単位 ηi は確率分布 p(xn|ηzn , zn) と潜在変数 z のパラメータを表す。
訳抜け防止モード: 3.2. ベイズ生成モデル 生成モデルの場合、各音響単位 ηi は確率分布 p(xn|ηzn) のパラメータを表す。 zn ) を潜時変数 z で表す。 ユニットの発見 埋め込み H と代入変数 z 上の後続分布を推定する量。
0.76
U(cid:89) U (cid:89) 0.82
p(z, H|X) ∝ p(X|z, H)p(z|H) p(z, H|X) > p(X|z, H)p(z|H) 0.85
p(ηu). (4) p(ηu)。 (4) 0.86
u=1 From this, we describe three different approaches. u=1 このことから、3つの異なるアプローチが説明できる。 0.61
HMM. In this model each unit is a 3-state left-to-right HMM with parameters ηi. HMM。 このモデルでは、各単位はパラメータ ηi を持つ3状態の左から右 HMM である。 0.71
Altogether, the set of units forms a large HMM analog to a “phone-loop” recognition model. さらに、単位の集合は、"phone-loop"認識モデルと大きなHMMアナログを形成する。 0.76
This model, described in [12], serves as the backbone for the two subsequent models. このモデルは[12]で説明され、その後の2つのモデルのバックボーンとして機能します。 0.69
SHMM. The prior p(η) in Eq 4 is the probability that a sound, represented by an HMM with parameters η, is an acoustic unit. SHMM。 Eq 4 の前の p(η) は、パラメータ η を持つ HMM で表される音が音響単位である確率である。 0.77
For the former model, it is defined as a combination of exponential family distributions forming a prior conjugate to the likelihood. 前者のモデルでは、指数族分布の組合せとして定義され、その確率に先行共役を形成する。 0.72
While mathematically convenient, this prior does not incorporate any knowledge about phones, i.e. 数学的には便利だが、この前は携帯電話に関する知識を一切含んでいなかった。 0.59
it considers all possible sounds as potential acoustic units. 全ての音を潜在的な音響単位とみなすのです 0.72
In [15], they propose to remedy this shortcoming by defining the parameters of each unit u as in Eq 5, where eu is a low-dimensional unit embedding, W and b are the parameters of the phonetic subspace, and the function f (·) ensures that the resulting vector ηu dwells in the HMM parameter space. 15] では、eu が低次元の単位埋め込みであり、w と b が音素部分空間のパラメータであり、関数 f (·) が結果のベクトル ηu が hmm パラメータ空間に収まることを保証し、eq 5 のように各単位 u のパラメータを定義することで、この欠点を解消することを提案している。 0.78
The subspace, defined by W and b, is estimated from several labeled source languages. w と b で定義される部分空間は、いくつかのラベル付きソース言語から推定される。 0.68
The prior p(η) is defined over the low-dimensional embeddings p(e) rather than η directly, therefore constraining the search of units in the relevant region of the parameter space. 前の p(η) は η ではなく、低次元埋め込み p(e) 上で定義されるため、パラメータ空間の関連する領域における単位の探索が制限される。 0.81
This model is denoted as the Subspace HMM (SHMM). このモデルは、Subspace HMM (SHMM) と表記される。 0.80
ηu = f (W · eu + b) ηu = f (W · eu + b) 0.93
(5) H-SHMM. (5) H-SHMM 0.83
While the SHMM significantly improves results over the HMM, it also suffers from an unrealistic assumption: it assumes that the phonetic subspace is the same for all languages. SHMMはHMMよりも結果を著しく改善するが、非現実的な仮定に悩まされる。
訳抜け防止モード: SHMMはHMMよりも有意に改善するが、非現実的な仮定に悩まされる。 音素部分空間は全ての言語で同じだと仮定します
0.69
[16] relax this assumption by proposing to adapt the subspace for each target language while learning the acoustic units. 16] アコースティックユニットを学習しながら, 対象言語ごとに部分空間を適応させることにより, この仮定を緩和する。 0.69
Formally, for a given language λ, the subspace and the acoustic units’ parameters are constructed as in Eq 6-8, where the matrices M0, . 形式的には、ある言語 λ に対して、部分空間と音響単位のパラメータは Eq 6-8 のように構成される。
訳抜け防止モード: 形式的には、与えられた言語 λ に対して、部分空間と音響単位 ′ のパラメータは eq 6 - 8 のように構成される。 行列 m0 , .
0.76
. . , MK and vectors m0, . . . , MKおよびベクトルm0, 。 0.85
. . , mK represent some “template” phonetic subspaces linearly combined by a language . . mk は言語によって線形に結合されたいくつかの「テンプレート」音声部分空間を表す 0.75
1 , αλ K ](cid:62). 1 , αλ K ] (cid:62。 0.91
The matrices Mi and embedding αλ = [αλ the vectors mi are estimated from labeled languages, from multilingual transcribed speech dataset for instance, while the acoustic units’ low-dimensional embeddings {ei} and the language embedding α are learned on the target (unlabeled) speech data. 対象(ラベルなし)音声データには、例えば多言語転写音声データセットから、行列miと埋め込みαλ=[αλ]のベクトルmiをラベル付き言語から推定し、音響単位の低次元埋め込み{ei}と埋め込み言語αを学習する。 0.76
We refer to this model as the Hierarchical SHMM (H-SHMM). このモデルを階層型SHMM(H-SHMM)と呼ぶ。 0.72
2 , . . . , αλ 2 , . . . , αλ 0.86
K(cid:88) K(cid:88) K(cid:88)K(cid:88) 0.81
k=1 Wλ = M0 + k=1 Wλ = M0 + 0.71
bλ = m0 + αλ bλ = m0 + αλ 0.81
kMk αλ k mk kMk αλ k mk 0.83
ηλ,u = f (Wλ · eλ,u + bλ) ηλ,u = f (Wλ · eλ,u + bλ) 0.93
k=1 (6) (7) k=1 (6) (7) 0.76
(8) Inference. For the three generative models, the posterior distribution is intractable and cannot be estimated. (8) 推測。 3つの生成モデルでは、後方分布は難解であり、推定できない。 0.67
Instead, one seeks for an approximate posterior q({ηi}, z) = q({ηi})q(z) which maximizes the variational lower-bound L[q]. 代わりに、近似的な後方 q({ηi}, z) = q({ηi})q(z) を求め、これは変分下界 L[q] を最大化する。 0.80
Concerning estimation of q(z), the expectation step is identical for all models and is achieved with a modified forward-backward algorithm described in [12]. q(z) の推定に関して、期待ステップは全モデルと同一であり、[12] で記述された修正前後方アルゴリズムによって達成される。 0.77
Estimation of q(η), the maximization step, is model-specific and is described in [12] for the HMM, in [15] for SHMM models, and in [16] for the H-SHMM model. 最大化ステップであるq(η)の推定はモデル固有であり、HMMの[12]、SHMMモデルの[15]、H-SHMMモデルの[16]に記述される。
訳抜け防止モード: 最大化ステップ q(η ) の推定はモデル特異的である HMMは[12 ]、SHMMモデルは[15 ]で説明されます。 そして、H - SHMM モデルの [16 ] において。
0.82
Finally, the output of each system is obtained from a modified Viterbi algorithm which uses the expectation of the log-likelihoods with respect to q({ηi}), instead of point estimates. 最後に、各システムの出力は、点推定の代わりにq({ηi})に対する対数類似性の期待値を利用する修正されたビタビアルゴリズムから得られる。 0.83
Training. The models6 are trained with 4 Gaussians per HMM state and using 100 for the Dirichlet process’ truncation parameter. 訓練。 モデル6は、HMM状態当たり4つのガウスでトレーニングされ、ディリクレプロセスのトラクションパラメータに100を使用する。 0.70
SHMM and H-SHMM use an embedding size of 100, and H-SHMM models have a 6-dimensional language embedding. SHMMとH-SHMMは埋め込みサイズが100であり、H-SHMMモデルは6次元の言語埋め込みを持つ。 0.71
For the methods which use sub-spaces estimation (SHMM and H-SHMM), this estimation uses the following languages: French, German, Spanish, Polish from the Globalphone corpus [40], as well as Amharic [41], Swahili [42] and Wolof [43] from the ALFFA project [44]. 部分空間推定(SHMM, H-SHMM)を用いる手法では,ALFFAプロジェクト[44]のAmharic[41],Swahili[42],Wolof[43]に加えて,Globalphoneコーパス[40]からのフランス語,ドイツ語,スペイン語,ポーランド語,およびAlfFAプロジェクト[44]からのWolof[43]を用いる。 0.81
We use 2-3 hours subsets of each, totaling around 19 hours. それぞれ2~3時間のサブセットを使用しており、合計で19時間です。 0.64
4. Experimental Setup From the discrete speech units produced by the presented speech discretization models, we produce segmentation in the symbolic domain by using two UWS models. 4. 実験装置 提案した音声離散化モデルによって生成された離散音声単位から、2つのUWSモデルを用いてシンボル領域のセグメンテーションを生成する。 0.73
A final speech segmentation is then inferred using the units’ time-stamps and evaluated by using the Zero Resource Challenge 2017 evaluation suite, track 2 [4]. そして、最終音声セグメンテーションをユニットのタイムスタンプを用いて推定し、zero resource challenge 2017 evaluation suite, track 2 [4]を用いて評価する。 0.75
We now detail the UWS models used in this work, which are trained with the same parameters from [9], the datasets, and the post-processing for the speech discrete units. 現在、この作業で使用されるUWSモデルは、[9]から同じパラメータでトレーニングされ、データセット、および音声離散単位の処理後処理について詳述しています。 0.76
Bayesian UWS approach (monolingual). ベイズ的UWSアプローチ(モノリンガル)。 0.58
Non-parametric Bayesian models [13, 45] are statistical approaches for UWS and morphological analysis, known to be robust in low-resource settings [46]. 非パラメトリックベイズモデル [13, 45] は、低リソース環境で堅牢であることが知られているUWSおよび形態解析の統計的アプローチである。 0.86
In these models, words are generated by a unigram or bigram model over an infinite inventory, through the use of a Dirichlet process. これらのモデルでは、単語はディリクレ過程を用いて無限のインベントリ上のユニグラムまたはビッグラムモデルによって生成される。 0.70
In this work, we use the unigram model from dpseg [33], which was shown to be superior than the bilingual model in low-resource settings [47]. 本研究では, dpseg [33] の unigram モデルを用いて, 低リソース設定では, バイリンガルモデルよりも優れていることを示した [47]。 0.77
Neural UWS approach (bilingual). 神経uwsアプローチ(バイリンガル)。 0.51
We follow the bilingual pipeline from [9]. 私たちは[9]からバイリンガルパイプラインに従います。 0.64
The discrete speech units and their sentencelevel translations are fed to an attention-based Neural Machine Translation system that produces soft-alignment probability matrices between source and target sequences. 離散音声ユニットとその文レベルの翻訳は、ソースとターゲットシーケンス間のソフトアレーメント確率行列を生成する注意に基づくニューラルマシン翻訳システムに供給される。 0.82
For each sentence 6Implementation 各文について 6実装 0.62
available at: https://github.com/ 利用可能 at: https://github.com/ 0.65
beer-asr/beer/tree/m aster/recipes/hshmm beer-asr/beer/tree/m aster/recipes/hshmm 0.17
英語(論文から抽出)日本語訳スコア
Table 2: Statistics for the discrete speech units produced for the Mboshi, with the difference between the produced and reference representation shown between parentheses. 表2:Mboshi で生成した離散音声単位の統計値について,括弧と参照表現の差について検討した。 0.71
RAW is the original output from speech discretization models, +SIL is the result after silence post-processing. RAWは音声離散化モデルからの最初の出力であり、+SILは沈黙後処理の結果である。 0.72
Other languages follow the same trend. 他の言語も同じ傾向である。 0.77
L # Units # Units Avg #Units per sequence Max Length L # ユニット # Units Avg #Units per sequence Max Length 0.81
Avg #units per sequence Max Length Avg #units per sequence Max Length 0.85
W A R I S + W A R I S + 0.85
W A R I S + W A R I S + 0.85
L # Units # Units Avg #units per sequence Max Length L # ユニット # Units Avg #units per sequence Max Length 0.81
Avg #units per sequence Max Length Avg #units per sequence Max Length 0.85
HMM 77 (+9) HMM 77 (+9) 0.92
27.5 (+8.7) 68 (+17) 75 (+7) 27.5 (+8.7) 68 (+17) 75 (+7) 0.76
20.9 (+2.1) 69 (+18) VQ-VAE 20.9 (+2.1) 69 (+18) VQ-VAE 0.65
SHMM 76 (+8) SHMM 76 (+8) 0.92
24.0 (+5.2) 69 (+18) 75 (+7) 24.0 (+5.2) 69 (+18) 75 (+7) 0.76
19.9 (+1.1) 62 (+11) 19.9 (+1.1) 62 (+11) 0.71
H-SHMM 49 (-19) H-SHMM 49 (-19) 0.72
21.7 (+2.9) 63 (+12) 47 (-21) 21.7 (+2.9) 63 (+12) 47 (-21) 0.80
19.4 (+0.6) 19.4 (+0.6) 0.59
60 (+9) VQ-W2V-16 60 (+9) VQ-W2V-16 0.64
VQ-W2V-36 50 (-18) VQ-W2V-36 50 (-18) 0.57
16 (-52) 36 (-32) 16 (-52) 36 (-32) 0.85
65.2 (+46.4) 217 (+166) 65.2 (+46.4) 217 (+166) 0.71
50 (-18) 43.4 (+24.6) 143 (+92) 50 (-18) 43.4 (+24.6) 143 (+92) 0.78
81.7 (+62.9) 289 (+238) 81.7 (+62.9) 289 (+238) 0.71
16 (-52) 52.6 (+33.8) 229 (+178) 16 (-52) 52.6 (+33.8) 229 (+178) 0.78
111.0 (+92.2) 361 (+310) 111.0 (+92.2) 361 (+310) 0.71
36 (-32) 76.2 (+57.4) 271 (+220) 36 (-32) 76.2 (+57.4) 271 (+220) 0.78
pair, its matrix is used for clustering together (segmenting) neighboring phones whose alignment distribution peaks at the same source word. ペア、そのマトリクスは、同じソースワードでアライメント分布がピークとなる隣り合う携帯電話のクラスタリング(セグメンテーション)に使用される。 0.81
We refer to this model as neural. 我々はこのモデルをニューラルと呼ぶ。 0.72
Datasets. We use the same dataset from [9]: the Mboshi-French parallel corpus (MB-FR) [20], which is a 5,130 sentence corpus from the language documentation process of Mboshi (Bantu C25), an oral language spoken in Congo-Brazzaville. データセット。 9]: mboshi- french parallel corpus (mb-fr) [20]、congo-brazzaville で話されている mboshi (bantu c25) の言語文書化プロセスから5,130文のコーパスである。
訳抜け防止モード: データセット。 同じデータセットを [9 ] : Mboshi - French parallel corpus (MB - FR ) [20 ] から使います。 これは、Mboshi(Bantu C25 )の言語文書プロセスからの5,130文のコーパスである。 コンゴで話される口語:ブラザヴィル
0.74
We also report results using an extract from the MaSS corpus [21], a multilingual speech-to-speech and speech-to-text dataset. また,マスコーパス [21] から抽出した音声対音声データと音声対テキストデータセットを用いて結果を報告する。 0.61
We use the down-sampling from [48], which results in 5,324 aligned sentences. 我々は[48]のダウンサンプリングを使い、5,324個のアライメント文を生成する。 0.59
We exclude English, French and Spanish, as these languages are present in the sub-space prior from SHMM and H-SHMM models. SHMMモデルやH-SHMMモデルに先行する部分空間にこれらの言語が存在するため、英語、フランス語、スペイン語を除外する。 0.63
We also exclude Basque as the sequences produced were too long for UWS training. 生成したシーケンスがUWSトレーニングに長すぎるため、Basqueも除外しています。 0.50
The final set of languages is: Finnish (FI), Hungarian (HU), Romanian (RO) and Russian (RU). 最終言語はフィンランド語(FI)、ハンガリー語(HU)、ルーマニア語(RO)、ロシア語(RU)である。 0.73
In all cases, the French (FR) translations are used as supervision for the neural UWS approach. いずれの場合も、フランス語(FR)翻訳は、ニューラルUWSアプローチの監督として使用される。 0.66
Statistics are presented in Table 1. 統計は表1に示される。 0.84
Discrete Speech Units Post-processing. 処理後の離散音声単位。 0.63
We experiment with reducing the representation by removing units predicted in silence windows. 我々は、サイレントウインドウで予測される単位を取り除いて表現を減らす実験を行う。 0.61
For this, we use the gold references’ silence annotations. このために、金の参照の沈黙アノテーションを使用します。 0.66
Removing these allow us to focus the investigation on the quality of the units generated in relevant portions of the speech. これらを除去することで、音声の関連部分で生成された単位の質に焦点を合わせることができる。 0.62
We see in Table 2 that removing windows that we know correspond to silence considerably reduces the number of units generated by all models. テーブル2では、沈黙に対応する窓を取り除くことで、すべてのモデルから生成されるユニット数を大幅に削減できる。 0.74
Before UWS evaluation, the silence windows are reintroduced to insure that their segmentation boundaries are taken into account. UWS評価の前に、サイレントウィンドウが再導入され、セグメンテーション境界が考慮されることが保証される。 0.62
5. Experiments Table 3 presents UWS Boundary F-scores for UWS models (dpseg and neural) trained using different discrete speech units for the MB-FR dataset. 5. 実験 表3は、MB-FRデータセットの異なる離散音声単位を用いて訓練されたUWSモデル(dpsegとNeural)のUWS境界Fスコアを提示する。 0.76
We include results for both the direct output (RAW) and the post-processed version (+SIL). 直接出力(RAW)と後処理バージョン(+SIL)の両方の結果を含める。 0.73
The RAW VQ-W2V-V36 is not included as its output sequences were excessively large for training our UWS models (Table 2). RAW VQ-W2V-V36は出力シーケンスが過剰に大きく、UWSモデルをトレーニングするために含まれていない(表2)。 0.65
We observe that in all cases, post-processing the discrete speech units with the silence information (+SIL) creates easier representations for the UWS task. いずれの場合も、サイレント情報(+SIL)で離散音声単位を後処理することで、UWSタスクの表現がより簡単になることを観察する。 0.66
We believe this is due to the これが原因だと信じています 0.64
Table 3: UWS Boundary F-scores for the MB-FR dataset. 表3: MB-FRデータセットのUWS境界Fスコア。 0.76
dpseg neural 1 2 3 4 5 6 7 dpseg 神経 1 2 3 4 5 6 7 0.78
HMM SHMM H-SHMM VQ-VAE VQ-W2V-V16 VQ-W2V-V36 True Phones HMM H-SHMM VQ-VAE VQ-W2V-V16 VQ-W2V-V36 実機 0.40
RAW +SIL 59.9 32.4 61.4 43.7 61.4 45.3 52.7 39.0 52.2 37.4 48.0 77.1 RAW +SIL 59.9 32.4 61.4 43.7 61.4 45.3 52.7 39.0 52.2 37.4 48.0 77.1 0.44
- - RAW +SIL 61.2 35.1 64.7 41.4 44.8 63.9 60.1 32.1 50.6 32.0 49.8 - - RAW +SIL 61.2 35.1 64.7 41.4 44.8 63.9 60.1 32.1 50.6 32.0 49.8 0.72
- - 74.5 (a) VQ-VAE: Discrete speech units (top), and reference (bottom). - - 74.5 (a)VQ-VAE: 音声単位(トップ)と参照(ボット)を離散化する。 0.78
(b) H-SHMM: Discrete speech units (top), and reference (bottom). (b)H-SHMM:離散音声単位(トップ)、参照(ボトム)。 0.71
Figure 1: Speech discrete units produced by two models for the same Mboshi sentence. 図1:同じMboshi文の2つのモデルで生成された音声離散単位。 0.77
Black lines denote the true boundaries, while dashed white lines denote the discovered units boundaries. 黒線は真の境界を表し、白線は発見された単位の境界を表す。 0.81
considerable reduction in average length of the sequences (Table 2). 配列の平均長の相当な減少(表2)。 0.62
For Bayesian models, we also observe a reduction in the number of units, meaning that some units were modelling silence windows, even though these models already produce an independent token for silence, which we remove before UWS training. ベイズモデルの場合、いくつかのユニットはサイレントウィンドウをモデル化しており、これらのモデルはすでにサイレントトークンを生成しており、UWSトレーニング前に取り除いている。
訳抜け防止モード: ベイズ模型に対しては、単位数の減少も観察する。 一部のユニットは サイレントウィンドウをモデル化していましたが これらのモデルは、すでに独立したサイレントトークンを生成しています。
0.71
Looking at the results for UWS models trained using the output of VQ-based models (rows 4-6), we see that the best segmentation result is achieved using the one with the smallest average sequence length (VQ-VAE). VQに基づくモデル(下図4-6)の出力を用いてトレーニングしたUWSモデルの結果を見ると、最小平均シーケンス長(VQ-VAE)のモデルを用いて、最良のセグメンテーション結果が得られることが分かる。 0.81
In general, we believe that all VQ-based models under-perform due to the excessively long sequences produced, which are challenging for UWS. 一般に、VQベースのモデルはすべて、過剰に長いシーケンスが生成されるため、性能が低下していると信じている。 0.65
Figure 1 illustrates this difference in representation length, by presenting the speech discrete units produced by H-SHMM and VQ-VAE for a given utterance. 図1は、与えられた発話に対してH-SHMMとVQ-VAEによって生成された音声離散単位を提示することにより、この表現長の違いを説明している。
訳抜け防止モード: 図1は、この表現長の違いを 与えられた発話に対してh - shmm と vq - vae によって生成された音声離散単位を示す。
0.61
Overall, we find that UWS models trained using the discrete speech units from Bayesian models produce better segmentation, with models trained with SHMM and HSHMM presenting the best results. 全体として、ベイズモデルからの離散音声単位を用いて訓練されたUWSモデルは、より良いセグメンテーションをもたらし、SHMMとHSHMMで訓練されたモデルは最良の結果を示す。 0.68
A noticeable difference between these two models is the compression level: H-SHMM uses 27 less units than SHMM. H-SHMMは、SHMMよりも27の少ないユニットを使用する。 0.40
Regarding type retrieval, the models scored 12.1% (SHMM), 10.7% (H-SHMM), and 31% (topline). タイプ検索では、モデルが12.1%(SHMM)、10.7%(H-SHMM)、31%(トップライン)を記録した。 0.62
We also find that SHMM models produced more types and less tokens, reaching a higher Type-Token Ratio (0.63) compared to H-SHMM (0.55). また, SHMMモデルでは, H-SHMM (0.55) よりも高い型と少ないトークンが生成され, タイプトークン比 (0.63) に達した。 0.67
Focusing on the generalization of the presented speech discretization models, we trained them using four languages from the MaSS dataset. 提案した音声離散化モデルの一般化に着目し,MASSデータセットから4つの言語を用いて学習を行った。
訳抜け防止モード: 提示音声離散化モデルの一般化に着目して MaSSデータセットから4つの言語をトレーニングしました。
0.77
However, we found that due to the considerable larger average length of the sentences (Table 1), the VQ-based models produced sequences we were unable to directly apply to UWS training. しかし、文の平均長がかなり大きいため(表1)、VQベースのモデルでは、直接UWSトレーニングには適用できないシーケンスを生成した。
訳抜け防止モード: しかし, 文の平均長がかなり大きいため (表1 ) が得られた。 VQベースのモデルは、UWSトレーニングに直接適用できなかったシーケンスを生成しました。
0.71
This again highlights that these models need some constraining, or post-processing, in order to be directly exploitable for UWS. これはまた、これらのモデルがUWSに直接利用するためにいくつかの制約や後処理が必要であることを強調している。 0.59
Focusing on the Bayesian models, Table 4 present UWS results. ベイズモデルに焦点をあてて、テーブル4は UWS の結果を示す。 0.70
We omit results for RAW, as we observe the same trend from Table 3. 表3から同じ傾向が見られたので、RAWの結果を省略する。 0.66
Looking at the results 結果を見て 0.73
英語(論文から抽出)日本語訳スコア
Table 4: UWS Boundary F-scores for the MaSS dataset using Bayesian models (+SIL only). 表 4: uwsバウンダリ f-scores for the mass dataset using bayesian model (+sil only)。 0.76
Best results presented in bold. 最善の結果は太字で示される。 0.60
dpseg neural HMM SHMM H-SHMM True Phones dpseg 神経 HMM SHMM H-SHMM 真の電話機 0.71
FI 45.6 49.0 50.5 87.1 FI 45.6 49.0 50.5 87.1 0.50
HU 49.9 52.3 52.9 83.3 HU 49.9 52.3 52.9 83.3 0.50
RO 53.5 53.5 58.0 88.0 RO 53.5 53.5 58.0 88.0 0.50
RU 47.1 50.5 52.9 85.9 RU47.1 50.552.985.9 0.51
FI 53.4 56.0 56.1 FI 53.4 56.0 56.1 0.53
68.4 HU 51.2 53.9 53.3 68.4 HU 51.2 53.9 53.3 0.56
63.4 RO 56.6 57.7 59.6 63.4 RO 56.6 57.7 59.6 0.56
75.7 RU 54.9 57.7 56.0 75.7 RU 54.9 57.7 56.0 0.56
68.4 for the four languages, we again observe competitive results for SHMM and H-SHMM models, illustrating that these approaches generalize well to different languages. 68.4 4言語に対して,SHMMモデルとH-SHMMモデルとの競合結果を再度観察し,これらのアプローチが異なる言語によく当てはまることを示した。 0.65
Regarding the lower results for the languages from MaSS dataset (best result: 59.6) compared to the Mboshi (best result: 64.7), we highlight that the data for the former comes from read text, and that the utterances correspond to verses that are considerably longer than sentences (Table 1). Mboshi(64.7)と比較して、MASSデータセット(59.6)の低い結果については、前者のデータが読み上げテキストから来ていること、発声が文よりもかなり長い詩に対応すること(表1)を強調した。 0.64
This results in a more challenging setting for UWS and explains the lower results. その結果、UWSはより難しい設定になり、より低い結果が説明されます。 0.61
Lastly, our results over five languages show that the neural UWS model produces better segmentation results from discrete speech units than dpseg, which in turn performs the best with the true phones (topline). 最後に, 5言語以上の結果から, ニューラルuwsモデルでは, dpsegよりも離散音声単位のセグメンテーション結果が良好であることが判明した。 0.59
This confirms the trend observed by [9]. これは[9]で観測される傾向を確認します。 0.66
The neural UWS models have the advantage of their word-level aligned translations for grounding the segmentation process, which might be attenuating the challenge of the task in this noisier scenario, with longer sequences and more units. ニューラルなUWSモデルは、このノイズの多いシナリオにおけるタスクの課題を減らし、長いシーケンスとより多くのユニットを持つかもしれない、セグメンテーションプロセスの基盤となるワードレベルの変換の利点がある。 0.67
6. Conclusion In this paper we compared five methods for speech discretization, two neural models (VQ-VAE, VQ-WAV2VEC), and three Bayesian approaches (HMM, SHMM, H-SHMM), with respect to their performance serving as direct input to the task of Unsupervised Word Segmentation (UWS) in low-resource settings. 6. 結論 本稿では,2つのニューラルモデル (vq-vae, vq-wav2vec) と3つのベイズ的アプローチ (hmm, shmm, h-shmm) について,低リソース環境における教師なし単語分割 (unsupervised word segmentation, uws) タスクへの直接入力としての性能について比較した。
訳抜け防止モード: 6. 結論 本稿では,2つのニューラルモデル(VQ-VAE)を用いて,音声認識の5つの手法を比較した。 VQ - WAV2VEC)と3つのベイズ的アプローチ(HMM, SHMM, H - SHMM) パフォーマンスに関しては、低いリソース設定でUnsupervised Word Segmentation(UWS)タスクへの直接入力として機能する。
0.74
Our motivation for such a study lies on the need of processing oral and low-resource languages, for which obtaining transcriptions is a known bottleneck [49]. このような研究の動機は、口頭および低リソース言語を処理する必要があることにあります。
訳抜け防止モード: このような研究の動機は、口頭および低リソース言語を処理する必要性にあります。 転写を入手し 既知のボトルネック[49]です。
0.71
In our UWS setting, and using five different languages (Finnish, Hungarian, Mboshi, Romanian and Russian), we find the Bayesian SHMM and H-SHMM models to perform the best, as they produced concise yet highly exploitable representations from just few hours of speech. UWS設定で、そして5つの異なる言語(フィンランド語、ハンガリー語、ムボシ語、ルーマニア語、ロシア語)を使用して、ベイズ的SHMMとH-SHMMモデルが、わずか数時間のスピーチから簡潔だが非常に活用可能な表現を生み出したため、最高のパフォーマンスを発揮する。
訳抜け防止モード: UWS設定では、5つの異なる言語(フィンランド語、ハンガリー語、ムボシ語、ルーマニア語、ロシア語)を使用します。 ベイズ的SHMMとH-SHMMモデルを見つける 最善を尽くし わずか数時間のスピーチから 簡潔で 巧妙な表現を生み出しました
0.72
Finally, this work updates [9] by using more recent speech discretization models, and presenting better UWS results for Mboshi. 最後に,より最近の音声識別モデルを用いて [9] をアップデートし, mboshi の uws 結果を改善した。 0.65
7. References [1] J. 7. 参考文献 [1]J。 0.74
Glass, “Towards unsupervised speech processing,” in Information Science, Signal Processing and their Applications (ISSPA). Glass, “Towards unsupervised speech processing” in Information Science, Signal Processing and their Applications (ISSPA)。 0.75
IEEE, 2012. 2012年、IEEE。 0.66
[2] A. Jansen et al , “A summary of the 2012 JH CLSP Workshop on zero resource speech technologies and models of early language acquisition,” in ICASSP, 2013. [2] a. jansen et al, “a summary of the 2012 jh clsp workshop on zero resource speech technologies and models of early language acquisition” in icassp, 2013” (英語) 0.76
[3] M. Versteegh, X. Anguera, A. Jansen, and E. Dupoux, “The zero resource speech challenge 2015: Proposed approaches and results,” Procedia Computer Science, vol. M. Versteegh, X. Anguera, A. Jansen, E. Dupoux, “The zero resource speech Challenge 2015: Proposed Approach and results”, Procedia Computer Science, vol.[3] M. Versteegh, X. Anguera, A. Jansen, E. Dupoux。
訳抜け防止モード: [3]M. Versteegh, X. Anguera, A. Jansen, E. Dupoux, “The zero resource speech Challenge 2015 : Proposed Approach and results” と題された。 Procedia Computer Science, vol。
0.90
81, pp. 67–72, 2016. 81, pp。 67–72, 2016. 0.82
[4] E. Dunbar, X. N. Cao, J. Benjumea, J. Karadayi, M. Bernard, L. Besacier, X. Anguera, and E. Dupoux, “The zero resource speech challenge 2017,” in 2017 IEEE Automatic Speech Recognition and Understanding Workshop (ASRU). E. Dunbar, X. N. Cao, J. Benjumea, J. Karadayi, M. Bernard, L. Besacier, X. Anguera, E. Dupoux, “The zero resource speech Challenge 2017” in 2017 IEEE Automatic Speech Recognition and Understanding Workshop (ASRU)。 0.88
IEEE, 2017, pp. IEEE、2017年。 0.63
323–330. [5] E. Dunbar, R. Algayres, J. Karadayi, M. Bernard, J. Benjumea, X.-N. Cao, L. Miskic, C. Dugrain, L. Ondel, A. W. Black, L. Besacier, S. Sakti, and E. Dupoux, “The Zero Resource Speech Challenge 2019: TTS Without T,” in Proc. 323–330. E. Dunbar, R. Algayres, J. Karadayi, M. Bernard, J. Benjumea, X.-N. Cao, L. Miskic, C. Dugrain, L. Ondel, A. W. Black, L. Besacier, S. Sakti, and E. Dupoux, “The Zero Resource Speech Challenge 2019: TTS Without T”. Proc.[5] 0.83
Interspeech 2019, 2019, pp. 文部省、2019年、2019年。 0.53
1088–1092. 1088–1092. 0.71
[Online]. Available: http://dx.doi.org/10 .21437/Interspeech.2 019-2904 [オンライン] http://dx.doi.org/10 .21437/interspeech.2 019-2904 0.49
[6] E. Dunbar, J. Karadayi, M. Bernard, X.-N. Cao, R. Algayres, L. Ondel, L. Besacier, S. Sakti, and E. Dupoux, “The zero resource speech challenge 2020: Discovering discrete subword and word units,” arXiv preprint arXiv:2010.05967, 2020. E. Dunbar, J. Karadayi, M. Bernard, X.-N. Cao, R. Algayres, L. Ondel, L. Besacier, S. Sakti, and E. Dupoux, “The zero resource speech Challenge 2020:covering discrete subword and word units” arXiv preprint arXiv:2010.05967, 2020”. E. Dunbar, J. Karadayi, M. Bernard. 0.77
[7] L. Besacier, B. Zhou, and Y. Gao, “Towards speech translation of non written languages,” in Spoken Language Technology Workshop, 2006. [7]L. Besacier, B. Zhou, Y. Gao, “Towards speech translation of non written languages” in Spoken Language Technology Workshop, 2006。 0.83
IEEE. IEEE, 2006, pp. IEEE。 2006年、p.p.。 0.70
222–225. [8] L. Duong, A. Anastasopoulos, D. Chiang, S. Bird, and T. Cohn, “An attentional model for speech translation without transcription,” in Proceedings of the 2016 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, 2016, pp. 222–225. L. Duong, A. Anastasopoulos, D. Chiang, S. Bird, T. Cohn, “An attentional model for speech translation without transcription” in Proceedings of the 2016 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, 2016 pp。
訳抜け防止モード: 222–225. [8 ]L. Duong, A. Anastasopoulos, D. Chiang, S. Bird, and T. Cohn, “A attentional model for speech translation without transcription” In Proceedings of the 2016 Conference of the North American Chapter of the Association for Computational Linguistics : Human Language Technologies, 2016, pp.
0.80
949–959. [9] P. Godard, M. Z. Boito, L. Ondel, A. Bérard, F. Yvon, “Unsupervised word A. Villavicencio, segmentation from speech with attention,” in Proc. 949–959. P. Godard, M. Z. Boito, L. Ondel, A. Bérard, F. Yvon, “Unsupervised word A. Villavicencio, segmentation from speech with attention”. Proc. 0.78
Interspeech 2018, 2018, pp. 2018年、p.c.、2018年。 0.19
2678–2682. 2678–2682. 0.71
http: //dx.doi.org/10.2143 7/Interspeech.2018-1 308 http: //dx.doi.org/10.2143 7/Interspeech.2018-1 308 0.24
[Online]. Available: [オンライン] 利用可能。 0.58
and L. Besacier, そしてL. Besacier。 0.69
[10] S. Bird, “Sparse transcription,” Computational Linguistics, 2021. [10]S. Bird, “Sparse transcription, Computational Linguistics, 2021. 0.83
[11] E. Dupoux, “Cognitive science in the era of artificial intelligence: A roadmap for reverse-engineering the infant language-learner,” Cognition, 2018. 11] e. dupoux, “cognitive science in the era of artificial intelligence: a roadmap for reverse-engineering the infant language-learner” cognition, 2018。 0.86
[12] L. Ondel, L. Burget, and J. 12] L. Ondel, L. Burget, J. 0.79
ˇCernock`y, “Variational inference for acoustic unit discovery,” Procedia Computer Science, vol. Procedia Computer Science, vol., “Variational Inference for Acoustic Unit Discovery”. Procedia Computer Science.com(英語) 0.78
81, pp. 80–86, 2016. 81, pp。 80–86, 2016. 0.82
[13] S. J. Goldwater, “Nonparametric bayesian models of lexical acqui- [13]S.J.ゴールドウォーター「語彙アクイの非パラメトリックベイズモデル」 0.73
sition,” Ph.D. dissertation, Citeseer, 2007. sition" ph.d. dissertation, citeseer, 2007年。 0.75
[14] M. Z. Boito, A. Bérard, A. Villavicencio, and L. Besacier, “Unwritten languages demand attention too! M. Z. Boito, A. Bérard, A. Villavicencio, L. Besacier, “無書きの言語も注意が必要だ! 0.84
word discovery with encoder-decoder models,” in 2017 IEEE Automatic Speech Recognition and Understanding Workshop (ASRU). 2017年、ieee automatic speech recognition and understanding workshop (asru) で「エンコーダ・デコーダモデルを用いた単語発見」が発表された。 0.59
IEEE, 2017, pp. IEEE、2017年。 0.63
458–465. [15] L. Ondel, H. K. Vydana, L. Burget, and J. 458–465. [15] L. Ondel, H. K. Vydana, L. Burget, J. 0.83
ˇCernocký, “Bayesian Subspace Hidden Markov Model for Acoustic Unit Discovery,” in Interspeech, 2019, pp. バイエルン・サブスペースHidden Markov Model for Acoustic Unit Discovery”. Interspeech, 2019, pp。 0.63
261–265. [Online]. 261–265. [オンライン] 0.69
Available: http://dx.doi.org/10 .21437/Interspeech.2 019-2224 http://dx.doi.org/10 .21437/interspeech.2 019-2224 0.30
[16] B. Yusuf, L. Ondel, L. Burget, J. Cernocky, and M. Saraclar, “A hierarchical subspace model for language-attuned acoustic unit discovery,” arXiv preprint arXiv:2011.03115, 2020. B. Yusuf, L. Ondel, L. Burget, J. Cernocky, M. Saraclar, “A hierarchical subspace model for language-attuned acoustic unit discovery, arXiv preprint arXiv:2011.03115, 2020”。 0.94
[17] A. van den Oord, O. Vinyals, and k. kavukcuoglu, “Neural discrete representation learning,” in Advances in Neural Information Processing Systems, I. Guyon, U. V. Luxburg, S. Bengio, H. Wallach, R. Fergus, S. Vishwanathan, and R. Garnett, Eds., vol. 17] a. van den oord, o. vinyals, k. kavukcuoglu, “neural discrete representation learning”, i. guyon, u. v. luxburg, s. bengio, h. wallach, r. fergus, s. vishwanathan, and r. garnett, eds., vol.の神経情報処理システムの発展。 0.80
30. Curran Associates, Inc., 2017, pp. 30. Curran Associates, Inc., 2017, pp。 0.84
6306–6315. 6306–6315. 0.71
[Online]. Available: https://proceedings. neurips.cc/paper/201 7/ file/7a98af17e63a0ac09 ce2e96d03992fbc-Pape r.pdf [オンライン] 利用可能:https://proceedings .neurips.cc/paper/20 17/ file/7a98af17e63a0ac 09ce2e96d03992fbc-Pa per.pdf 0.43
[18] A. Baevski, S. Schneider, and M. Auli, “vq-wav2vec: Selfsupervised learning of discrete speech representations,” in International Conference on Learning Representations (ICLR), 2020. A. Baevski, S. Schneider, M. Auli, “vq-wav2vec: Selfsupervised learning of discrete speech representations” in International Conference on Learning Representations (ICLR, 2020。 0.79
[19] J. Chorowski, R. J. Weiss, S. Bengio, and A. van den Oord, “Unsupervised speech representation learning using wavenet autoencoders,” IEEE/ACM transactions on audio, speech, and language processing, vol. J. Chorowski, R. J. Weiss, S. Bengio, A. van den Oord, “Unsupervised speech representation learning using wavenet autoencoders”, IEEE/ACM transaction on audio, speech, and language processing, vol。 0.80
27, no. 12, pp. 27号室 12、p。 0.49
2041–2053, 2019. 2041–2053, 2019. 0.84
[20] P. Godard, G. Adda, M. Adda-Decker, J. Benjumea, L. Besacier, J. Cooper-Leavitt, G.-N. Kouarata, L. Lamel, H. Maynard, M. Mueller, A. Rialland, S. Stueker, F. Yvon, and M. Z. Boito, “A very low resource language speech corpus for computational language documentation experiments,” in Proceedings of the Eleventh International Conference on Language Resources and Evaluation (LREC 2018). 20] p. godard, g. adda, m. adda-decker, j. benjumea, l. besacier, j. cooper-leavitt, g.-n. kouarata, l. lamel, h. maynard, m. mueller, a. rialland, s. stueker, f. yvon, m. z. boito, "a very low resource language speech corpus for computational language documentation experiments", in proceedings of the 11th international conference on language resources and evaluation (lrec 2018)
訳抜け防止モード: [20]P. Godard, G. Adda, M. Adda - Decker, J. Benjumea, L. Besacier, J. Cooper - Leavitt, G.-N. Kouarata L. Lamel, H. Maynard, M. Mueller, A. Rialland S. Stueker, F. Yvon, and M. Z. Boito, “計算言語ドキュメンテーション実験のための非常に低リソースな言語コーパス”。 第11回言語資源・評価国際会議(LREC 2018)に参加して
0.86
Miyazaki, Japan: European Language Resources Association (ELRA), May 2018. 宮崎, Japan: European Language Resources Association (ELRA) 2018年5月。 0.77
[Online]. Available: https://www.aclweb.o rg/anthology/L18-153 1 [オンライン] https://www.aclweb.o rg/anthology/l18-153 1 0.50
[21] M. Z. Boito, W. N. Havard, M. Garnerin, É. L. Ferrand, and L. Besacier, “Mass: A large and clean multilingual corpus of sentencealigned spoken utterances extracted from the bible,” Language Resources and Evaluation Conference (LREC), 2020. M. Z. Boito, W. N. Havard, M. Garnerin, É. L. Ferrand, L. Besacier, “Mass: A Large and clean multilingual corpus of sentencealigned spoken utterances extract from the Bible”. Language Resources and Evaluation Conference (LREC, 2020. 英語) 0.88
英語(論文から抽出)日本語訳スコア
[22] H. Kamper, K. Livescu, and S. Goldwater, “An embedded segmental k-means model for unsupervised segmentation and clustering of speech,” in 2017 IEEE Automatic Speech Recognition and Understanding Workshop (ASRU). H. Kamper, K. Livescu, S. Goldwater, “An embedded segmental k-means model for unsupervised segmentation and clustering of speech” in 2017 IEEE Automatic Speech Recognition and Understanding Workshop (ASRU)。 0.76
IEEE, 2017, pp. IEEE、2017年。 0.63
719–726. [23] O. Räsänen and M. A. C. Blandón, “Unsupervised discovery of recurring speech patterns using probabilistic adaptive metrics,” arXiv preprint arXiv:2008.00731, 2020. 719–726. 23] o. räsänen と m. a. c. blandón, “unsupervised discovery of recurring speech patterns using probabilistic adaptive metrics” arxiv preprint arxiv:2008.00731, 2020。 0.74
[24] C.-y. Lee, T. J. O’Donnell, and J. [24]C。 リー、T・J・オドネル、J。 0.60
Glass, “Unsupervised lexicon discovery from acoustic input,” Transactions of the Association for Computational Linguistics, vol. Glass, “unsupervised lexicon discovery from acoustic input”, Transactions of the Association for Computational Linguistics, vol. 0.80
3, pp. 389–403, 2015. 3、p。 389–403, 2015. 0.74
[25] V. Lyzinski, G. Sell, and A. Jansen, “An evaluation of graph clustering methods for unsupervised term discovery,” in Sixteenth Annual Conference of the International Speech Communication Association, 2015. V. Lyzinski, G. Sell, A. Jansen, “An Evaluation of graph clustering methods for unsupervised term discovery” in Sixteenth Annual Conference of the International Speech Communication Association, 2015 0.74
[26] M. Z. Boito, A. Villavicencio, and L. Besacier, “Empirical evaluation of sequence-to-sequence models for word discovery in low-resource settings,” in Proc. [26]M.Z. Boito,A. Villavicencio,L. Besacier,“低リソース環境における単語発見のためのシーケンス・ツー・シーケンスモデルの実験的評価”。
訳抜け防止モード: [26 ]M. Z. Boito, A. Villavicencio, L. Besacier 「低リソース環境における単語発見のためのシーケンス-to-シーケンスモデルの実証評価」 Procでは。
0.74
Interspeech 2019, 2019, pp. 文部省、2019年、2019年。 0.53
2688–2692. 2688–2692. 0.71
[Online]. Available: http://dx.doi.org/10 .21437/ Interspeech.2019-202 9 [オンライン] 利用可能: http://dx.doi.org/10 .21437/ Interspeech.2019-202 9 0.51
[27] H. Kamper and B. van Niekerk, “Towards unsupervised phone and word segmentation using self-supervised vector-quantized neural networks,” arXiv:2012.07551, 2020. H. Kamper and B. van Niekerk, “Towards unsupervised phone and word segmentation using self-supervised vector-quantized neural network”. arXiv:2012.07551, 2020. 0.90
[28] A. Anastasopoulos and D. Chiang, “Leveraging translations for speech transcription in low-resource settings,” in Proc. A. Anastasopoulos and D. Chiang, “Leveraging translations for speech transcription in low-resource settings”. Proc. 0.80
Interspeech 2018, 2018, pp. 2018年、p.c.、2018年。 0.19
1279–1283. 1279–1283. 0.71
[Online]. Available: http://dx.doi.org/10 .21437/Interspeech.2 018-2162 [オンライン] http://dx.doi.org/10 .21437/interspeech.2 018-2162 0.49
[29] B. Foley, J. Arnold, R. Coto-Solano, G. Durantin, E. Mark, D. van Esch, S. Heath, F. Kratochvil, Z. Maxwell-Smith, D. Nash et al , “Building speech recognition systems for language documentation: the coedl endangered language pipeline and inference system (elpis),” 2018. B. Foley, J. Arnold, R. Coto-Solano, G. Durantin, E. Mark, D. van Esch, S. Heath, F. Kratochvil, Z. Maxwell-Smith, D. Nash et al , “言語ドキュメントのための音声認識システムの構築: コーデルの絶滅危惧言語パイプラインと推論システム(elpis)”。 0.91
[30] A. Michaud, O. Adams, T. A. Cohn, G. Neubig, and S. Guillaume, “Integrating automatic transcription into the language documentation workflow: Experiments with na data and the persephone toolkit,” 2018. A. Michaud氏, O. Adams氏, T. A. Cohn氏, G. Neubig氏, S. Guillaume氏は,“言語ドキュメントワークフローに自動で書き起こしを統合する: naデータとパーセフォンツールキットによる実験”と2018年に述べている。 0.75
[31] J. Strunk, F. Schiel, F. Seifart et al , “Untrained forced alignment of transcriptions and audio for language documentation corpora using webmaus.” in LREC, 2014, pp. [31] j. strunk, f. schiel, f. seifart et al, “untrained forced alignment of transcriptions and audio for language documentation corpora using webmaus.” in lrec, 2014 pp. (英語) 0.86
3940–3947. 3940–3947. 0.71
[32] C. Lignos and C. Yang, “Recession segmentation: simpler online word segmentation using limited resources,” in Proceedings of the fourteenth conference on computational natural language learning, 2010, pp. 32] c. lignos, c. yang, “recession segmentation: simple online word segmentation using limited resources” in the14th conference on computational natural language learning, 2010, pp。 0.75
88–97. [33] S. Goldwater, T. L. Griffiths, and M. Johnson, “A bayesian framework for word segmentation: Exploring the effects of context,” Cognition, vol. 88–97. [33]S. Goldwater, T. L. Griffiths, M. Johnson, “A bayesian framework for word segmentation: Exploring the effect of context”, Cognition, vol。 0.77
112, no. 1, pp. 112 だめだ 1、p。 0.59
21–54, 2009. 21–54, 2009. 0.84
[34] C. Bartels, W. Wang, V. Mitra, C. Richey, A. Kathol, D. Vergyri, H. Bratt, and C. Hung, “Toward human-assisted lexical unit discovery without text resources,” in Spoken Language Technology Workshop (SLT), 2016 IEEE. [34] C. Bartels, W. Wang, V. Mitra, C. Richey, A. Kathol, D. Vergyri, H. Bratt, C. Hung, “Toward human-assisted lexical unit discovery without text resources” in Spoken Language Technology Workshop (SLT, 2016 IEEE). 2016年9月1日閲覧。 0.85
IEEE, 2016, pp. IEEE、2016年。 0.59
64–70. [40] T. Schultz, N. T. Vu, and T. Schlippe, “Globalphone: A multilingual text & speech database in 20 languages,” in International Conference on Acoustics, Speech and Signal Processing. 64–70. 40] t. schultz, n. t. vu, t. schlippe, “globalphone: a multilingual text & speech database in 20 languages” in international conference on acoustics, speech and signal processing. (英語) 0.77
IEEE, 2013. 2013年、IEEE。 0.59
[41] S. T. Abate, W. Menzel, and B. Tafila, “An amharic speech corpus for large vocabulary continuous speech recognition,” in Ninth European Conference on Speech Communication and Technology, 2005. 2005年第9回欧州音声通信技術会議において, [41] S. T. Abate, W. Menzel, B. Tafila, “An amharic speech corpus for large vocabulary continuous speech recognition” を報告した。 0.87
[42] H. Gelas, L. Besacier, and F. Pellegrino, “Developments of Swahili resources for an automatic speech recognition system,” in SLTUWorkshop on Spoken Language Technologies for Under-Resourced Languages, Afrique Du Sud, 2012. [42] h. gelas, l. besacier, f. pellegrino, “developments of swahili resources for an automatic speech recognition system” in sltuworkshop on spoken language technologies for under-resource languages, afrique du sud, 2012 0.79
[43] E. Gauthier, L. Besacier, S. Voisin, M. Melese, and U. P. Elingui, “Collecting Resources in Sub-Saharan African Languages for Automatic Speech Recognition: a Case Study of Wolof,” LREC, 2016. E. Gauthier, L. Besacier, S. Voisin, M. Melese, and U.P. Elingui, “Collecting Resources in Sub-Saharan African Languages for Automatic Speech Recognition: A Case Study of Wolof”. LREC, 2016 0.86
[44] L. Besacier, E. Gauthier, M. Mangeot, P. Bretier, P. Bagshaw, O. Rosec, T. Moudenc, F. Pellegrino, S. Voisin, E. Marsico et al , “Speech technologies for african languages: example of a multilingual calculator for education,” in Sixteenth Annual Conference of the International Speech Communication Association, 2015. 1544] L. Besacier, E. Gauthier, M. Mangeot, P. Bretier, P. Bagshaw, O. Rosec, T. Moudenc, F. Pellegrino, S. Voisin, E. Marsico et al , “Speech technology for Africann Language: example of a multilingual calculator for Education” in the Sixteenth Annual Conference of the International Speech Communication Association, 2015 0.92
[45] M. Johnson and S. Goldwater, “Improving nonparameteric bayesian inference: experiments on unsupervised word segmentation with adaptor grammars,” in Proc. M. Johnson and S. Goldwater, “Improving nonparameteric bayesian inference: experiment on unsupervised word segmentation with adaptor grammars”. Proc. (英語) 0.77
NAACL-HLT. Association for Computational Linguistics, 2009, pp. NAACL-HLT Association for Computational Linguistics, 2009, pp。 0.81
317–325. [46] P. Godard, G. Adda, M. Adda-Decker, A. Allauzen, L. Besacier, H. Bonneau-Maynard, G.-N. Kouarata, K. Löser, A. Rialland, and F. Yvon, “Preliminary experiments on unsupervised word discovery in mboshi,” in Proc. 317–325. [46]P. Godard, G. Adda, M. Adda-Decker, A. Allauzen, L. Besacier, H. Bonneau-Maynard, G.-N. Kouarata, K. Löser, A. Rialland, F. Yvon, “Preliminary experiment on unsupervised word discovery in mboshi” in Proc. 0.80
Interspeech, 2016. [47] P. Godard, “Unsupervised word discovery for computational lan- 2016年、入社。 47] p. godard, "unsupervised word discovery for computational lan-" 0.69
guage documentation,” Ph.D. dissertation, Paris Saclay, 2019. 博士論文"guage documentation", paris saclay, 2019.d. dissertation, paris saclay. 0.68
[48] M. Z. Boito, A. Villavicencio, and L. Besacier, “Investigating language impact in bilingual approaches for computational language documentation,” in Proceedings of the 1st Joint SLTU and CCURL Workshop (SLTU-CCURL 2020), 2020. M.Z. Boito, A. Villavicencio, and L. Besacier, “Investigating language impact in bilingual approach for computer language documentation” in Proceedings of the 1st Joint SLTU and CCURL Workshop (SLTU-CCURL 2020), 2020. (英語) 0.85
[49] C. Brinckmann, “Transcription bottleneck of speech corpus exploitation,” in Proceedings of the Second Colloquium on Lesser Used Languages and Computer Linguistics (LULCL II). [49] c. brinckmann, “transcription bottleneck of speech corpus exploitation” in the proceedings of the second colloquium on lesser used languages and computer linguistics (lulcl ii) 0.71
Combining efforts to foster computational support of minority languages., 2009. 2009年、少数言語の計算支援を推進。 0.60
[35] A. Tjandra, S. Sakti, and S. Nakamura, “Speech-to-speech languages,” A. Tjandra, S. Sakti, S. Nakamura, “Speech-to-speech language” 0.84
untranscribed untranscription~ 0.63
unknown translation arXiv:1910.00795, 2019. 不明 arXiv:1910.00795, 2019 0.69
between [36] A. Bérard, O. Pietquin, C. Servan, and L. Besacier, “Listen and translate: A proof of concept for end-to-end speech-to-text translation,” arXiv:1612.01744, 2016. 間 A. Bérard, O. Pietquin, C. Servan, L. Besacier, “Listen and translate: A proof of concept for end-to-end speech-to-text translation” arXiv:1612.01744, 2016 0.77
[37] Y. Bengio, N. Léonard, and A. Courville, “Estimating or propagating gradients through stochastic neurons for conditional computation,” arXiv:1308.3432, 2013. Y. Bengio, N. Léonard, A. Courville, “Estimating or propagating gradients through stochastic neurons for conditional compute” arXiv:1308.3432, 2013. 0.86
[38] E. Jang, S. Gu, and B. Poole, “Categorical reparameterization with [38]jang, s. gu, b. poole, "カテゴリー的再パラメータ化" 0.78
gumbel-softmax,” in ICLR, 2017. Gumbel-softmax”, ICLR, 2017。 0.74
[39] R. Sennrich, B. Haddow, and A. Birch, “Neural machine translation of rare words with subword units,” in Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). 39] R. Sennrich, B. Haddow, A. Birch, “Neural machine translation of rare words with subword unit” in Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers) 0.80
Berlin, Germany: Association for Computational Linguistics, Aug. 2016, pp. ベルリン, ドイツ: association for computational linguistics, aug. 2016 pp. (英語) 0.83
1715–1725. 1715–1725. 0.71
[Online]. Available: https://www.aclweb.o rg/anthology/P16-116 2 [オンライン] https://www.aclweb.o rg/anthology/p16-116 2 0.51
             ページの最初に戻る

翻訳にはFugu-Machine Translatorを利用しています。