論文の概要: Unsupervised Multimodal Word Discovery based on Double Articulation
Analysis with Co-occurrence cues
- arxiv url: http://arxiv.org/abs/2201.06786v1
- Date: Tue, 18 Jan 2022 07:31:59 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-19 13:42:34.275333
- Title: Unsupervised Multimodal Word Discovery based on Double Articulation
Analysis with Co-occurrence cues
- Title(参考訳): 共起手がかりを用いた二重調音解析に基づく教師なしマルチモーダル単語発見
- Authors: Akira Taniguchi, Hiroaki Murakami, Ryo Ozaki, Tadahiro Taniguchi
- Abstract要約: 本研究では,音韻情報を分布キューとして,オブジェクト情報を共起キューとして利用することにより,音声単位を検出するための教師なし学習手法を提案する。
提案手法は,(1)教師なし学習を用いて音声信号から単語や音素を取得するだけでなく,(2)複数のモーダルを同時に利用することもできる。
- 参考スコア(独自算出の注目度): 6.270305440413688
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Human infants acquire their verbal lexicon from minimal prior knowledge of
language based on the statistical properties of phonological distributions and
the co-occurrence of other sensory stimuli. In this study, we propose a novel
fully unsupervised learning method discovering speech units by utilizing
phonological information as a distributional cue and object information as a
co-occurrence cue. The proposed method can not only (1) acquire words and
phonemes from speech signals using unsupervised learning, but can also (2)
utilize object information based on multiple modalities (i.e., vision, tactile,
and auditory) simultaneously. The proposed method is based on the Nonparametric
Bayesian Double Articulation Analyzer (NPB-DAA) discovering phonemes and words
from phonological features, and Multimodal Latent Dirichlet Allocation (MLDA)
categorizing multimodal information obtained from objects. In the experiment,
the proposed method showed higher word discovery performance than the baseline
methods. In particular, words that expressed the characteristics of the object
(i.e., words corresponding to nouns and adjectives) were segmented accurately.
Furthermore, we examined how learning performance is affected by differences in
the importance of linguistic information. When the weight of the word modality
was increased, the performance was further improved compared to the fixed
condition.
- Abstract(参考訳): ヒトの幼児は、音韻分布の統計的特性と他の感覚刺激の共起に基づいて、言語に関する最小限の事前知識から言語語彙を取得する。
本研究では,音韻情報を分布キューとして利用し,オブジェクト情報を共起キューとして利用することにより,音声単位の完全教師なし学習手法を提案する。
提案手法は,(1)教師なし学習を用いた音声信号から単語や音素を取得するだけでなく,(2)複数のモーダル性(視覚,触覚,聴覚など)に基づくオブジェクト情報も同時に利用することができる。
提案手法は,音韻特徴から音素と単語を検出するnpb-daa(nonparametric bayesian double articulation analyzer)と,オブジェクトから得られたマルチモーダル情報を分類するmlda(multimodal latent dirichlet allocation)に基づいている。
実験では,提案手法はベースライン法よりも高い単語発見性能を示した。
特に、対象の特徴を表す単語(名詞や形容詞に対応する単語)を正確に分割した。
さらに,言語情報の重要性の違いによる学習性能への影響について検討した。
単語モダリティの重みが増加すると,固定条件と比較してさらに性能が向上した。
関連論文リスト
- Self-Supervised Speech Representation Learning: A Review [105.1545308184483]
自己教師付き表現学習法は、幅広いタスクやドメインに利益をもたらす単一の普遍的モデルを約束する。
音声表現学習は、生成的、コントラスト的、予測的という3つの主要なカテゴリで同様の進歩を経験している。
本稿では,自己指導型音声表現学習のアプローチと,他の研究領域との関係について述べる。
論文 参考訳(メタデータ) (2022-05-21T16:52:57Z) - Deep Neural Convolutive Matrix Factorization for Articulatory
Representation Decomposition [48.56414496900755]
この研究は、コンボリューティブスパース行列分解のニューラル実装を用いて、調音データを解釈可能なジェスチャーとジェスチャースコアに分解する。
音素認識実験も実施され、ジェスチャースコアが実際に音韻情報のコード化に成功していることが示された。
論文 参考訳(メタデータ) (2022-04-01T14:25:19Z) - Deep Learning For Prominence Detection In Children's Read Speech [13.041607703862724]
本稿では, 幼児の口臭度評価に際し, 単語検出に係わる特徴を学習するためのセグメント音声波形を用いたシステムを提案する。
単語レベルの特徴とシーケンス情報の両方を取り入れた選択されたCRNN(畳み込みリカレントニューラルネットワーク)フレームワークは、知覚的に動機付けられたSincNetフィルタの恩恵を受けている。
論文 参考訳(メタデータ) (2021-10-27T08:51:42Z) - Preliminary study on using vector quantization latent spaces for TTS/VC
systems with consistent performance [55.10864476206503]
本稿では,潜在言語埋め込みをモデル化するための量子化ベクトルの利用について検討する。
トレーニングにおいて、潜伏空間上の異なるポリシーを強制することにより、潜伏言語埋め込みを得ることができる。
実験の結果,ベクトル量子化法で構築した音声クローニングシステムは,知覚的評価の点でわずかに劣化していることがわかった。
論文 参考訳(メタデータ) (2021-06-25T07:51:35Z) - Understanding Synonymous Referring Expressions via Contrastive Features [105.36814858748285]
画像とオブジェクトインスタンスレベルでのコントラスト機能を学ぶためのエンドツーエンドのトレーニング可能なフレームワークを開発しています。
提案アルゴリズムをいくつかのベンチマークデータセットで評価するための広範囲な実験を行った。
論文 参考訳(メタデータ) (2021-04-20T17:56:24Z) - The effectiveness of unsupervised subword modeling with autoregressive
and cross-lingual phone-aware networks [36.24509775775634]
自己監督学習と多言語知識伝達を組み合わせた2段階学習フレームワークを提案する。
Libri-lightおよびZeroSpeech 2017データベースで実施したABXサブワード識別性タスクの実験により、我々のアプローチは最先端の研究よりも競争力があるか優れていることが示された。
論文 参考訳(メタデータ) (2020-12-17T12:33:49Z) - SPLAT: Speech-Language Joint Pre-Training for Spoken Language
Understanding [61.02342238771685]
音声理解には、入力音響信号を解析してその言語内容を理解し、予測するモデルが必要である。
大規模無注釈音声やテキストからリッチな表現を学習するために,様々な事前学習手法が提案されている。
音声と言語モジュールを協調的に事前学習するための,新しい半教師付き学習フレームワークであるSPLATを提案する。
論文 参考訳(メタデータ) (2020-10-05T19:29:49Z) - An Overview of Deep-Learning-Based Audio-Visual Speech Enhancement and
Separation [57.68765353264689]
音声強調と音声分離は関連する2つの課題である。
伝統的に、これらのタスクは信号処理と機械学習技術を使って取り組まれてきた。
ディープラーニングは強力なパフォーマンスを達成するために利用されています。
論文 参考訳(メタデータ) (2020-08-21T17:24:09Z) - Measuring Memorization Effect in Word-Level Neural Networks Probing [0.9156064716689833]
そこで,本研究では,学習における目に見える単語と見えない単語の対称選択に基づいて,記憶効果を簡易に測定する手法を提案する。
提案手法は, 探索装置で発生した記憶量の定量化に有効であり, 適切な設定が選択可能であり, 検証結果が信頼性推定値で解釈可能である。
論文 参考訳(メタデータ) (2020-06-29T14:35:42Z) - Analyzing autoencoder-based acoustic word embeddings [37.78342106714364]
音響単語埋め込み(AWEs)は、その音響的特徴を符号化した単語の表現である。
本研究では,6言語でシーケンス・ツー・シーケンス・エンコーダ・デコーダモデルにより学習したAWE空間の基本特性を解析する。
AWEは、人間の音声処理と語彙アクセスに関する様々な研究で報告されたパターンと同様、単語の発症バイアスを示す。
論文 参考訳(メタデータ) (2020-04-03T16:11:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。