論文の概要: Unsupervised Multimodal Word Discovery based on Double Articulation
Analysis with Co-occurrence cues
- arxiv url: http://arxiv.org/abs/2201.06786v2
- Date: Mon, 21 Aug 2023 06:58:13 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-23 03:26:17.431606
- Title: Unsupervised Multimodal Word Discovery based on Double Articulation
Analysis with Co-occurrence cues
- Title(参考訳): 共起手がかりを用いた二重調音解析に基づく教師なしマルチモーダル単語発見
- Authors: Akira Taniguchi, Hiroaki Murakami, Ryo Ozaki, Tadahiro Taniguchi
- Abstract要約: ヒトの幼児は、言語に関する最小限の事前知識で口頭語彙を取得する。
本研究では,音声単位を発見するための教師なし学習手法を提案する。
提案手法は教師なし学習を用いて音声信号から単語と音素を取得することができる。
- 参考スコア(独自算出の注目度): 7.332652485849632
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Human infants acquire their verbal lexicon with minimal prior knowledge of
language based on the statistical properties of phonological distributions and
the co-occurrence of other sensory stimuli. This study proposes a novel fully
unsupervised learning method for discovering speech units using phonological
information as a distributional cue and object information as a co-occurrence
cue. The proposed method can acquire words and phonemes from speech signals
using unsupervised learning and utilize object information based on multiple
modalities-vision, tactile, and auditory-simultaneously. The proposed method is
based on the nonparametric Bayesian double articulation analyzer (NPB-DAA)
discovering phonemes and words from phonological features, and multimodal
latent Dirichlet allocation (MLDA) categorizing multimodal information obtained
from objects. In an experiment, the proposed method showed higher word
discovery performance than baseline methods. Words that expressed the
characteristics of objects (i.e., words corresponding to nouns and adjectives)
were segmented accurately. Furthermore, we examined how learning performance is
affected by differences in the importance of linguistic information. Increasing
the weight of the word modality further improved performance relative to that
of the fixed condition.
- Abstract(参考訳): ヒトの幼児は、音韻分布の統計的特性と他の感覚刺激の共起に基づいて、言語に関する最小限の事前知識を持つ言語語彙を取得する。
本研究では,音韻情報を分布キューとして,物体情報を共起キューとして用いた音声単位の学習手法を提案する。
提案手法は,教師なし学習を用いて音声信号から単語や音素を抽出し,多様視・触覚・聴覚同調に基づく対象情報を利用することができる。
提案手法は,音韻特徴から音素と単語を検出するnpb-daa(nonparametric bayesian double articulation analyzer)と,オブジェクトから得られたマルチモーダル情報を分類するmlda(multimodal latent dirichlet allocation)に基づいている。
実験では,提案手法がベースライン法よりも高い単語発見性能を示した。
対象の特徴を表す単語(名詞や形容詞に対応する単語)を正確に分割した。
さらに,言語情報の重要性の違いによる学習性能への影響について検討した。
単語の重みの増大は、固定条件の重みに対する性能をさらに向上させた。
関連論文リスト
- Self-Supervised Speech Representation Learning: A Review [105.1545308184483]
自己教師付き表現学習法は、幅広いタスクやドメインに利益をもたらす単一の普遍的モデルを約束する。
音声表現学習は、生成的、コントラスト的、予測的という3つの主要なカテゴリで同様の進歩を経験している。
本稿では,自己指導型音声表現学習のアプローチと,他の研究領域との関係について述べる。
論文 参考訳(メタデータ) (2022-05-21T16:52:57Z) - Deep Neural Convolutive Matrix Factorization for Articulatory
Representation Decomposition [48.56414496900755]
この研究は、コンボリューティブスパース行列分解のニューラル実装を用いて、調音データを解釈可能なジェスチャーとジェスチャースコアに分解する。
音素認識実験も実施され、ジェスチャースコアが実際に音韻情報のコード化に成功していることが示された。
論文 参考訳(メタデータ) (2022-04-01T14:25:19Z) - Deep Learning For Prominence Detection In Children's Read Speech [13.041607703862724]
本稿では, 幼児の口臭度評価に際し, 単語検出に係わる特徴を学習するためのセグメント音声波形を用いたシステムを提案する。
単語レベルの特徴とシーケンス情報の両方を取り入れた選択されたCRNN(畳み込みリカレントニューラルネットワーク)フレームワークは、知覚的に動機付けられたSincNetフィルタの恩恵を受けている。
論文 参考訳(メタデータ) (2021-10-27T08:51:42Z) - Preliminary study on using vector quantization latent spaces for TTS/VC
systems with consistent performance [55.10864476206503]
本稿では,潜在言語埋め込みをモデル化するための量子化ベクトルの利用について検討する。
トレーニングにおいて、潜伏空間上の異なるポリシーを強制することにより、潜伏言語埋め込みを得ることができる。
実験の結果,ベクトル量子化法で構築した音声クローニングシステムは,知覚的評価の点でわずかに劣化していることがわかった。
論文 参考訳(メタデータ) (2021-06-25T07:51:35Z) - Understanding Synonymous Referring Expressions via Contrastive Features [105.36814858748285]
画像とオブジェクトインスタンスレベルでのコントラスト機能を学ぶためのエンドツーエンドのトレーニング可能なフレームワークを開発しています。
提案アルゴリズムをいくつかのベンチマークデータセットで評価するための広範囲な実験を行った。
論文 参考訳(メタデータ) (2021-04-20T17:56:24Z) - The effectiveness of unsupervised subword modeling with autoregressive
and cross-lingual phone-aware networks [36.24509775775634]
自己監督学習と多言語知識伝達を組み合わせた2段階学習フレームワークを提案する。
Libri-lightおよびZeroSpeech 2017データベースで実施したABXサブワード識別性タスクの実験により、我々のアプローチは最先端の研究よりも競争力があるか優れていることが示された。
論文 参考訳(メタデータ) (2020-12-17T12:33:49Z) - SPLAT: Speech-Language Joint Pre-Training for Spoken Language
Understanding [61.02342238771685]
音声理解には、入力音響信号を解析してその言語内容を理解し、予測するモデルが必要である。
大規模無注釈音声やテキストからリッチな表現を学習するために,様々な事前学習手法が提案されている。
音声と言語モジュールを協調的に事前学習するための,新しい半教師付き学習フレームワークであるSPLATを提案する。
論文 参考訳(メタデータ) (2020-10-05T19:29:49Z) - An Overview of Deep-Learning-Based Audio-Visual Speech Enhancement and
Separation [57.68765353264689]
音声強調と音声分離は関連する2つの課題である。
伝統的に、これらのタスクは信号処理と機械学習技術を使って取り組まれてきた。
ディープラーニングは強力なパフォーマンスを達成するために利用されています。
論文 参考訳(メタデータ) (2020-08-21T17:24:09Z) - Measuring Memorization Effect in Word-Level Neural Networks Probing [0.9156064716689833]
そこで,本研究では,学習における目に見える単語と見えない単語の対称選択に基づいて,記憶効果を簡易に測定する手法を提案する。
提案手法は, 探索装置で発生した記憶量の定量化に有効であり, 適切な設定が選択可能であり, 検証結果が信頼性推定値で解釈可能である。
論文 参考訳(メタデータ) (2020-06-29T14:35:42Z) - Analyzing autoencoder-based acoustic word embeddings [37.78342106714364]
音響単語埋め込み(AWEs)は、その音響的特徴を符号化した単語の表現である。
本研究では,6言語でシーケンス・ツー・シーケンス・エンコーダ・デコーダモデルにより学習したAWE空間の基本特性を解析する。
AWEは、人間の音声処理と語彙アクセスに関する様々な研究で報告されたパターンと同様、単語の発症バイアスを示す。
論文 参考訳(メタデータ) (2020-04-03T16:11:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。