Fugu-MT 論文翻訳(概要): Deep Neural Convolutive Matrix Factorization for Articulatory Representation Decomposition

論文の概要: Deep Neural Convolutive Matrix Factorization for Articulatory Representation Decomposition

arxiv url: http://arxiv.org/abs/2204.00465v1
Date: Fri, 1 Apr 2022 14:25:19 GMT
ステータス: 翻訳完了
システム内更新日: 2022-04-04 17:23:18.943873
Title: Deep Neural Convolutive Matrix Factorization for Articulatory Representation Decomposition
Title（参考訳）: 調音表現分解のための深層神経畳み込み行列因子分解
Authors: Jiachen Lian and Alan W Black and Louis Goldstein Gopala Krishna Anumanchipalli
Abstract要約: この研究は、コンボリューティブスパース行列分解のニューラル実装を用いて、調音データを解釈可能なジェスチャーとジェスチャースコアに分解する。音素認識実験も実施され、ジェスチャースコアが実際に音韻情報のコード化に成功していることが示された。
参考スコア（独自算出の注目度）: 48.56414496900755
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Most of the research on data-driven speech representation learning has focused on raw audios in an end-to-end manner, paying little attention to their internal phonological or gestural structure. This work, investigating the speech representations derived from articulatory kinematics signals, uses a neural implementation of convolutive sparse matrix factorization to decompose the articulatory data into interpretable gestures and gestural scores. By applying sparse constraints, the gestural scores leverage the discrete combinatorial properties of phonological gestures. Phoneme recognition experiments were additionally performed to show that gestural scores indeed code phonological information successfully. The proposed work thus makes a bridge between articulatory phonology and deep neural networks to leverage informative, intelligible, interpretable,and efficient speech representations.
Abstract（参考訳）: データ駆動型音声表現学習の研究の多くは、生音声をエンドツーエンドに焦点を合わせ、内部の音韻学やジェスチャー構造にはほとんど注意を払わない。本研究は, 調音運動学信号から導かれる音声表現を調査し, 調音データを解釈可能なジェスチャーとジェスチャースコアに分解するために, 畳み込み行列分解のニューラル実装を用いる。スパース制約を適用することで、音韻的ジェスチャーの離散的な組合せ特性を利用する。また,音素認識実験を行い,音韻スコアが音韻情報に有効であることを確認した。提案する研究は、情報、知性、解釈可能、効率的な音声表現を活用するために、調音音声学とディープニューラルネットワークの橋渡しとなる。

関連論文リスト

Decoding Phone Pairs from MEG Signals Across Speech Modalities [0.4054486015338004]
脳磁図信号を用いて、音声生成や知覚タスク中の脳活動から携帯電話を復号する方法について検討した。その結果,受動聴取や再生モダリティと比較して,音声生成時の復号精度が有意に高かった。
論文参考訳（メタデータ） (2025-05-21T10:31:34Z)
Explaining Spectrograms in Machine Learning: A Study on Neural Networks for Speech Classification [2.4472308031704073]
本研究では,ニューラルネットワークで学習した音声の正確な分類のための識別パターンについて検討する。母音分類のためのニューラルネットワークのアクティベーションと特徴を調べることで、スペクトログラムでネットワークが何を見るかについての洞察を得る。
論文参考訳（メタデータ） (2024-07-10T07:37:18Z)
Exploring neural oscillations during speech perception via surrogate gradient spiking neural networks [59.38765771221084]
本稿では、ディープラーニングフレームワークと互換性があり、スケーラブルな、生理学的にインスパイアされた音声認識アーキテクチャを提案する。本研究では, 終末から終末までの勾配降下訓練が, 中枢スパイク神経ネットワークにおける神経振動の出現に繋がることを示す。本研究は, スパイク周波数適応やリカレント接続などのフィードバック機構が, 認識性能を向上させるために, 神経活動の調節と同期に重要な役割を担っていることを明らかにする。
論文参考訳（メタデータ） (2024-04-22T09:40:07Z)
Learning Disentangled Speech Representations [0.412484724941528]
SynSpeechは、非絡み合った音声表現の研究を可能にするために設計された、新しい大規模合成音声データセットである。本稿では, 線形探索と教師付きアンタングル化指標を併用して, アンタングル化表現学習手法を評価する枠組みを提案する。 SynSpeechは、さまざまな要因のベンチマークを促進し、ジェンダーや話し方のようなより単純な機能の切り離しを期待できると同時に、話者アイデンティティのような複雑な属性を分離する際の課題を強調します。
論文参考訳（メタデータ） (2023-11-04T04:54:17Z)
Improving Speaker Diarization using Semantic Information: Joint Pairwise Constraints Propagation [53.01238689626378]
本稿では,話者ダイアリゼーションシステムにおける意味情報を活用する新しい手法を提案する。音声言語理解モジュールを導入し、話者関連意味情報を抽出する。本稿では,これらの制約を話者ダイアリゼーションパイプラインに統合する新しい枠組みを提案する。
論文参考訳（メタデータ） (2023-09-19T09:13:30Z)
End-to-End Binaural Speech Synthesis [71.1869877389535]
本稿では,低ビットレート音声システムと強力なデコーダを組み合わせたエンドツーエンド音声合成システムを提案する。実感的な聴覚シーンを作るために必要な環境効果を捉える上で, 対人的損失がもたらす効果を実証する。
論文参考訳（メタデータ） (2022-07-08T05:18:36Z)
Unsupervised Multimodal Word Discovery based on Double Articulation Analysis with Co-occurrence cues [7.332652485849632]
ヒトの幼児は、言語に関する最小限の事前知識で口頭語彙を取得する。本研究では,音声単位を発見するための教師なし学習手法を提案する。提案手法は教師なし学習を用いて音声信号から単語と音素を取得することができる。
論文参考訳（メタデータ） (2022-01-18T07:31:59Z)
Deep Learning For Prominence Detection In Children's Read Speech [13.041607703862724]
本稿では, 幼児の口臭度評価に際し, 単語検出に係わる特徴を学習するためのセグメント音声波形を用いたシステムを提案する。単語レベルの特徴とシーケンス情報の両方を取り入れた選択されたCRNN(畳み込みリカレントニューラルネットワーク)フレームワークは、知覚的に動機付けられたSincNetフィルタの恩恵を受けている。
論文参考訳（メタデータ） (2021-10-27T08:51:42Z)
Preliminary study on using vector quantization latent spaces for TTS/VC systems with consistent performance [55.10864476206503]
本稿では,潜在言語埋め込みをモデル化するための量子化ベクトルの利用について検討する。トレーニングにおいて、潜伏空間上の異なるポリシーを強制することにより、潜伏言語埋め込みを得ることができる。実験の結果,ベクトル量子化法で構築した音声クローニングシステムは,知覚的評価の点でわずかに劣化していることがわかった。
論文参考訳（メタデータ） (2021-06-25T07:51:35Z)
Correlation based Multi-phasal models for improved imagined speech EEG recognition [22.196642357767338]
本研究の目的は,特定の音声単位に対応する音声の動きを,話し,想像,実行しながら記録された多相脳波データに含まれる並列情報から利益を得ることである。ニューラルネットワークを用いた二相共通表現学習モジュールは、解析フェーズと支援フェーズ間の相関をモデル化する。提案手法は復号化時の多相データの非可利用性をさらに扱う。
論文参考訳（メタデータ） (2020-11-04T09:39:53Z)
An Overview of Deep-Learning-Based Audio-Visual Speech Enhancement and Separation [57.68765353264689]
音声強調と音声分離は関連する2つの課題である。伝統的に、これらのタスクは信号処理と機械学習技術を使って取り組まれてきた。ディープラーニングは強力なパフォーマンスを達成するために利用されています。
論文参考訳（メタデータ） (2020-08-21T17:24:09Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。