論文の概要: Dynamic Behaviour of Connectionist Speech Recognition with Strong
Latency Constraints
- arxiv url: http://arxiv.org/abs/2401.06588v1
- Date: Fri, 12 Jan 2024 14:10:28 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-15 19:22:14.288365
- Title: Dynamic Behaviour of Connectionist Speech Recognition with Strong
Latency Constraints
- Title(参考訳): 強い遅延制約を持つ接続性音声認識の動的挙動
- Authors: Giampiero Salvi
- Abstract要約: 本稿では,強い遅延制約を持つ音声音声認識におけるコネクショナリスト手法の使用について述べる。
この制約は、音声信号から合成顔の唇の動きをリアルタイムで導き出すタスクによって課される。
- 参考スコア(独自算出の注目度): 6.5458610824731664
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper describes the use of connectionist techniques in phonetic speech
recognition with strong latency constraints. The constraints are imposed by the
task of deriving the lip movements of a synthetic face in real time from the
speech signal, by feeding the phonetic string into an articulatory synthesiser.
Particular attention has been paid to analysing the interaction between the
time evolution model learnt by the multi-layer perceptrons and the transition
model imposed by the Viterbi decoder, in different latency conditions. Two
experiments were conducted in which the time dependencies in the language model
(LM) were controlled by a parameter. The results show a strong interaction
between the three factors involved, namely the neural network topology, the
length of time dependencies in the LM and the decoder latency.
- Abstract(参考訳): 本稿では,強い遅延制約を持つ音声認識におけるコネクショナリスト手法の利用について述べる。
この制約は、音声信号から合成顔の唇の動きをリアルタイムで導出するタスクにより、音声文字列を調音合成器に供給することにより課される。
多層パーセプトロンによって学習される時間発展モデルとビタビデコーダによって課される遷移モデルとの相互作用を異なるレイテンシ条件下で解析するために、特に注意が払われている。
言語モデル(LM)の時間依存性をパラメータで制御する2つの実験を行った。
結果は、ニューラルネットワークトポロジ、LMにおける時間依存性の長さ、デコーダ遅延という、関連する3つの要因の強い相互作用を示す。
関連論文リスト
- What does it take to get state of the art in simultaneous speech-to-speech translation? [0.0]
本研究では,同時音声合成モデルの性能評価において観測される遅延特性について検討する。
本稿では,レイテンシのスパイクを最小限に抑え,全体的な性能を向上させる手法を提案する。
論文 参考訳(メタデータ) (2024-09-02T06:04:07Z) - Semantic-Guided Multimodal Sentiment Decoding with Adversarial Temporal-Invariant Learning [22.54577327204281]
マルチモーダル感情分析は、異なるモダリティから表現を学習し、人間の感情を識別することを目的としている。
既存の作品は、連続した時系列に固有のフレームレベルの冗長性を無視することが多く、ノイズを伴う不完全なモジュラリティ表現をもたらす。
本研究では,時間段階の分布変動を制約し,時間的時間的変動を効果的に捉えた時間的不変学習を提案する。
論文 参考訳(メタデータ) (2024-08-30T03:28:40Z) - Learning Delays Through Gradients and Structure: Emergence of Spatiotemporal Patterns in Spiking Neural Networks [0.06752396542927405]
学習可能なシナプス遅延を2つのアプローチで組み込んだスパイキングニューラルネットワーク(SNN)モデルを提案する。
後者のアプローチでは、ネットワークは接続を選択してプーンし、スパース接続設定の遅延を最適化する。
本研究では,時間的データ処理のための効率的なSNNモデルを構築するために,遅延学習と動的プルーニングを組み合わせる可能性を示す。
論文 参考訳(メタデータ) (2024-07-07T11:55:48Z) - Capturing Spectral and Long-term Contextual Information for Speech
Emotion Recognition Using Deep Learning Techniques [0.0]
本研究では,テキストデータ処理のためのグラフ畳み込みネットワーク(GCN)と,音声信号解析のためのHuBERT変換器を組み合わせたアンサンブルモデルを提案する。
GCNとHuBERTを組み合わせることで、我々のアンサンブルモデルは両方のアプローチの強みを利用することができる。
その結果, 合成モデルが従来の手法の限界を克服し, 音声からの感情認識の精度が向上することが示唆された。
論文 参考訳(メタデータ) (2023-08-04T06:20:42Z) - Intensity Profile Projection: A Framework for Continuous-Time
Representation Learning for Dynamic Networks [50.2033914945157]
本稿では、連続時間動的ネットワークデータのための表現学習フレームワークIntensity Profile Projectionを提案する。
このフレームワークは3つの段階から構成される: 対の強度関数を推定し、強度再構成誤差の概念を最小化する射影を学習する。
さらに、推定軌跡の誤差を厳密に制御する推定理論を開発し、その表現がノイズに敏感な追従解析に利用できることを示す。
論文 参考訳(メタデータ) (2023-06-09T15:38:25Z) - Looking into Your Speech: Learning Cross-modal Affinity for Audio-visual
Speech Separation [73.1652905564163]
本稿では,音声-視覚的ニューラル処理を用いて音声信号と映像を分離する問題に対処する。
従来の手法では、フレームワイドマッチング基準を用いて、音声とビデオの共有情報を抽出する。
音声と視覚ストリーム間の局所的な親和性だけでなく,グローバル通信を学習するクロスモーダル親和性ネットワーク(CaffNet)を提案する。
論文 参考訳(メタデータ) (2021-03-25T15:39:12Z) - Multi-view Temporal Alignment for Non-parallel Articulatory-to-Acoustic
Speech Synthesis [59.623780036359655]
A2A(Articulatory-to-Aoustic)合成は、音声刺激器のキャプチャされた動きから可聴音声の生成を指します。
この手法には、病気や怪我のためにもはや話せない人々への口頭コミュニケーションの回復など、多くの応用がある。
本稿では,多視点学習の理論に基づく問題解決法を提案する。
論文 参考訳(メタデータ) (2020-12-30T15:09:02Z) - Multi-Temporal Convolutions for Human Action Recognition in Videos [83.43682368129072]
複数の解像度で抽出できる新しい時間・時間的畳み込みブロックを提案する。
提案するブロックは軽量で,任意の3D-CNNアーキテクチャに統合可能である。
論文 参考訳(メタデータ) (2020-11-08T10:40:26Z) - Attention and Encoder-Decoder based models for transforming articulatory
movements at different speaking rates [60.02121449986413]
LSTMを用いたエンコーダデコーダアーキテクチャを提案する。
変換された調音運動の振幅を原音と異なる速度で解析する。
AstNetは,既存の変換手法よりも音節運動の持続時間と範囲をモデル化できる。
論文 参考訳(メタデータ) (2020-06-04T19:33:26Z) - Multi-Time-Scale Convolution for Emotion Recognition from Speech Audio
Signals [7.219077740523682]
本稿では,音声データを解析する際の時間変動に対する柔軟性を実現するため,マルチタイムスケール(MTS)手法を提案する。
MTSと標準畳み込み層を,異なる大きさの4つのデータセットを用いて,音声からの感情認識のための異なるアーキテクチャで評価した。
論文 参考訳(メタデータ) (2020-03-06T12:28:04Z) - Temporal-Spatial Neural Filter: Direction Informed End-to-End
Multi-channel Target Speech Separation [66.46123655365113]
ターゲット音声分離とは、混合信号からターゲット話者の音声を抽出することを指す。
主な課題は、複雑な音響環境とリアルタイム処理の要件である。
複数話者混合から対象音声波形を直接推定する時間空間ニューラルフィルタを提案する。
論文 参考訳(メタデータ) (2020-01-02T11:12:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。