論文の概要: Attention and Encoder-Decoder based models for transforming articulatory
movements at different speaking rates
- arxiv url: http://arxiv.org/abs/2006.03107v2
- Date: Thu, 20 Aug 2020 05:00:07 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-25 12:46:24.495175
- Title: Attention and Encoder-Decoder based models for transforming articulatory
movements at different speaking rates
- Title(参考訳): 発話速度の異なる調音運動変換のためのアテンションとエンコーダ-デコーダモデル
- Authors: Abhayjeet Singh, Aravind Illa, Prasanta Kumar Ghosh
- Abstract要約: LSTMを用いたエンコーダデコーダアーキテクチャを提案する。
変換された調音運動の振幅を原音と異なる速度で解析する。
AstNetは,既存の変換手法よりも音節運動の持続時間と範囲をモデル化できる。
- 参考スコア(独自算出の注目度): 60.02121449986413
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While speaking at different rates, articulators (like tongue, lips) tend to
move differently and the enunciations are also of different durations. In the
past, affine transformation and DNN have been used to transform articulatory
movements from neutral to fast(N2F) and neutral to slow(N2S) speaking rates
[1]. In this work, we improve over the existing transformation techniques by
modeling rate specific durations and their transformation using AstNet, an
encoder-decoder framework with attention. In the current work, we propose an
encoder-decoder architecture using LSTMs which generates smoother predicted
articulatory trajectories. For modeling duration variations across speaking
rates, we deploy attention network, which eliminates the needto align
trajectories in different rates using DTW. We performa phoneme specific
duration analysis to examine how well duration is transformed using the
proposed AstNet. As the range of articulatory motions is correlated with
speaking rate, we also analyze amplitude of the transformed articulatory
movements at different rates compared to their original counterparts, to
examine how well the proposed AstNet predicts the extent of articulatory
movements in N2F and N2S. We observe that AstNet could model both duration and
extent of articulatory movements better than the existing transformation
techniques resulting in more accurate transformed articulatory trajectories.
- Abstract(参考訳): 異なる速度で話す間、調音器(舌、唇など)は異なる動きをしがちであり、発音も異なる期間である。
これまで、アフィン変換とDNNは、調音運動を中性(N2F)から中性(N2S)から低速(N2S)に変換するために用いられてきた。
本研究では,エンコーダ・デコーダ・フレームワークであるAstNetを用いて,所要時間とその変換率をモデル化し,既存の変換手法を改良する。
本研究では,LSTMを用いたエンコーダデコーダアーキテクチャを提案する。
発話速度の時間変化をモデル化するために,DTWを用いて軌道を異なる速度で調整する必要のない注意ネットワークを配置する。
提案した AstNet を用いて,音素特異的持続時間解析を行い,その持続時間について検討する。
調音運動の範囲は発話速度と相関するので,n2f,n2sにおける調音運動の程度をastnetがどの程度予測できるかを検討するために,異なる速度で変換された調音運動の振幅を解析した。
AstNetは、既存の変換手法よりも音節運動の持続時間と範囲をモデル化し、より正確な変換を行うことができる。
関連論文リスト
- Spiking Tucker Fusion Transformer for Audio-Visual Zero-Shot Learning [30.51005522218133]
音声・視覚ゼロショット学習のための新しいSTFT(Spking Tucker Fusion Transformer)を提案する。
STFTは、異なる時間ステップからの時間的および意味的な情報を活用して、堅牢な表現を生成する。
本稿では,最大と平均のプール操作を組み合わせたグローバルローカルプール(GLP)を提案する。
論文 参考訳(メタデータ) (2024-07-11T02:01:26Z) - A Semantic and Motion-Aware Spatiotemporal Transformer Network for Action Detection [7.202931445597171]
本稿では,未編集映像の動作を検出する新しいネットワークを提案する。
このネットワークは、モーション対応2D位置符号化を利用して、ビデオフレーム内のアクションセマンティクスの位置を符号化する。
このアプローチは、4つの提案されたデータセット上で最先端のソリューションよりも優れています。
論文 参考訳(メタデータ) (2024-05-13T21:47:35Z) - Spectral Motion Alignment for Video Motion Transfer using Diffusion Models [54.32923808964701]
スペクトル運動アライメント(英: Spectral Motion Alignment、SMA)は、フーリエ変換とウェーブレット変換を用いて運動ベクトルを洗練・整列するフレームワークである。
SMAは周波数領域の正規化を取り入れて動きパターンを学習し、全体フレームのグローバルな動きのダイナミクスの学習を容易にする。
大規模な実験は、様々なビデオカスタマイズフレームワーク間の計算効率と互換性を維持しながら、モーション転送を改善するSMAの有効性を示す。
論文 参考訳(メタデータ) (2024-03-22T14:47:18Z) - Audio2Gestures: Generating Diverse Gestures from Audio [28.026220492342382]
本稿では、モーダルなラテント符号を共有コードとモーション固有コードに分割することで、ワン・ツー・マンの音声・モーションマッピングを明示的にモデル化することを提案する。
本手法は,従来の最先端手法よりも現実的で多様な動作を生成する。
論文 参考訳(メタデータ) (2023-01-17T04:09:58Z) - Diverse Dance Synthesis via Keyframes with Transformer Controllers [10.23813069057791]
本稿では,複数の制約に基づく動きに基づく動き生成ネットワークを提案し,学習知識を用いて多様なダンス合成を実現する。
我々のネットワークのバックボーンは2つの長い短期記憶(LSTM)ユニットからなる階層的RNNモジュールであり、最初のLSTMを用いて歴史的フレームの姿勢情報を潜時空間に埋め込む。
本フレームワークは2つのTransformerベースのコントローラを備えており,それぞれがルート軌道と速度係数の制約をモデル化するために使用される。
論文 参考訳(メタデータ) (2022-07-13T00:56:46Z) - Joint Spatial-Temporal and Appearance Modeling with Transformer for
Multiple Object Tracking [59.79252390626194]
本稿ではTransSTAMという新しい手法を提案する。Transformerを利用して各オブジェクトの外観特徴とオブジェクト間の空間的時間的関係の両方をモデル化する。
提案手法はMOT16, MOT17, MOT20を含む複数の公開ベンチマークで評価され, IDF1とHOTAの両方で明確な性能向上を実現している。
論文 参考訳(メタデータ) (2022-05-31T01:19:18Z) - MixSTE: Seq2seq Mixed Spatio-Temporal Encoder for 3D Human Pose
Estimation in Video [75.23812405203778]
近年, 学習時間相関のため, 全フレームのボディジョイントを世界規模で考慮し, 2次元キーポイントシーケンスから3次元人間のポーズを推定する手法が提案されている。
本研究では,各関節の時間的動きを別々にモデル化する時間的変圧器ブロックと,関節間空間相関を有する変圧器ブロックを有するミキシングミキシングを提案する。
さらに、ネットワーク出力は、中央フレームから入力ビデオの全フレームに拡張され、入力と出力のベンチマーク間のコヒーレンスが改善される。
論文 参考訳(メタデータ) (2022-03-02T04:20:59Z) - Unsupervised Motion Representation Learning with Capsule Autoencoders [54.81628825371412]
Motion Capsule Autoencoder (MCAE) は、2レベル階層のモーションをモデル化する。
MCAEは、新しいTrajectory20モーションデータセットと、様々な現実世界の骨格に基づく人間のアクションデータセットで評価されている。
論文 参考訳(メタデータ) (2021-10-01T16:52:03Z) - Augmented Transformer with Adaptive Graph for Temporal Action Proposal
Generation [79.98992138865042]
TAPGの長期的および局所的時間的コンテキストを利用するための適応グラフネットワーク(ATAG)を備えた拡張トランスを提案する。
具体的には、スニペット動作損失と前部ブロックを装着し、拡張トランスと呼ばれるバニラトランスを強化する。
位置情報と隣接特徴の差異をマイニングすることで局所時間文脈を構築するための適応型グラフ畳み込みネットワーク(gcn)を提案する。
論文 参考訳(メタデータ) (2021-03-30T02:01:03Z) - Robust Motion In-betweening [17.473287573543065]
本稿では,3次元アニメーターのための新しいツールとして機能する,新しい頑健な遷移生成技術を提案する。
このシステムは、時間的にスパーサをアニメーションの制約として使用する高品質な動作を合成する。
私たちは、トレーニングされたモデルを使用して運用シナリオで相互運用を行う、カスタムのMotionBuilderプラグインを紹介します。
論文 参考訳(メタデータ) (2021-02-09T16:52:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。