Fugu-MT 論文翻訳(概要): Exploration strategies for articulatory synthesis of complex syllable onsets

論文の概要: Exploration strategies for articulatory synthesis of complex syllable onsets

arxiv url: http://arxiv.org/abs/2204.09381v1
Date: Wed, 20 Apr 2022 10:47:28 GMT
ステータス: 翻訳完了
システム内更新日: 2022-04-21 18:26:57.716905
Title: Exploration strategies for articulatory synthesis of complex syllable onsets
Title（参考訳）: 複合音節オンセットの調音合成のための探索手法
Authors: Daniel R. van Niekerk, Anqi Xu, Branislav Gerazov, Paul K. Krug, Peter Birkholz, Yi Xu
Abstract要約: 高品質な調音音声合成は、音声科学と技術に多くの潜在的な応用がある。手作業による介入なしにこれらのマッピングを学習するための第一歩として,最適化ベースのフレームワークを構築した。
参考スコア（独自算出の注目度）: 20.422871314256266
License: http://creativecommons.org/licenses/by/4.0/
Abstract: High-quality articulatory speech synthesis has many potential applications in speech science and technology. However, developing appropriate mappings from linguistic specification to articulatory gestures is difficult and time consuming. In this paper we construct an optimisation-based framework as a first step towards learning these mappings without manual intervention. We demonstrate the production of syllables with complex onsets and discuss the quality of the articulatory gestures with reference to coarticulation.
Abstract（参考訳）: 高品質な調音音声合成は、音声科学や技術に多くの応用がある。しかし,言語仕様から調音ジェスチャーへの適切なマッピングの開発は困難であり,時間を要する。本稿では,これらのマッピングを手作業による介入なしに学習するための第一歩として,最適化に基づくフレームワークを構築する。複雑なオンセットを持つ音節の生成を実証し,コーアティキュレーションに着目して調音ジェスチャーの質について議論する。

関連論文リスト

SemTalk: Holistic Co-speech Motion Generation with Frame-level Semantic Emphasis [19.764460501254607]
一般的なリズム運動と稀だが本質的なセマンティックモーションを慎重に統合しなければ、良好な音声合成が達成できない。本稿では,フレームレベルのセマンティクスを重視した音声合成のためのSemTalkを提案する。
論文参考訳（メタデータ） (2024-12-21T10:16:07Z)
CosyVoice 2: Scalable Streaming Speech Synthesis with Large Language Models [74.80386066714229]
改良されたストリーミング音声合成モデルCosyVoice 2を提案する。具体的には,音声トークンのコードブック利用を改善するために,有限スカラー量子化を導入する。我々は,様々な合成シナリオをサポートするために,チャンク対応因果フローマッチングモデルを開発した。
論文参考訳（メタデータ） (2024-12-13T12:59:39Z)
Semantic Gesticulator: Semantics-Aware Co-Speech Gesture Synthesis [25.822870767380685]
本稿では,セマンティック・ゲスティキュレータについて述べる。セマンティック・ジェスチャは,セマンティック・ジェスチャを強力なセマンティック・アセプティクスで合成するためのフレームワークである。本システムでは,リズミカルコヒーレントかつセマンティックな動作を生成する上で,ロバスト性を示す。我々のシステムは、意味的適切性の観点から、最先端のシステムよりも明確なマージンで優れています。
論文参考訳（メタデータ） (2024-05-16T05:09:01Z)
Expressivity and Speech Synthesis [51.75420054449122]
われわれはこれまでの方法論の進歩を概説し、その次のレベルの人工表現性に到達するための継続的な取り組みを概説した。また、社会的な意味と、急速に進歩する表現型音声合成(ESS)技術についても論じる。
論文参考訳（メタデータ） (2024-04-30T08:47:24Z)
Unified speech and gesture synthesis using flow matching [24.2094371314481]
本稿では,テキストから音声とスケルトンに基づく3次元ジェスチャーを共同で合成するための,新しい統一アーキテクチャを提案する。提案したアーキテクチャは,従来の技術よりもシンプルで,メモリフットプリントが小さく,音声とジェスチャーの同時分布を捉えることができる。
論文参考訳（メタデータ） (2023-10-08T14:37:28Z)
EXPRESSO: A Benchmark and Analysis of Discrete Expressive Speech Resynthesis [49.04496602282718]
テキストなし音声合成のための高品質な表現型音声データセットであるExpressoを紹介する。このデータセットは、26の自発的表現スタイルで描画された読み上げ音声と即興対話の両方を含む。自己監督型離散エンコーダの自動計測値を用いて再生品質を評価する。
論文参考訳（メタデータ） (2023-08-10T17:41:19Z)
Diff-TTSG: Denoising probabilistic integrated speech and gesture synthesis [19.35266496960533]
本稿では,Diff-TTSGと呼ばれる拡散型確率モデルについて述べる。本稿では,統合音声とジェスチャー合成システムを評価するための,一様・多様主観的一様・多様主観的テストのセットについて述べる。
論文参考訳（メタデータ） (2023-06-15T18:02:49Z)
Revisiting Conversation Discourse for Dialogue Disentanglement [88.3386821205896]
本稿では,対話談話特性を最大限に活用し,対話の絡み合いを高めることを提案する。我々は,会話の意味的文脈をより良くモデル化するために,リッチな構造的特徴を統合する構造認識フレームワークを開発した。我々の研究は、より広範なマルチスレッド対話アプリケーションを促進する大きな可能性を秘めている。
論文参考訳（メタデータ） (2023-06-06T19:17:47Z)
Rhythmic Gesticulator: Rhythm-Aware Co-Speech Gesture Synthesis with Hierarchical Neural Embeddings [27.352570417976153]
本稿では、リズムとセマンティクスの両方で説得力のある結果が得られる新しい音声合成法を提案する。本システムでは,発声とジェスチャーの時間的コヒーレンスを確保するために,ロバストなリズムベースセグメンテーションパイプラインを備えている。ジェスチャーのセマンティクスにおいて,言語理論に基づく低レベルと高レベルの両方のニューラル埋め込みを効果的に解消する機構を考案する。
論文参考訳（メタデータ） (2022-10-04T08:19:06Z)
Learning Hierarchical Cross-Modal Association for Co-Speech Gesture Generation [107.10239561664496]
協調音声ジェスチャ生成のためのHA2G(Hierarchical Audio-to-Gesture)という新しいフレームワークを提案する。提案手法は,現実的な共同音声ジェスチャーを描画し,従来手法よりも明確なマージンで性能を向上する。
論文参考訳（メタデータ） (2022-03-24T16:33:29Z)
Towards Expressive Speaking Style Modelling with Hierarchical Context Information for Mandarin Speech Synthesis [37.93814851450597]
文脈から発話スタイルをモデル化するための階層的枠組みを提案する。より広い範囲の文脈情報を調べるために,階層型コンテキストエンコーダを提案する。このエンコーダがスタイル表現をより良く学習できるように、我々は新しいトレーニング戦略を導入する。
論文参考訳（メタデータ） (2022-03-23T05:27:57Z)
Towards Multi-Scale Style Control for Expressive Speech Synthesis [60.08928435252417]
提案手法では,マルチスケール参照エンコーダを用いて,対象音声のグローバルな発話レベルと局所的な準音素レベルの特徴を抽出する。訓練期間中、マルチスケールスタイルモデルは、エンドツーエンドで音声合成モデルと共同で訓練することができる。
論文参考訳（メタデータ） (2021-04-08T05:50:09Z)
Multi-view Temporal Alignment for Non-parallel Articulatory-to-Acoustic Speech Synthesis [59.623780036359655]
A2A(Articulatory-to-Aoustic)合成は、音声刺激器のキャプチャされた動きから可聴音声の生成を指します。この手法には、病気や怪我のためにもはや話せない人々への口頭コミュニケーションの回復など、多くの応用がある。本稿では,多視点学習の理論に基づく問題解決法を提案する。
論文参考訳（メタデータ） (2020-12-30T15:09:02Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。