論文の概要: Synchronising speech segments with musical beats in Mandarin and English
singing
- arxiv url: http://arxiv.org/abs/2106.10045v1
- Date: Fri, 18 Jun 2021 10:32:27 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-21 14:01:36.744773
- Title: Synchronising speech segments with musical beats in Mandarin and English
singing
- Title(参考訳): マンダリンと英語の歌唱における音声セグメントと楽音の同期化
- Authors: Cong Zhang, Jian Zhu
- Abstract要約: 音楽的ビートの存在は、ソノリティよりもセグメント持続時間に依存していた。
マンダリンと英語は共通のパターンを示すにもかかわらず言語間の差異を示した。
- 参考スコア(独自算出の注目度): 4.627414193046309
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Generating synthesised singing voice with models trained on speech data has
many advantages due to the models' flexibility and controllability. However,
since the information about the temporal relationship between segments and
beats are lacking in speech training data, the synthesised singing may sound
off-beat at times. Therefore, the availability of the information on the
temporal relationship between speech segments and music beats is crucial. The
current study investigated the segment-beat synchronisation in singing data,
with hypotheses formed based on the linguistics theories of P-centre and
sonority hierarchy. A Mandarin corpus and an English corpus of professional
singing data were manually annotated and analysed. The results showed that the
presence of musical beats was more dependent on segment duration than sonority.
However, the sonority hierarchy and the P-centre theory were highly related to
the location of beats. Mandarin and English demonstrated cross-linguistic
variations despite exhibiting common patterns.
- Abstract(参考訳): 音声データに基づいて学習したモデルを用いた合成歌声の生成には,モデルの柔軟性と制御性から多くの利点がある。
しかし、音声訓練データにはセグメントとビート間の時間的関係が欠如しているため、合成歌唱は時折オフビートを鳴らすことがある。
したがって、音声セグメントと音楽ビート間の時間的関係に関する情報の入手が不可欠である。
本研究は,P中心とソノリティ階層の言語理論に基づいて,歌唱データにおけるセグメントビート同期を仮説として検討した。
マンダリンコーパスとプロの歌唱データの英語コーパスを手動で注釈付けして分析した。
その結果,音楽的ビートの存在はソノリティよりもセグメント持続時間に依存することがわかった。
しかし、ソノリティ階層とp-centre理論はビートの位置と強く関連していた。
マンダリンと英語は共通パターンを示すにもかかわらず、言語横断的な変化を示した。
関連論文リスト
- Agent-Driven Large Language Models for Mandarin Lyric Generation [2.2221991003992967]
マンダリンのような音節の輪郭言語では、ピッチの輪郭はメロディとトーンの両方に影響され、歌詞とメロディの適合性が変化する。
本研究は,作詞家やメロディ作家が作曲過程に適合していることを確認する。
本研究では,メロディから歌詞へのタスクをサブタスクに分解するマルチエージェントシステムを開発し,各エージェントが韻律,音節数,歌詞・メロディのアライメント,一貫性を制御している。
論文 参考訳(メタデータ) (2024-10-02T12:01:32Z) - Leveraging the Interplay Between Syntactic and Acoustic Cues for Optimizing Korean TTS Pause Formation [6.225927189801006]
本稿では,パジングパターンに関連する構文的手法と音響的手法の両方を包括的にモデル化する新しい枠組みを提案する。
注目に値することに、我々のフレームワークは、より拡張され複雑なドメイン外文(OOD)であっても、自然言語を一貫して生成する能力を持っている。
論文 参考訳(メタデータ) (2024-04-03T09:17:38Z) - Acoustic characterization of speech rhythm: going beyond metrics with
recurrent neural networks [0.0]
我々は,21言語における音声記録の大規模データベース上で,言語識別タスク上で繰り返しニューラルネットワークを訓練する。
ネットワークは、40%のケースで10秒の録音の言語を識別することができ、その3分の2はトップ3の推測だった。
論文 参考訳(メタデータ) (2024-01-22T09:49:44Z) - Unsupervised Melody-Guided Lyrics Generation [84.22469652275714]
メロディと歌詞の一致したデータを学習することなく、楽しく聴ける歌詞を生成することを提案する。
メロディと歌詞間の重要なアライメントを活用し、与えられたメロディを制約にコンパイルし、生成プロセスを導く。
論文 参考訳(メタデータ) (2023-05-12T20:57:20Z) - Language-Guided Audio-Visual Source Separation via Trimodal Consistency [64.0580750128049]
この課題の鍵となる課題は、発音対象の言語的記述と、その視覚的特徴と、音声波形の対応する成分とを関連付けることである。
2つの新たな損失関数を通して擬似目標管理を行うために、既成の視覚言語基盤モデルを適用する。
3つの音声・視覚的分離データセットに対する自己教師型アプローチの有効性を実証する。
論文 参考訳(メタデータ) (2023-03-28T22:45:40Z) - AudioLM: a Language Modeling Approach to Audio Generation [59.19364975706805]
本稿では,長期的整合性を有する高品質オーディオ生成フレームワークであるAudioLMを紹介する。
本稿では,既存の音声トークンが,再建品質と長期構造との間に異なるトレードオフをもたらすことを示す。
我々は,コヒーレントピアノ音楽の継続を生成することによって,我々のアプローチが音声を超えてどのように拡張されるかを実証する。
論文 参考訳(メタデータ) (2022-09-07T13:40:08Z) - VocaLiST: An Audio-Visual Synchronisation Model for Lips and Voices [4.167459103689587]
人間の顔と声を含むビデオにおける唇声の同期の問題に対処する。
我々のアプローチは、ビデオ中の唇の動きと声が同期しているかどうかを判断することに基づいている。
本稿では,複数のベースラインモデルより優れた音響-視覚間変換器モデルを提案する。
論文 参考訳(メタデータ) (2022-04-05T10:02:39Z) - Towards Language Modelling in the Speech Domain Using Sub-word
Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。
限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。
補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文 参考訳(メタデータ) (2021-10-31T22:48:30Z) - A Melody-Unsupervision Model for Singing Voice Synthesis [9.137554315375919]
トレーニング時間内に時間的アライメントを伴わない音声・歌詞ペアのみを必要とするメロディ・アンスーパービジョンモデルを提案する。
提案手法は音声やテキストのラベルで訓練できるが,推測時間で歌唱音声を生成できることを示す。
論文 参考訳(メタデータ) (2021-10-13T07:42:35Z) - Perception Point: Identifying Critical Learning Periods in Speech for
Bilingual Networks [58.24134321728942]
ディープニューラルベース視覚唇読解モデルにおける認知的側面を比較し,識別する。
我々は、認知心理学におけるこれらの理論と独自のモデリングの間に強い相関関係を観察する。
論文 参考訳(メタデータ) (2021-10-13T05:30:50Z) - Music Gesture for Visual Sound Separation [121.36275456396075]
ミュージック・ジェスチャ(Music Gesture)は、音楽演奏時の演奏者の身体と指の動きを明示的にモデル化するキーポイントに基づく構造化表現である。
まず、コンテキスト対応グラフネットワークを用いて、視覚的コンテキストと身体力学を統合し、その後、身体の動きと対応する音声信号とを関連付けるために、音声-視覚融合モデルを適用する。
論文 参考訳(メタデータ) (2020-04-20T17:53:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。