論文の概要: Introducing Latent Timbre Synthesis
- arxiv url: http://arxiv.org/abs/2006.00408v1
- Date: Sun, 31 May 2020 01:54:50 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-26 13:15:46.710509
- Title: Introducing Latent Timbre Synthesis
- Title(参考訳): 潜時音色合成の導入
- Authors: K. Tatar, D. Bisig, P. Pasquier
- Abstract要約: 本稿では,Deep Learning を用いた新しい音声合成手法である Latent Timbre Synthesis (LTS) を提案する。
この方法により、作曲家や音響デザイナーは、音声フレームの潜在空間を用いて、複数の音の音色間を補間し、外挿することができる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present the Latent Timbre Synthesis (LTS), a new audio synthesis method
using Deep Learning. The synthesis method allows composers and sound designers
to interpolate and extrapolate between the timbre of multiple sounds using the
latent space of audio frames. We provide the details of two Variational
Autoencoder architectures for LTS, and compare their advantages and drawbacks.
The implementation includes a fully working application with graphical user
interface, called \textit{interpolate\_two}, which enables practitioners to
explore the timbre between two audio excerpts of their selection using
interpolation and extrapolation in the latent space of audio frames. Our
implementation is open-source, and we aim to improve the accessibility of this
technology by providing a guide for users with any technical background.
- Abstract(参考訳): 本稿では,Deep Learning を用いた音声合成手法である Latent Timbre Synthesis (LTS) を提案する。
この合成法により、作曲家と音響設計者は、複数の音の音色間の補間と外挿を、音声フレームの潜在空間を用いて行うことができる。
LTSのための2つの変分オートエンコーダアーキテクチャの詳細を提供し、それらの利点と欠点を比較した。
この実装には、グラフィカルなユーザインターフェースを備えた完全に動作するアプリケーションである \textit{interpolate\_two} が含まれており、オーディオフレームの潜時空間における補間と外挿を用いて、2つのオーディオ抜粋間の音色を探索することができる。
我々の実装はオープンソースであり、技術的背景のあるユーザのためのガイドを提供することで、この技術のアクセシビリティを向上させることを目指している。
関連論文リスト
- Robust AI-Synthesized Speech Detection Using Feature Decomposition Learning and Synthesizer Feature Augmentation [52.0893266767733]
本稿では,特徴分解を利用して合成者非依存のコンテンツ特徴を学習する頑健なディープフェイク音声検出手法を提案する。
異なる合成器特性に対するモデルのロバスト性を高めるために,合成器の特徴増強戦略を提案する。
論文 参考訳(メタデータ) (2024-11-14T03:57:21Z) - FM Tone Transfer with Envelope Learning [8.771755521263811]
トーントランスファー(トーントランスファー)は、音源をシンセサイザーで対向させ、音楽の形式を保ちながら音の音色を変換する新しい技法である。
音の多様性の低さや、過渡的および動的レンダリングの制限に関連するいくつかの欠点があり、リアルタイムなパフォーマンスの文脈における調音やフレーズ化の可能性を妨げていると我々は信じている。
論文 参考訳(メタデータ) (2023-10-07T14:03:25Z) - One model to rule them all ? Towards End-to-End Joint Speaker
Diarization and Speech Recognition [50.055765860343286]
本稿では,共同話者ダイアリゼーションと音声認識のための新しい枠組みを提案する。
このフレームワークはSLIDARと呼ばれ、任意の長さの入力を処理でき、任意の数の話者を処理できる。
AMIコーパスからの単調録音実験により, 近接話者と遠距離話者の両方の発話シナリオにおける手法の有効性が確認された。
論文 参考訳(メタデータ) (2023-10-02T23:03:30Z) - Learning Spatial Features from Audio-Visual Correspondence in Egocentric Videos [69.79632907349489]
本稿では,エゴセントリックビデオにおける空間的音声・視覚対応に基づく表現の自己教師付き学習法を提案する。
本手法では,マスク付き(マルチチャネル)音声を音声と視覚の相乗効果により合成するために,マスク付き自動符号化フレームワークを用いる。
論文 参考訳(メタデータ) (2023-07-10T17:58:17Z) - Text-driven Talking Face Synthesis by Reprogramming Audio-driven Models [64.14812728562596]
本稿では,事前学習した音声駆動音声合成モデルをテキスト駆動で動作させる手法を提案する。
提供されたテキスト文を記述した顔ビデオを簡単に生成できる。
論文 参考訳(メタデータ) (2023-06-28T08:22:53Z) - Sound Design Strategies for Latent Audio Space Explorations Using Deep
Learning Architectures [1.6114012813668934]
変分オートエンコーダ(VAE)と呼ばれるよく知られたディープラーニングアーキテクチャを探索する。
VAEは、記号音楽を除いて、潜時音色空間や潜時音色空間を生成するために使われてきた。
本研究では,VAEを生音声データに直接適用し,音声特徴抽出をバイパスする。
論文 参考訳(メタデータ) (2023-05-24T21:08:42Z) - Novel-View Acoustic Synthesis [140.1107768313269]
本稿では,NVASタスクについて紹介する。
音源の視点で観測された視界と音から 見えない対象の視点から そのシーンの音を合成できるか?
空間内の任意の点の音を合成することを学ぶ視覚誘導音響合成(ViGAS)ネットワークを提案する。
論文 参考訳(メタデータ) (2023-01-20T18:49:58Z) - Combining Automatic Speaker Verification and Prosody Analysis for
Synthetic Speech Detection [15.884911752869437]
本稿では,人間の声の2つの高レベルな意味的特性を組み合わせた合成音声検出手法を提案する。
一方, 話者識別手法に着目し, 自動話者検証タスクの最先端手法を用いて抽出した話者埋め込みとして表現する。
一方、リズム、ピッチ、アクセントの変化を意図した音声韻律は、特殊なエンコーダによって抽出される。
論文 参考訳(メタデータ) (2022-10-31T11:03:03Z) - Synthesizer Preset Interpolation using Transformer Auto-Encoders [4.213427823201119]
本稿では,マルチヘッドアテンションブロックを用いてプリセットを同時に処理するバイモーダルオートエンコーダニューラルネットワークと,畳み込みを用いたオーディオを導入する。
このモデルは、100以上のパラメータを持つ一般的な周波数変調シンセサイザーでテストされている。
トレーニング後、提案したモデルは、ライブまたはサウンドデザインタスクのための商用シンセサイザーに統合することができる。
論文 参考訳(メタデータ) (2022-10-27T15:20:18Z) - Strumming to the Beat: Audio-Conditioned Contrastive Video Textures [112.6140796961121]
コントラスト学習を通して学習した表現を用いた無限ビデオテクスチャ合成のための非パラメトリック手法を提案する。
ビデオテクスチャから着想を得た結果、新しいビデオは1つのビデオから、新しくて一貫性のある順序でフレームを縫い合わせることで生成できることがわかった。
我々のモデルは人間の知覚スコアのベースラインを上回り、多様な入力ビデオを扱うことができ、音声信号とよく同期する映像を合成するために意味と音声の視覚的手がかりを組み合わせることができる。
論文 参考訳(メタデータ) (2021-04-06T17:24:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。