論文の概要: Face-to-Music Translation Using a Distance-Preserving Generative
Adversarial Network with an Auxiliary Discriminator
- arxiv url: http://arxiv.org/abs/2006.13469v1
- Date: Wed, 24 Jun 2020 04:17:40 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-17 13:36:01.178576
- Title: Face-to-Music Translation Using a Distance-Preserving Generative
Adversarial Network with an Auxiliary Discriminator
- Title(参考訳): 補助判別器を用いた距離保存型生成型逆ネットワークを用いた対音楽翻訳
- Authors: Chelhwon Kim, Andrew Port, Mitesh Patel
- Abstract要約: 本稿では,人間の顔の画像を音声領域に翻訳するための距離保存型生成逆変換モデルを提案する。
オーディオドメインは、10の異なる楽器ファミリーによって記録された音符の集合によって定義される。
距離保存を実施するために、顔の対距離と翻訳された音声サンプルとの差を罰する損失項を用いる。
- 参考スコア(独自算出の注目度): 5.478764356647437
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning a mapping between two unrelated domains-such as image and audio,
without any supervision is a challenging task. In this work, we propose a
distance-preserving generative adversarial model to translate images of human
faces into an audio domain. The audio domain is defined by a collection of
musical note sounds recorded by 10 different instrument families (NSynth
\cite{nsynth2017}) and a distance metric where the instrument family class
information is incorporated together with a mel-frequency cepstral coefficients
(MFCCs) feature. To enforce distance-preservation, a loss term that penalizes
difference between pairwise distances of the faces and the translated audio
samples is used. Further, we discover that the distance preservation constraint
in the generative adversarial model leads to reduced diversity in the
translated audio samples, and propose the use of an auxiliary discriminator to
enhance the diversity of the translations while using the distance preservation
constraint. We also provide a visual demonstration of the results and numerical
analysis of the fidelity of the translations. A video demo of our proposed
model's learned translation is available in
https://www.dropbox.com/s/the176w9obq8465/face_to_musical_note.mov?dl=0.
- Abstract(参考訳): 画像や音声など、関係のない2つのドメイン間のマッピングを、監督なしで学ぶことは、難しい作業である。
本研究では,人間の顔の画像を音声領域に変換する距離保存型生成逆数モデルを提案する。
オーディオ領域は、10種類の異なる楽器群(NSynth \cite{nsynth2017})によって記録される楽音の集合と、その楽器群情報をメル周波数ケプストラム係数(MFCC)特徴とともに組み込む距離メートル法によって定義される。
距離保存を実施するために、顔の対距離と翻訳された音声サンプルとの差を罰する損失項を用いる。
さらに, 生成的逆境モデルにおける距離保存制約が翻訳音声サンプルの多様性を減少させることを見出し, 距離保存制約を用いながら翻訳の多様性を高めるための補助判別器を提案する。
また、結果の視覚的な実演と、翻訳の忠実度に関する数値解析も提供する。
提案されたモデルの学習翻訳のビデオデモはhttps://www.dropbox.com/s/the176w9obq8465/face_to_musical_note.mov?
dl=0。
関連論文リスト
- Establishing degrees of closeness between audio recordings along
different dimensions using large-scale cross-lingual models [4.349838917565205]
そこで本稿では,メタデータを慎重にキュレートした音声録音におけるABXテストを用いた教師なしの新しい手法を提案する。
3つの実験が考案され、1つは室内音響、もう1つは言語学的ジャンル、もう1つは音声学的側面である。
その結果,異なる言語・言語的特徴を持つ記録から抽出した表現は,同じ線に沿って異なることが明らかとなった。
論文 参考訳(メタデータ) (2024-02-08T11:31:23Z) - DenoSent: A Denoising Objective for Self-Supervised Sentence
Representation Learning [59.4644086610381]
本稿では,他の視点,すなわち文内視点から継承する新たな認知的目的を提案する。
離散ノイズと連続ノイズの両方を導入することで、ノイズの多い文を生成し、モデルを元の形式に復元するように訓練する。
我々の経験的評価は,本手法が意味的テキスト類似性(STS)と幅広い伝達タスクの両面で競合する結果をもたらすことを示した。
論文 参考訳(メタデータ) (2024-01-24T17:48:45Z) - Language-Guided Audio-Visual Source Separation via Trimodal Consistency [64.0580750128049]
この課題の鍵となる課題は、発音対象の言語的記述と、その視覚的特徴と、音声波形の対応する成分とを関連付けることである。
2つの新たな損失関数を通して擬似目標管理を行うために、既成の視覚言語基盤モデルを適用する。
3つの音声・視覚的分離データセットに対する自己教師型アプローチの有効性を実証する。
論文 参考訳(メタデータ) (2023-03-28T22:45:40Z) - Towards Language Modelling in the Speech Domain Using Sub-word
Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。
限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。
補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文 参考訳(メタデータ) (2021-10-31T22:48:30Z) - Looking into Your Speech: Learning Cross-modal Affinity for Audio-visual
Speech Separation [73.1652905564163]
本稿では,音声-視覚的ニューラル処理を用いて音声信号と映像を分離する問題に対処する。
従来の手法では、フレームワイドマッチング基準を用いて、音声とビデオの共有情報を抽出する。
音声と視覚ストリーム間の局所的な親和性だけでなく,グローバル通信を学習するクロスモーダル親和性ネットワーク(CaffNet)を提案する。
論文 参考訳(メタデータ) (2021-03-25T15:39:12Z) - AudioViewer: Learning to Visualize Sound [12.71759722609666]
聴覚障害者のための聴覚知覚を創造し,聴覚障害者の学習におけるフィードバックの促進を図る。
音声から映像への変換は,共用構造を持つ共用ラテント空間に圧縮することで行う。
論文 参考訳(メタデータ) (2020-12-22T21:52:45Z) - Audio-visual Speech Separation with Adversarially Disentangled Visual
Representation [23.38624506211003]
音声分離は、複数の同時話者による音声の混合から個々の音声を分離することを目的としている。
本モデルでは,顔検出器を用いて現場の話者数を検出し,視覚情報を用いて順列化問題を回避する。
提案モデルは,最先端のオーディオのみのモデルと3つのオーディオ視覚モデルより優れていることを示す。
論文 参考訳(メタデータ) (2020-11-29T10:48:42Z) - Deep Sensory Substitution: Noninvasively Enabling Biological Neural
Networks to Receive Input from Artificial Neural Networks [5.478764356647437]
本研究は,視覚情報を知覚音声領域に音化するために,機械学習機能埋め込みを活用する新しい手法について述べる。
次に、生成逆数ネットワーク(GAN)を用いて、特徴ベクトルのこの距離空間からターゲットオーディオデータセットで定義された距離保存マップを求める。
人間の被験者によるテストでは、ユーザーは顔の音声音化を正確に分類することができた。
論文 参考訳(メタデータ) (2020-05-27T11:41:48Z) - Music Gesture for Visual Sound Separation [121.36275456396075]
ミュージック・ジェスチャ(Music Gesture)は、音楽演奏時の演奏者の身体と指の動きを明示的にモデル化するキーポイントに基づく構造化表現である。
まず、コンテキスト対応グラフネットワークを用いて、視覚的コンテキストと身体力学を統合し、その後、身体の動きと対応する音声信号とを関連付けるために、音声-視覚融合モデルを適用する。
論文 参考訳(メタデータ) (2020-04-20T17:53:46Z) - Unsupervised Cross-Modal Audio Representation Learning from Unstructured
Multilingual Text [69.55642178336953]
教師なし音声表現学習へのアプローチを提案する。
3重項ニューラルネットワークアーキテクチャに基づいて、意味論的に関連付けられたクロスモーダル情報を用いて、音声トラック関連性を推定する。
我々のアプローチは、様々なアノテーションスタイルと、このコレクションの異なる言語に不変であることを示す。
論文 参考訳(メタデータ) (2020-03-27T07:37:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。