論文の概要: Cross-modal variational inference for bijective signal-symbol
translation
- arxiv url: http://arxiv.org/abs/2002.03862v1
- Date: Mon, 10 Feb 2020 15:25:48 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-02 07:49:38.920090
- Title: Cross-modal variational inference for bijective signal-symbol
translation
- Title(参考訳): 単射信号-記号変換のクロスモーダル変分推論
- Authors: Axel Chemla--Romeu-Santos, Stavros Ntalampiras, Philippe Esling,
Goffredo Haus, G\'erard Assayag
- Abstract要約: 本稿では,この問題を密度推定タスクに変換することで,信号・記号変換の手法を提案する。
この結合分布を2つの異なる変分オートエンコーダで推定する。
本稿では,音符,オクターブ,ダイナミクスの記号を用いたモデル実験を行い,音楽の書き起こしとラベル制約による音声生成の基本的なステップを構成する。
- 参考スコア(独自算出の注目度): 11.444576186559486
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Extraction of symbolic information from signals is an active field of
research enabling numerous applications especially in the Musical Information
Retrieval domain. This complex task, that is also related to other topics such
as pitch extraction or instrument recognition, is a demanding subject that gave
birth to numerous approaches, mostly based on advanced signal processing-based
algorithms. However, these techniques are often non-generic, allowing the
extraction of definite physical properties of the signal (pitch, octave), but
not allowing arbitrary vocabularies or more general annotations. On top of
that, these techniques are one-sided, meaning that they can extract symbolic
data from an audio signal, but cannot perform the reverse process and make
symbol-to-signal generation. In this paper, we propose an bijective approach
for signal/symbol translation by turning this problem into a density estimation
task over signal and symbolic domains, considered both as related random
variables. We estimate this joint distribution with two different variational
auto-encoders, one for each domain, whose inner representations are forced to
match with an additive constraint, allowing both models to learn and generate
separately while allowing signal-to-symbol and symbol-to-signal inference. In
this article, we test our models on pitch, octave and dynamics symbols, which
comprise a fundamental step towards music transcription and label-constrained
audio generation. In addition to its versatility, this system is rather light
during training and generation while allowing several interesting creative uses
that we outline at the end of the article.
- Abstract(参考訳): 信号からの記号情報の抽出は、特に音楽情報検索領域における多くの応用を可能にする研究の活発な分野である。
この複雑なタスクはピッチ抽出や楽器認識といった他のトピックとも関係しており、多くのアプローチを生み出し、主に高度な信号処理に基づくアルゴリズムに基づいている。
しかし、これらの技法はしばしば非ジェネリックであり、信号(ピッチ、オクターブ)の特定の物理的性質を抽出することができるが、任意の語彙やより一般的な注釈を許さない。
その上、これらの技術は一方通行であり、音声信号からシンボルデータを抽出できるが、逆処理を行わず、記号-信号生成を行うことはできない。
本稿では,この問題を,関連する確率変数として考慮した,信号領域と記号領域上の密度推定タスクに変換することにより,信号/記号変換の単射的手法を提案する。
2つの異なる変分オートエンコーダでこのジョイント分布を推定し,その内的表現を加法制約と一致させることで,モデル間の学習と生成を分離し,信号対記号推論と記号対符号推論を可能にした。
本稿では,音符,オクターブ,ダイナミクスの記号を用いたモデル実験を行い,音楽の書き起こしとラベル制約による音声生成の基本的なステップを構成する。
その汎用性に加えて、このシステムはトレーニングと生成の間は比較的軽く、記事の最後に概説するいくつかの興味深い創造的利用を可能にします。
関連論文リスト
- Towards Disentangled Speech Representations [65.7834494783044]
本研究では, ASR と TTS の合同モデリングに基づく表現学習タスクを構築する。
本研究は,その部分の音声信号と,その部分の音声信号とをアンタングルする音声表現を学習することを目的とする。
我々は,これらの特性をトレーニング中に強化することにより,WERを平均24.5%向上させることを示す。
論文 参考訳(メタデータ) (2022-08-28T10:03:55Z) - Learning and controlling the source-filter representation of speech with
a variational autoencoder [23.05989605017053]
音声処理において、音源フィルタモデルは、音声信号はいくつかの独立的かつ物理的に有意な連続潜伏因子から生成されるとみなす。
本稿では,潜在部分空間内の音源-フィルタ音声要素を高精度かつ独立に制御する手法を提案する。
テキストや人ラベルデータなどの追加情報を必要としないため、音声スペクトログラムの深い生成モデルが得られる。
論文 参考訳(メタデータ) (2022-04-14T16:13:06Z) - Meta-Learning Sparse Implicit Neural Representations [69.15490627853629]
入射神経表現は、一般的な信号を表す新しい道である。
現在のアプローチは、多数の信号やデータセットに対してスケールすることが難しい。
メタ学習型スパースニューラル表現は,高密度メタ学習モデルよりもはるかに少ない損失が得られることを示す。
論文 参考訳(メタデータ) (2021-10-27T18:02:53Z) - Unsupervised Sound Localization via Iterative Contrastive Learning [106.56167882750792]
データアノテーションを必要としない反復型コントラスト学習フレームワークを提案する。
次に、擬似ラベルを用いて、同じビデオからサンプリングされた視覚信号と音声信号の相関関係を学習する。
我々の反復的戦略は徐々に音像の局所化を奨励し、非発声領域と参照音声との相関を減少させる。
論文 参考訳(メタデータ) (2021-04-01T07:48:29Z) - A Signal-Centric Perspective on the Evolution of Symbolic Communication [4.447467536572625]
我々は、生物が独自の解釈可能な意味を持つ共有シンボルセットを定義するためにどのように進化するかを示す。
信号の復号化は,信号振幅が制限され,信号の復号化や分類が可能である。
各種設定において,シンボルの辞書を共有するように進化するエージェントを観察し,各シンボルが1次元のユニークな信号に自然に関連付けられている。
論文 参考訳(メタデータ) (2021-03-31T08:05:01Z) - Discriminative Singular Spectrum Classifier with Applications on
Bioacoustic Signal Recognition [67.4171845020675]
分析や分類に有用な特徴を効率的に抽出する識別機構を備えた生体音響信号分類器を提案する。
タスク指向の現在のバイオ音響認識法とは異なり、提案モデルは入力信号をベクトル部分空間に変換することに依存する。
提案法の有効性は,アヌラン,ミツバチ,蚊の3種の生物音響データを用いて検証した。
論文 参考訳(メタデータ) (2021-03-18T11:01:21Z) - Variable-rate discrete representation learning [20.81400194698063]
シーケンスの高レベルな可変レート離散表現の教師なし学習のための遅いオートエンコーダを提案する。
入力信号の正解情報の密度に応じて,結果のイベントベース表現が自動的に成長または縮小することを示す。
イベントベース表現モデリングのためのラン長変換器を開発し,音声領域における言語モデルの構築に使用する。
論文 参考訳(メタデータ) (2021-03-10T14:42:31Z) - Any-to-Many Voice Conversion with Location-Relative Sequence-to-Sequence
Modeling [61.351967629600594]
本稿では,非並列音声変換手法である非並列音声変換法(seq2seq)を提案する。
本手法では,ボトルネック特徴抽出器(BNE)とセック2セック合成モジュールを組み合わせる。
主観的および主観的評価は,提案手法が自然性と話者類似性の両方において優れた音声変換性能を有することを示す。
論文 参考訳(メタデータ) (2020-09-06T13:01:06Z) - Vector-Quantized Timbre Representation [53.828476137089325]
本稿では, スペクトル特性の近似分解を生成的特徴の集合で学習することにより, 個々の音色をより柔軟に合成することを目的とする。
音量分布の量子化表現を学習するために、大音量から切り離された離散潜在空間を持つオートエンコーダを導入する。
オーケストラ楽器と歌唱音声間の音声の翻訳結果と、ボーカルの模倣音から楽器への変換結果について詳述する。
論文 参考訳(メタデータ) (2020-07-13T12:35:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。