論文の概要: Using growth transform dynamical systems for spatio-temporal data
sonification
- arxiv url: http://arxiv.org/abs/2108.09537v1
- Date: Sat, 21 Aug 2021 16:25:59 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-24 15:20:14.938090
- Title: Using growth transform dynamical systems for spatio-temporal data
sonification
- Title(参考訳): 時空間データ調音のための成長変換力学系の利用
- Authors: Oindrila Chatterjee, Shantanu Chakrabartty
- Abstract要約: 有意義な音声シグネチャで情報を符号化するソニフィケーションは、人間のループ内決定のための従来の可視化手法の強化や置き換えにいくつかの利点がある。
本稿では,複雑な成長変換力学系モデルを用いて高次元データを音化するための新しい枠組みを提案する。
本アルゴリズムは,学習タスクや予測タスクの根底にあるデータと最適化パラメータを入力として,ユーザが定義した心理パラメータと組み合わせる。
- 参考スコア(独自算出の注目度): 9.721342507747158
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Sonification, or encoding information in meaningful audio signatures, has
several advantages in augmenting or replacing traditional visualization methods
for human-in-the-loop decision-making. Standard sonification methods reported
in the literature involve either (i) using only a subset of the variables, or
(ii) first solving a learning task on the data and then mapping the output to
an audio waveform, which is utilized by the end-user to make a decision. This
paper presents a novel framework for sonifying high-dimensional data using a
complex growth transform dynamical system model where both the learning (or,
more generally, optimization) and the sonification processes are integrated
together. Our algorithm takes as input the data and optimization parameters
underlying the learning or prediction task and combines it with the
psychoacoustic parameters defined by the user. As a result, the proposed
framework outputs binaural audio signatures that not only encode some
statistical properties of the high-dimensional data but also reveal the
underlying complexity of the optimization/learning process. Along with
extensive experiments using synthetic datasets, we demonstrate the framework on
sonifying Electro-encephalogram (EEG) data with the potential for detecting
epileptic seizures in pediatric patients.
- Abstract(参考訳): 有意義な音声シグネチャで情報を符号化するソニフィケーションは、人間のループ内決定のための従来の可視化手法の強化や置き換えにいくつかの利点がある。
文献で報告されている標準的な音素化手法は、(i)変数のサブセットのみを使用するか、(ii)データ上の学習タスクを最初に解決し、次いで、エンドユーザーが決定するために使用する音声波形に出力をマッピングする。
本稿では, 複合成長変換力学系モデルを用いて, 学習(あるいはより一般的には最適化)と音化過程を統合した, 高次元データを音化するための新しい枠組みを提案する。
本アルゴリズムは,学習課題や予測課題の根底にあるデータと最適化パラメータを入力として,ユーザが定義する心理音響パラメータと組み合わせる。
その結果、高次元データの統計特性を符号化するだけでなく、最適化・学習プロセスの基盤となる複雑さを明らかにするバイノーラル音声シグネチャを出力する。
合成データセットを用いた広範囲な実験とともに、小児のてんかん発作を検出する可能性を持つ脳波解析(eeg)の枠組みを実証する。
関連論文リスト
- Learning Latent Dynamics via Invariant Decomposition and
(Spatio-)Temporal Transformers [0.6767885381740952]
本研究では,高次元経験データから力学系を学習する手法を提案する。
我々は、システムの複数の異なるインスタンスからデータが利用できる設定に焦点を当てる。
我々は、単純な理論的分析と、合成および実世界のデータセットに関する広範な実験を通して行動を研究する。
論文 参考訳(メタデータ) (2023-06-21T07:52:07Z) - Boosting Fast and High-Quality Speech Synthesis with Linear Diffusion [85.54515118077825]
本稿では, 常微分方程式に基づく線形拡散モデル(LinDiff)を提案する。
計算複雑性を低減するため、LinDiffでは、入力信号を小さなパッチに分割するパッチベースの処理アプローチを採用している。
我々のモデルは、より高速な合成速度で自己回帰モデルに匹敵する品質の音声を合成することができる。
論文 参考訳(メタデータ) (2023-06-09T07:02:43Z) - Make-An-Audio 2: Temporal-Enhanced Text-to-Audio Generation [72.7915031238824]
大規模な拡散モデルは、テキスト・トゥ・オーディオ(T2A)合成タスクで成功している。
意味的不一致や時間的一貫性の低下といった共通の問題に悩まされることが多い。
我々は,Make-an-Audioの成功に基づいて,潜伏拡散に基づくT2A法であるMake-an-Audio 2を提案する。
論文 参考訳(メタデータ) (2023-05-29T10:41:28Z) - Fully Automated End-to-End Fake Audio Detection [57.78459588263812]
本稿では,完全自動エンドツーエンド音声検出手法を提案する。
まず、wav2vec事前学習モデルを用いて、音声の高レベル表現を得る。
ネットワーク構造には, Light-DARTS という異種アーキテクチャサーチ (DARTS) の修正版を用いる。
論文 参考訳(メタデータ) (2022-08-20T06:46:55Z) - Discretization and Re-synthesis: an alternative method to solve the
Cocktail Party Problem [65.25725367771075]
この研究は、初めて合成に基づくアプローチがこの問題にうまく対応できることを示した。
具体的には,離散シンボルの認識に基づく音声分離/強調モデルを提案する。
離散シンボルの入力による合成モデルを利用することで、離散シンボル列の予測後、各ターゲット音声を再合成することができる。
論文 参考訳(メタデータ) (2021-12-17T08:35:40Z) - Synt++: Utilizing Imperfect Synthetic Data to Improve Speech Recognition [18.924716098922683]
合成データによる機械学習は、合成データと実際のデータ分布のギャップのため、簡単ではない。
本稿では,分散ギャップに起因する問題を緩和するために,トレーニング中の2つの新しい手法を提案する。
これらの手法は,合成データを用いた音声認識モデルの訓練を著しく改善することを示す。
論文 参考訳(メタデータ) (2021-10-21T21:11:42Z) - Learning Dynamics from Noisy Measurements using Deep Learning with a
Runge-Kutta Constraint [9.36739413306697]
そこで本研究では,雑音と疎サンプルを用いた微分方程式の学習手法について論じる。
我々の方法論では、ディープニューラルネットワークと古典的な数値積分法の統合において、大きな革新が見られる。
論文 参考訳(メタデータ) (2021-09-23T15:43:45Z) - Improved Speech Emotion Recognition using Transfer Learning and
Spectrogram Augmentation [56.264157127549446]
音声感情認識(SER)は、人間とコンピュータの相互作用において重要な役割を果たす課題である。
SERの主な課題の1つは、データの不足である。
本稿では,スペクトログラム拡張と併用した移動学習戦略を提案する。
論文 参考訳(メタデータ) (2021-08-05T10:39:39Z) - Longitudinal Variational Autoencoder [1.4680035572775534]
不足値を含む高次元データを解析するための一般的なアプローチは、変分オートエンコーダ(VAE)を用いた低次元表現を学習することである。
標準的なVAEは、学習した表現はi.d.であり、データサンプル間の相関を捉えることができないと仮定する。
本稿では,多出力加法的ガウス過程(GP)を用いて,構造化された低次元表現を学習するVAEの能力を拡張した縦型VAE(L-VAE)を提案する。
我々の手法は時間変化の共有効果とランダム効果の両方に同時に対応でき、構造化された低次元表現を生成する。
論文 参考訳(メタデータ) (2020-06-17T10:30:14Z) - Noise Robust TTS for Low Resource Speakers using Pre-trained Model and
Speech Enhancement [31.33429812278942]
提案したエンドツーエンド音声合成モデルでは,話者埋め込みと雑音表現をそれぞれモデル話者と雑音情報に対する条件入力として利用する。
実験結果から,提案手法により生成した音声は,直接調整したマルチ話者音声合成モデルよりも主観評価が優れていることがわかった。
論文 参考訳(メタデータ) (2020-05-26T06:14:06Z) - VaPar Synth -- A Variational Parametric Model for Audio Synthesis [78.3405844354125]
本稿では,条件付き変分オートエンコーダ(CVAE)を用いた変分パラメトリックシンセサイザVaPar Synthを提案する。
提案するモデルの性能は,ピッチを柔軟に制御した楽器音の再構成と生成によって実証する。
論文 参考訳(メタデータ) (2020-03-30T16:05:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。