論文の概要: Gamma Boltzmann Machine for Simultaneously Modeling Linear- and
Log-amplitude Spectra
- arxiv url: http://arxiv.org/abs/2006.13590v2
- Date: Thu, 25 Jun 2020 11:35:49 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-17 10:00:50.150358
- Title: Gamma Boltzmann Machine for Simultaneously Modeling Linear- and
Log-amplitude Spectra
- Title(参考訳): 線形および対数振幅スペクトルを同時モデル化するガンマボルツマン機械
- Authors: Toru Nakashika and Kohei Yatabe
- Abstract要約: ガンマ・ベルヌーリ RBM は線形および対数振幅のスペクトルを同時に扱う。
対数スケールの振幅も扱えるが、これは知覚的観点からの音声信号にとって重要である。
- 参考スコア(独自算出の注目度): 43.95163625695819
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In audio applications, one of the most important representations of audio
signals is the amplitude spectrogram. It is utilized in many
machine-learning-based information processing methods including the ones using
the restricted Boltzmann machines (RBM). However, the ordinary
Gaussian-Bernoulli RBM (the most popular RBM among its variations) cannot
directly handle amplitude spectra because the Gaussian distribution is a
symmetric model allowing negative values which never appear in the amplitude.
In this paper, after proposing a general gamma Boltzmann machine, we propose a
practical model called the gamma-Bernoulli RBM that simultaneously handles both
linear- and log-amplitude spectrograms. Its conditional distribution of the
observable data is given by the gamma distribution, and thus the proposed RBM
can naturally handle the data represented by positive numbers as the amplitude
spectra. It can also treat amplitude in the logarithmic scale which is
important for audio signals from the perceptual point of view. The advantage of
the proposed model compared to the ordinary Gaussian-Bernoulli RBM was
confirmed by PESQ and MSE in the experiment of representing the amplitude
spectrograms of speech signals.
- Abstract(参考訳): オーディオアプリケーションでは、オーディオ信号の最も重要な表現の一つが振幅スペクトログラムである。
制限付きボルツマンマシン(RBM)など、多くの機械学習ベースの情報処理手法で使用されている。
しかし、通常のガウス・ベルヌーリ rbm(変種の中で最も人気のあるrbm)は、ガウス分布が振幅に決して現れない負の値を許容する対称モデルであるため、直接振幅スペクトルを扱うことができない。
本稿では,一般のガンマ・ボルツマンマシンを提案し,線形および対数振幅のスペクトログラムを同時に扱うガンマ・ベルヌーリrbmと呼ばれる実用モデルを提案する。
観測可能なデータの条件分布はガンマ分布によって与えられるため、提案したRBMは振幅スペクトルとして正の数で表されるデータを自然に扱うことができる。
また、知覚的な観点からの音声信号にとって重要な対数スケールの振幅も扱うことができる。
音声信号の振幅スペクトルを表す実験において,通常のガウス・ベルヌーリRBMと比較して,提案モデルの利点をPSSQとMSEで確認した。
関連論文リスト
- Bellman Diffusion: Generative Modeling as Learning a Linear Operator in the Distribution Space [72.52365911990935]
本稿では,MDPの線形性を維持する新しいDGMフレームワークであるBellman Diffusionを紹介する。
この結果から,ベルマン拡散は分布RLタスクにおける従来のヒストグラムベースベースラインよりも1.5倍高速に収束し,精度の高い画像生成装置であることがわかった。
論文 参考訳(メタデータ) (2024-10-02T17:53:23Z) - Synthetic Wave-Geometric Impulse Responses for Improved Speech
Dereverberation [69.1351513309953]
室内インパルス応答 (RIR) の低周波成分を正確にシミュレートすることが, 良好な脱ヴァーベレーションを実現する上で重要であることを示す。
本研究では, ハイブリッド合成RIRで訓練された音声残響モデルが, 従来の幾何線トレーシング法により学習されたRIRで訓練されたモデルよりも優れていたことを示す。
論文 参考訳(メタデータ) (2022-12-10T20:15:23Z) - Multimodal Exponentially Modified Gaussian Oscillators [4.233733499457509]
本研究では,任意振動項を持つ3段階多モード指数修正ガウスモデルを提案する。
これにより、人工物に苦しむ合成超音波信号を完全に回収することができる。
得られた特徴の分類能力を示すために実データ実験を行った。
論文 参考訳(メタデータ) (2022-09-25T11:48:09Z) - Decision Forest Based EMG Signal Classification with Low Volume Dataset
Augmented with Random Variance Gaussian Noise [51.76329821186873]
我々は6種類の手振りを限定的なサンプル数で分類できるモデルを作成し、より広い聴衆によく一般化する。
信号のランダムなバウンドの使用など、より基本的な手法のセットにアピールするが、これらの手法がオンライン環境で持てる力を示したいと考えている。
論文 参考訳(メタデータ) (2022-06-29T23:22:18Z) - Scale Dependencies and Self-Similar Models with Wavelet Scattering
Spectra [1.5866079116942815]
複雑なウェーブレット変換は、各スケールで信号の変動を計算する。
スケール間の依存性は、ウェーブレット係数の時間とスケールのジョイント相関によって捉えられる。
このモーメントのベクトルは多スケールプロセスのガウス的でない幅広い性質を特徴付けることを示す。
論文 参考訳(メタデータ) (2022-04-19T22:31:13Z) - Spacing Statistics of Energy Spectra: Random Matrices, Black Hole
Thermalization, and Echoes [0.0]
AdS/CFTホログラフィーの最近の進歩は、ブラックホールの近水平ダイナミクスをランダムマトリックスシステムによって記述できることを示唆している。
本研究では, システムのエネルギースペクトルが初期および後期の熱化挙動にどのように影響するかを, スペクトル形状因子を用いて検討した。
論文 参考訳(メタデータ) (2021-10-07T05:27:02Z) - A Random Matrix Perspective on Random Tensors [40.89521598604993]
与えられたランダムテンソルの収縮から生じるランダム行列のスペクトルについて検討する。
本手法は,ML問題の局所的な最大値の未知な特徴を与える。
我々のアプローチは万能であり、非対称、非ガウス的、高階的など他のモデルにも拡張できる。
論文 参考訳(メタデータ) (2021-08-02T10:42:22Z) - Learning Energy-Based Models by Diffusion Recovery Likelihood [61.069760183331745]
本稿では,エネルギーベースモデルから気軽に学習・サンプルできる拡散回復可能性法を提案する。
学習後、ガウスの白色雑音分布から初期化するサンプリングプロセスにより合成画像を生成することができる。
非条件 CIFAR-10 では,本手法は FID 9.58 と開始スコア 8.30 を達成する。
論文 参考訳(メタデータ) (2020-12-15T07:09:02Z) - Hyperspectral Image Denoising with Partially Orthogonal Matrix Vector
Tensor Factorization [42.56231647066719]
ハイパースペクトル画像(HSI)は、スペクトルの余分な情報により、様々な用途の自然画像に対していくつかの利点がある。
買収の間、しばしばガウシアンノイズ、インパルスノイズ、期限、ストライプなどの厳しい騒音によって汚染される。
本研究では,スムーズかつロバストな低ランクテンソルリカバリというHSI復元手法を提案する。
論文 参考訳(メタデータ) (2020-06-29T02:10:07Z) - Modal Regression based Structured Low-rank Matrix Recovery for
Multi-view Learning [70.57193072829288]
近年、低ランクなマルチビューサブスペース学習は、クロスビューの分類において大きな可能性を示している。
既存のLMvSLベースの手法では、ビューの区別と差別を同時に扱うことができない。
本稿では,視差を効果的に除去し,識別性を向上する独自の方法であるStructured Low-rank Matrix Recovery (SLMR)を提案する。
論文 参考訳(メタデータ) (2020-03-22T03:57:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。