論文の概要: Differentiable Time-Frequency Scattering in Kymatio
- arxiv url: http://arxiv.org/abs/2204.08269v1
- Date: Mon, 18 Apr 2022 12:02:08 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-19 20:02:52.436967
- Title: Differentiable Time-Frequency Scattering in Kymatio
- Title(参考訳): Kymatioにおける時間周波数の異なる散乱
- Authors: John Muradeli, Cyrus Vahidi, Changhong Wang, Han Han, Vincent
Lostanlen, Mathieu Lagrange, George Fazekas
- Abstract要約: 本稿では,分散変換のためのPythonパッケージであるKymatioにおける時間周波数散乱の実装について述べる。
提案手法は, 分光時間変調の教師なし多様体学習, 楽器の教師付き分類, 生体音響音のテクスチャ再生の3つの応用を通して, キモティオにおけるJTFSの有用性を示す。
- 参考スコア(独自算出の注目度): 6.62937553460251
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Joint time-frequency scattering (JTFS) is a convolutional operator in the
time-frequency domain which extracts spectrotemporal modulations at various
rates and scales. It offers an idealized model of spectrotemporal receptive
fields (STRF) in the primary auditory cortex, and thus may serve as a
biological plausible surrogate for human perceptual judgments at the scale of
isolated audio events. Yet, prior implementations of JTFS and STRF have
remained outside of the standard toolkit of perceptual similarity measures and
evaluation methods for audio generation. We trace this issue down to three
limitations: differentiability, speed, and flexibility. In this paper, we
present an implementation of time-frequency scattering in Kymatio, an
open-source Python package for scattering transforms. Unlike prior
implementations, Kymatio accommodates NumPy and PyTorch as backends and is thus
portable on both CPU and GPU. We demonstrate the usefulness of JTFS in Kymatio
via three applications: unsupervised manifold learning of spectrotemporal
modulations, supervised classification of musical instruments, and texture
resynthesis of bioacoustic sounds.
- Abstract(参考訳): 結合時間周波数散乱(JTFS)は、様々な速度とスケールで分光時間変調を抽出する時間周波数領域における畳み込み作用素である。
一次聴覚野におけるスペクトロテンポラル受容野(strf)の理想化されたモデルを提供し、孤立したオーディオイベントのスケールで人間の知覚的判断のための生物学的に説得力のある代理として機能する。
しかし、JTFS と STRF の以前の実装は、知覚的類似度測定と音声生成のための評価方法の標準ツールキットの外部に留まっている。
この問題は、微分可能性、スピード、柔軟性の3つの制限に遡る。
本稿では,オープンソースの散乱変換用pythonパッケージkymatioにおける時間周波数散乱の実装について述べる。
以前の実装とは異なり、KymatioはNumPyとPyTorchをバックエンドとして対応しており、CPUとGPUの両方で移植可能である。
提案手法は, 分光時間変調の教師なし多様体学習, 楽器の教師付き分類, 生体音響音のテクスチャ再生の3つの応用を通して, JTFS の有用性を示す。
関連論文リスト
- Sine, Transient, Noise Neural Modeling of Piano Notes [0.0]
3つのサブモジュールはピアノ録音からコンポーネントを学び、ハーモニック、トランジェント、ノイズ信号を生成する。
特異点から、三弦の異なる鍵と畳み込みに基づくネットワークとの結合をエミュレートする。
その結果、モデルがターゲットの部分分布と一致し、スペクトルの上部のエネルギーがより多くの課題をもたらすことを予測した。
論文 参考訳(メタデータ) (2024-09-10T13:48:18Z) - Frequency Guidance Matters: Skeletal Action Recognition by Frequency-Aware Mixed Transformer [18.459822172890473]
骨格の周波数表現を除去するための周波数認識型アテンションモジュールを提案する。
また、周波数特徴を持つ空間特徴を組み込む混合変圧器アーキテクチャも開発している。
FreqMiXFormerは3つの一般的な骨格認識データセットでSOTAを上回っている。
論文 参考訳(メタデータ) (2024-07-17T05:47:27Z) - TSLANet: Rethinking Transformers for Time Series Representation Learning [19.795353886621715]
時系列データは、その固有の長短の依存関係によって特徴づけられる。
本稿では,時系列タスクの普遍的畳み込みモデルとして,新しい時系列軽量ネットワーク(TSLANet)を導入する。
我々の実験では、TSLANetは分類、予測、異常検出にまたがる様々なタスクにおいて最先端のモデルよりも優れていることを示した。
論文 参考訳(メタデータ) (2024-04-12T13:41:29Z) - Dynamic Temporal Filtering in Video Models [128.02725199486719]
時間的特徴学習の新しいレシピである動的時間フィルタ(DTF)を提案する。
DTFは、その長距離時間ダイナミクスをモデル化するために、空間的位置ごとに特別な周波数フィルタを学習する。
DTFブロックをConvNetsとTransformerにプラグインすることで、DTF-NetとDTF-Transformerが得られる。
論文 参考訳(メタデータ) (2022-11-15T15:59:28Z) - Extending GCC-PHAT using Shift Equivariant Neural Networks [17.70159660438739]
位相変換(GCC-PHAT)と一般化された相互相関に基づく手法が話者定位に広く採用されている。
本稿では、シフト同変ニューラルネットワークを用いて受信信号をフィルタリングするGCC-PHATの拡張手法を提案する。
本モデルでは,GCC-PHATの誤差を常に低減し,正確な時間遅延回復を保証している。
論文 参考訳(メタデータ) (2022-08-09T10:31:10Z) - SpecGrad: Diffusion Probabilistic Model based Neural Vocoder with
Adaptive Noise Spectral Shaping [51.698273019061645]
SpecGradは拡散雑音に適応し、その時間変化スペクトル包絡が条件付き対数メル分光器に近づく。
時間周波数領域で処理され、計算コストは従来のDDPMベースのニューラルボコーダとほぼ同じである。
論文 参考訳(メタデータ) (2022-03-31T02:08:27Z) - SoundDet: Polyphonic Sound Event Detection and Localization from Raw
Waveform [48.68714598985078]
SoundDetは、多音動音イベントの検出とローカライゼーションのためのエンドツーエンドのトレーニング可能で軽量なフレームワークである。
SoundDetは、生のマルチチャネル波形を直接消費し、検出すべき時間音イベントを完全な音オブジェクトとして扱う。
次に、時間的変化が大きいイベントを予測する上での課題に対処するため、高密度な音響提案イベントマップを構築する。
論文 参考訳(メタデータ) (2021-06-13T11:43:41Z) - PILOT: Introducing Transformers for Probabilistic Sound Event
Localization [107.78964411642401]
本稿では,受信したマルチチャンネル音声信号の時間的依存性を自己アテンション機構によってキャプチャする,トランスフォーマーに基づく新しい音声イベント定位フレームワークを提案する。
このフレームワークは, 公開されている3つの音声イベントローカライズデータセットを用いて評価し, 局所化誤差と事象検出精度の点で最先端の手法と比較した。
論文 参考訳(メタデータ) (2021-06-07T18:29:19Z) - Multi-Temporal Convolutions for Human Action Recognition in Videos [83.43682368129072]
複数の解像度で抽出できる新しい時間・時間的畳み込みブロックを提案する。
提案するブロックは軽量で,任意の3D-CNNアーキテクチャに統合可能である。
論文 参考訳(メタデータ) (2020-11-08T10:40:26Z) - Conditioning Trick for Training Stable GANs [70.15099665710336]
本稿では,GANトレーニング中の不安定性問題に対応するため,ジェネレータネットワークに正規性から逸脱する条件付け手法を提案する。
我々は、生成元をシュア分解のスペクトル領域で計算された実サンプルの正規化関数から逸脱するように強制する。
論文 参考訳(メタデータ) (2020-10-12T16:50:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。