論文の概要: SCRAPL: Scattering Transform with Random Paths for Machine Learning
- arxiv url: http://arxiv.org/abs/2602.11145v1
- Date: Wed, 11 Feb 2026 18:57:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-12 21:44:02.347126
- Title: SCRAPL: Scattering Transform with Random Paths for Machine Learning
- Title(参考訳): SCRAPL:機械学習のためのランダムパス付き散乱変換
- Authors: Christopher Mitcheltree, Vincent Lostanlen, Emmanouil Benetos, Mathieu Lagrange,
- Abstract要約: 機械学習のためのランダムパスを用いた散乱変換(SCRAPL)は,多変数散乱変換の効率的な評価手法である。
SCRAPLは、複数のスケールとレートで分光時相パターンを分解し、間欠的な聴覚テクスチャの微妙な特徴付けを可能にする。
SCRAPLを微分可能ディジタル信号処理(DDSP)、具体的には粒状合成器とRoland TR-808ドラムマシンの教師なし音声マッチングに適用する。
- 参考スコア(独自算出の注目度): 19.198253857377054
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: The Euclidean distance between wavelet scattering transform coefficients (known as paths) provides informative gradients for perceptual quality assessment of deep inverse problems in computer vision, speech, and audio processing. However, these transforms are computationally expensive when employed as differentiable loss functions for stochastic gradient descent due to their numerous paths, which significantly limits their use in neural network training. Against this problem, we propose "Scattering transform with Random Paths for machine Learning" (SCRAPL): a stochastic optimization scheme for efficient evaluation of multivariable scattering transforms. We implement SCRAPL for the joint time-frequency scattering transform (JTFS) which demodulates spectrotemporal patterns at multiple scales and rates, allowing a fine characterization of intermittent auditory textures. We apply SCRAPL to differentiable digital signal processing (DDSP), specifically, unsupervised sound matching of a granular synthesizer and the Roland TR-808 drum machine. We also propose an initialization heuristic based on importance sampling, which adapts SCRAPL to the perceptual content of the dataset, improving neural network convergence and evaluation performance. We make our code and audio samples available and provide SCRAPL as a Python package.
- Abstract(参考訳): ウェーブレット散乱変換係数(パス)間のユークリッド距離は、コンピュータビジョン、音声、音声処理における深い逆問題に対する知覚的品質評価のための情報勾配を与える。
しかし、これらの変換は確率勾配降下のための微分損失関数として用いられる場合、その多くの経路のために計算コストが高く、ニューラルネットワークトレーニングにおける使用を著しく制限する。
この問題に対して,多変数散乱変換を効率的に評価するための確率的最適化手法である「機械学習のためのランダムパス付き散乱変換」(SCRAPL)を提案する。
SCRAPLは、複数スケールの分光時間パターンを分解し、間欠的な聴覚テクスチャの微妙な特徴付けを可能にするジョイント時間周波数散乱変換(JTFS)に実装する。
SCRAPLを微分可能ディジタル信号処理(DDSP)、具体的には粒状合成器とRoland TR-808ドラムマシンの教師なし音声マッチングに適用する。
また、重要サンプリングに基づく初期化ヒューリスティックを提案し、SCRAPLをデータセットの知覚内容に適用し、ニューラルネットワークの収束と評価性能を向上させる。
コードとオーディオサンプルを利用可能にし、SCRAPLをPythonパッケージとして提供します。
関連論文リスト
- Doppler Invariant CNN for Signal Classification [0.0]
本稿では、周波数領域における畳み込みシフトの等価性を利用する複雑な値を持つ畳み込みニューラルネットワーク(CNN)アーキテクチャを提案する。
ドップラーシフトのない例では, ランダムなドップラーシフトを伴わない場合と, ランダムなドップラーシフトを伴わない場合とで, 本モデルが一貫した分類精度を維持していることを示す。
論文 参考訳(メタデータ) (2025-11-18T16:31:13Z) - Cross-Frequency Implicit Neural Representation with Self-Evolving Parameters [52.574661274784916]
Inlicit Neural representation (INR) は視覚データ表現の強力なパラダイムとして登場した。
本研究では,データを4つの周波数成分に分離し,ウェーブレット空間でINRを用いるHaar Wavelet変換(CF-INR)を用いた自己進化型クロス周波数INRを提案する。
CF-INRは画像の回帰, 塗装, 装飾, 雲の除去など, 様々な視覚的データ表現および回復タスクで評価される。
論文 参考訳(メタデータ) (2025-04-15T07:14:35Z) - WiNet: Wavelet-based Incremental Learning for Efficient Medical Image Registration [68.25711405944239]
深部画像登録は異常な精度と高速な推測を示した。
近年の進歩は、粗大から粗大の方法で密度変形場を推定するために、複数のカスケードまたはピラミッドアーキテクチャを採用している。
本稿では,様々なスケールにわたる変位/速度場に対して,スケールワイブレット係数を漸進的に推定するモデル駆動WiNetを提案する。
論文 参考訳(メタデータ) (2024-07-18T11:51:01Z) - Pivotal Auto-Encoder via Self-Normalizing ReLU [20.76999663290342]
トランスフォーメーション学習問題として,単一の隠蔽層スパースオートエンコーダを定式化する。
本稿では,テスト時の騒音レベルに不変な予測モデルを実現する最適化問題を提案する。
実験結果から, 各種ノイズに対する安定性が向上することが示唆された。
論文 参考訳(メタデータ) (2024-06-23T09:06:52Z) - RL-based Stateful Neural Adaptive Sampling and Denoising for Real-Time
Path Tracing [1.534667887016089]
モンテカルロ経路追跡は、現実的な画像合成の強力な手法であるが、低いサンプル数での高レベルのノイズに悩まされている。
本稿では,サンプリング重要度ネットワーク,遅延空間エンコーダネットワーク,デノイザネットワークをエンドツーエンドでトレーニングするフレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-05T12:39:27Z) - Degradation-Noise-Aware Deep Unfolding Transformer for Hyperspectral
Image Denoising [9.119226249676501]
ハイパースペクトル画像(HSI)は、帯域幅が狭いため、ノイズが多いことが多い。
HSIデータキューブのノイズを低減するため、モデル駆動型と学習型の両方の復調アルゴリズムが提案されている。
本稿では,これらの問題に対処するDNA-Net(Degradation-Noise-Aware Unfolding Network)を提案する。
論文 参考訳(メタデータ) (2023-05-06T13:28:20Z) - Treatment Learning Causal Transformer for Noisy Image Classification [62.639851972495094]
本研究では,この2値情報「ノイズの存在」を画像分類タスクに組み込んで予測精度を向上させる。
因果的変動推定から動機付け,雑音画像分類のための頑健な特徴表現を潜在生成モデルを用いて推定するトランスフォーマーに基づくアーキテクチャを提案する。
また、パフォーマンスベンチマークのための幅広いノイズ要素を取り入れた、新しいノイズの多い画像データセットも作成する。
論文 参考訳(メタデータ) (2022-03-29T13:07:53Z) - Coarse-to-Fine Sparse Transformer for Hyperspectral Image Reconstruction [138.04956118993934]
本稿では, サース・トゥ・ファインス・スパース・トランス (CST) を用いた新しいトランス方式を提案する。
HSI再構成のための深層学習にHSI空間を埋め込んだCST
特に,CSTは,提案したスペクトル認識スクリーニング機構(SASM)を粗いパッチ選択に使用し,選択したパッチを,細かなピクセルクラスタリングと自己相似性キャプチャのために,カスタマイズしたスペクトル集約ハッシュ型マルチヘッド自己アテンション(SAH-MSA)に入力する。
論文 参考訳(メタデータ) (2022-03-09T16:17:47Z) - Conditioning Trick for Training Stable GANs [70.15099665710336]
本稿では,GANトレーニング中の不安定性問題に対応するため,ジェネレータネットワークに正規性から逸脱する条件付け手法を提案する。
我々は、生成元をシュア分解のスペクトル領域で計算された実サンプルの正規化関数から逸脱するように強制する。
論文 参考訳(メタデータ) (2020-10-12T16:50:22Z) - Spatially Adaptive Inference with Stochastic Feature Sampling and
Interpolation [72.40827239394565]
スパースサンプリングされた場所のみの機能を計算することを提案する。
次に、効率的な手順で特徴写像を密に再構築する。
提案したネットワークは、様々なコンピュータビジョンタスクの精度を維持しながら、かなりの計算を省くために実験的に示されている。
論文 参考訳(メタデータ) (2020-03-19T15:36:31Z) - DCT-Conv: Coding filters in convolutional networks with Discrete Cosine
Transform [0.0]
スペクトル選択成分をオフにすることで、ネットワークのトレーニングされた重みの数を減らし、その性能にどのように影響するかを分析する。
実験により、訓練されたDCTパラメータでフィルタをコーディングすると、従来の畳み込みよりも改善されることが示された。
論文 参考訳(メタデータ) (2020-01-23T13:58:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。