論文の概要: Learning Linearity in Audio Consistency Autoencoders via Implicit Regularization
- arxiv url: http://arxiv.org/abs/2510.23530v1
- Date: Mon, 27 Oct 2025 17:08:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 15:28:15.633172
- Title: Learning Linearity in Audio Consistency Autoencoders via Implicit Regularization
- Title(参考訳): インプシット正規化によるオーディオ一貫性オートエンコーダの線形性学習
- Authors: Bernardo Torres, Manuel Moussallam, Gabriel Meseguer-Brocal,
- Abstract要約: 本稿では,高圧縮一貫性オートエンコーダにおいて,線形性を誘導する簡単なトレーニング手法を提案する。
CAEは、エンコーダとデコーダの両方に線形な挙動を示し、再構成の忠実さを保っている。
- 参考スコア(独自算出の注目度): 6.551534586860428
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Audio autoencoders learn useful, compressed audio representations, but their non-linear latent spaces prevent intuitive algebraic manipulation such as mixing or scaling. We introduce a simple training methodology to induce linearity in a high-compression Consistency Autoencoder (CAE) by using data augmentation, thereby inducing homogeneity (equivariance to scalar gain) and additivity (the decoder preserves addition) without altering the model's architecture or loss function. When trained with our method, the CAE exhibits linear behavior in both the encoder and decoder while preserving reconstruction fidelity. We test the practical utility of our learned space on music source composition and separation via simple latent arithmetic. This work presents a straightforward technique for constructing structured latent spaces, enabling more intuitive and efficient audio processing.
- Abstract(参考訳): オーディオオートエンコーダは有用で圧縮された音声表現を学習するが、その非線形遅延空間は混合やスケーリングといった直感的な代数的操作を妨げている。
本研究では,データ拡張による高圧縮一貫性オートエンコーダ(CAE)の線形性誘導のための簡単なトレーニング手法を導入し,モデルアーキテクチャや損失関数を変更することなく,等質性(スカラーゲインと等価性)と加算性(デコーダが加算を保存する)を誘導する。
本手法を訓練すると,CAEはエンコーダとデコーダの両方に線形な挙動を示すとともに,再構成の忠実さを保っている。
学習空間の実践的有用性を,簡単な潜在算術による音源合成と分離で検証する。
本研究は,より直感的で効率的な音声処理を実現するため,構造化潜在空間を構築するための簡単な手法を提案する。
関連論文リスト
- Learning to Upsample and Upmix Audio in the Latent Domain [14.777092647088756]
ニューラルオーディオオートエンコーダは、知覚的に重要な情報を保持するコンパクトな潜在表現を生成する。
本稿では,オートエンコーダの潜在空間内で音声処理を行うフレームワークを提案する。
生音声における後処理に匹敵する品質を維持しつつ,最大100倍の計算効率向上を示す。
論文 参考訳(メタデータ) (2025-05-31T19:27:22Z) - Epsilon-VAE: Denoising as Visual Decoding [61.29255979767292]
復号化は1段階の再構成から反復的改良へと移行する。
具体的には、デコーダを拡散処理に置き換え、ノイズを反復的に改善して元の画像を復元する。
拡散による反復的再構成により, 自己エンコーダであるEpsilon-VAEは高い再構成品質を実現する。
論文 参考訳(メタデータ) (2024-10-05T08:27:53Z) - Hold Me Tight: Stable Encoder-Decoder Design for Speech Enhancement [1.4037575966075835]
生のオーディオの1Dフィルターは訓練が困難で、しばしば不安定に悩まされる。
これらの問題は、理論駆動とデータ駆動のアプローチを組み合わせたハイブリッドソリューションによって解決される。
論文 参考訳(メタデータ) (2024-08-30T15:49:31Z) - Fundamental Limits of Two-layer Autoencoders, and Achieving Them with
Gradient Methods [91.54785981649228]
本稿では,非線形二層型オートエンコーダについて述べる。
本結果は,人口リスクの最小化要因を特徴付け,その最小化要因が勾配法によって達成されることを示す。
符号アクティベーション関数の特別な場合において、この解析は、シャローオートエンコーダによるガウス音源の損失圧縮の基本的な限界を確立する。
論文 参考訳(メタデータ) (2022-12-27T12:37:34Z) - The dynamics of representation learning in shallow, non-linear
autoencoders [3.1219977244201056]
非線形浅層オートエンコーダにおける特徴学習のダイナミクスについて検討する。
長時間のダイナミクスの分析では、シグモダルオートエンコーダが重みで学習できないことが説明されている。
本研究では,現実的なデータセット上での非線形オートエンコーダの一般化ダイナミクスを正確に記述する。
論文 参考訳(メタデータ) (2022-01-06T15:57:31Z) - Diffusion-Based Representation Learning [65.55681678004038]
教師付き信号のない表現学習を実現するために,デノナイズスコアマッチングフレームワークを拡張した。
対照的に、拡散に基づく表現学習は、デノナイジングスコアマッチング目的の新しい定式化に依存している。
同じ手法を用いて,半教師付き画像分類における最先端モデルの改善を実現する無限次元潜在符号の学習を提案する。
論文 参考訳(メタデータ) (2021-05-29T09:26:02Z) - Autoencoding Variational Autoencoder [56.05008520271406]
我々は,この行動が学習表現に与える影響と,自己整合性の概念を導入することでそれを修正する結果について検討する。
自己整合性アプローチで訓練されたエンコーダは、敵攻撃による入力の摂動に対して頑健な(無神経な)表現につながることを示す。
論文 参考訳(メタデータ) (2020-12-07T14:16:14Z) - A New Modal Autoencoder for Functionally Independent Feature Extraction [6.690183908967779]
新しいモーダルオートエンコーダ (MAE) は、読み出し重み行列の列をオトゴゴナライズすることによって提案される。
結果は、MNIST変異とUSPS分類ベンチマークスイートで検証された。
新しいMAEは、オートエンコーダのための非常にシンプルなトレーニング原則を導入し、ディープニューラルネットワークの事前トレーニングを約束できる。
論文 参考訳(メタデータ) (2020-06-25T13:25:10Z) - MetaSDF: Meta-learning Signed Distance Functions [85.81290552559817]
ニューラルな暗示表現で形状を一般化することは、各関数空間上の学習先行値に比例する。
形状空間の学習をメタラーニング問題として定式化し、勾配に基づくメタラーニングアルゴリズムを利用してこの課題を解決する。
論文 参考訳(メタデータ) (2020-06-17T05:14:53Z) - Improving auditory attention decoding performance of linear and
non-linear methods using state-space model [21.40315235087551]
脳波検査の最近の進歩は、単一の脳波記録からターゲット話者を特定することが可能であることを示している。
AAD法は、線形最小二乗関数または非線形ニューラルネットワークに基づいて、脳波記録から出席した音声エンベロープを再構成する。
相関窓の小さい相関係数を用いた状態空間モデルについて検討し,復号性能の向上を図る。
論文 参考訳(メタデータ) (2020-04-02T09:56:06Z) - Learning Autoencoders with Relational Regularization [89.53065887608088]
データ分散のオートエンコーダを学習するための新しいフレームワークを提案する。
エンフレレーショナル正規化によるモデルと対象分布の差を最小限にする
我々はこのフレームワークを2つのスケーラブルアルゴリズムで実装し、確率的および決定論的オートエンコーダの両方に適用する。
論文 参考訳(メタデータ) (2020-02-07T17:27:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。