論文の概要: Perceptually Aligning Representations of Music via Noise-Augmented Autoencoders
- arxiv url: http://arxiv.org/abs/2511.05350v1
- Date: Fri, 07 Nov 2025 15:44:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-10 21:00:44.816394
- Title: Perceptually Aligning Representations of Music via Noise-Augmented Autoencoders
- Title(参考訳): 雑音付加型オートエンコーダによる知覚的音楽表現
- Authors: Mathias Rose Bjare, Giorgia Cantisani, Marco Pasini, Stefan Lattner, Gerhard Widmer,
- Abstract要約: このような方法でオーディオオートエンコーダを訓練した後、従来の訓練よりも粗い表現構造で知覚的に健全な情報をキャプチャできることが示される。
このような知覚的階層は、音楽のピッチにおける副次的な推定や、音楽聴取に対する脳波応答の予測という文脈において、潜時拡散復号化を改善することを示す。
- 参考スコア(独自算出の注目度): 13.596509137642103
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We argue that training autoencoders to reconstruct inputs from noised versions of their encodings, when combined with perceptual losses, yields encodings that are structured according to a perceptual hierarchy. We demonstrate the emergence of this hierarchical structure by showing that, after training an audio autoencoder in this manner, perceptually salient information is captured in coarser representation structures than with conventional training. Furthermore, we show that such perceptual hierarchies improve latent diffusion decoding in the context of estimating surprisal in music pitches and predicting EEG-brain responses to music listening. Pretrained weights are available on github.com/CPJKU/pa-audioic.
- Abstract(参考訳): 自動エンコーダをトレーニングすることで、ノイズのあるバージョンのエンコードから入力を再構築し、知覚的損失と組み合わせると、知覚的階層に従って構造化されたエンコードが得られると論じる。
このような方法でオーディオオートエンコーダを訓練した後、従来のトレーニングよりも粗い表現構造で知覚的に健全な情報をキャプチャすることを示すことによって、この階層構造の出現を実証する。
さらに,このような知覚的階層は,音楽聴取に対する脳波応答を推定し,音楽ピッチの次数推定の文脈において潜時拡散復号化を改善することを示す。
事前の重量はgithub.com/CPJKU/pa-audioicで入手できる。
関連論文リスト
- Unified Multimodal Model as Auto-Encoder [69.38946823657592]
本稿では,テキストに画像を圧縮するエンコーダ(I2T)と,そのテキストから画像を再構成するデコーダ(T2I)の理解に関するパラダイムを紹介する。
我々の経験的結果は、理解は生成を大幅に促進し(GenEvalで検証されている)、生成は、特にきめ細かい視覚知覚を強化することを示唆している。
論文 参考訳(メタデータ) (2025-09-11T17:57:59Z) - Epsilon-VAE: Denoising as Visual Decoding [61.29255979767292]
復号化は1段階の再構成から反復的改良へと移行する。
具体的には、デコーダを拡散処理に置き換え、ノイズを反復的に改善して元の画像を復元する。
拡散による反復的再構成により, 自己エンコーダであるEpsilon-VAEは高い再構成品質を実現する。
論文 参考訳(メタデータ) (2024-10-05T08:27:53Z) - Challenging Decoder helps in Masked Auto-Encoder Pre-training for Dense
Passage Retrieval [10.905033385938982]
Masked Auto-Encoder (MAE) 事前トレーニングアーキテクチャが最も有望である。
本稿では,デコーダの難易度を高めるために,ポイントワイド相互情報に基づく新しいトークン重要マスキング戦略を提案する。
論文 参考訳(メタデータ) (2023-05-22T16:27:10Z) - End-to-End Binaural Speech Synthesis [71.1869877389535]
本稿では,低ビットレート音声システムと強力なデコーダを組み合わせたエンドツーエンド音声合成システムを提案する。
実感的な聴覚シーンを作るために必要な環境効果を捉える上で, 対人的損失がもたらす効果を実証する。
論文 参考訳(メタデータ) (2022-07-08T05:18:36Z) - Automatic Audio Captioning using Attention weighted Event based
Embeddings [25.258177951665594]
本稿では,AACのための軽量(学習可能なパラメータが少ない)Bi-LSTM再帰層を有するエンコーダデコーダアーキテクチャを提案する。
AEDを用いた効率的な埋込み抽出器と時間的注意と拡張技術を組み合わせることで,既存の文献を超越できることを示す。
論文 参考訳(メタデータ) (2022-01-28T05:54:19Z) - Voice Activity Detection for Transient Noisy Environment Based on
Diffusion Nets [13.558688470594674]
過渡音と定常音の音響環境における音声活動検出について検討する。
音声フレームと非音声音声フレームの空間パターンを独立に学習し,その基礎となる幾何学的構造を学習する。
ディープニューラルネットワークは、音声フレームと非音声フレームを分離するように訓練される。
論文 参考訳(メタデータ) (2021-06-25T17:05:26Z) - Training Stacked Denoising Autoencoders for Representation Learning [0.0]
高次元データの強力な表現を学習できるニューラルネットワークのクラスであるstacked autoencoderを実装した。
本稿では,自動エンコーダの教師なし学習のための勾配降下と,勾配情報を利用した新しい遺伝的アルゴリズムに基づくアプローチについて述べる。
論文 参考訳(メタデータ) (2021-02-16T08:18:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。