論文の概要: Discriminating real and synthetic super-resolved audio samples using embedding-based classifiers
- arxiv url: http://arxiv.org/abs/2601.03443v1
- Date: Tue, 06 Jan 2026 22:10:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-09 02:15:23.084032
- Title: Discriminating real and synthetic super-resolved audio samples using embedding-based classifiers
- Title(参考訳): 埋め込み型分類器を用いた実・合成超解音サンプルの識別
- Authors: Mikhail Silaev, Konstantinos Drossos, Tuomas Virtanen,
- Abstract要約: GAN(Generative Adversarial Network)と拡散モデルは最近,オーディオ超解像における最先端の性能を達成した。
ここでは、様々な埋め込み空間における実・超解音声の分離性について分析する。
- 参考スコア(独自算出の注目度): 9.870143085379146
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generative adversarial networks (GANs) and diffusion models have recently achieved state-of-the-art performance in audio super-resolution (ADSR), producing perceptually convincing wideband audio from narrowband inputs. However, existing evaluations primarily rely on signal-level or perceptual metrics, leaving open the question of how closely the distributions of synthetic super-resolved and real wideband audio match. Here we address this problem by analyzing the separability of real and super-resolved audio in various embedding spaces. We consider both middle-band ($4\to 16$~kHz) and full-band ($16\to 48$~kHz) upsampling tasks for speech and music, training linear classifiers to distinguish real from synthetic samples based on multiple types of audio embeddings. Comparisons with objective metrics and subjective listening tests reveal that embedding-based classifiers achieve near-perfect separation, even when the generated audio attains high perceptual quality and state-of-the-art metric scores. This behavior is consistent across datasets and models, including recent diffusion-based approaches, highlighting a persistent gap between perceptual quality and true distributional fidelity in ADSR models.
- Abstract(参考訳): 近年,GAN(Generative Adversarial Network)と拡散モデルがオーディオ超解像(ADSR)の最先端性能を達成し,狭帯域入力による広帯域オーディオを知覚的に実現している。
しかし、既存の評価は主に信号レベルまたは知覚メトリクスに依存しており、合成超解像と実広帯域オーディオの分布がどの程度近いかという疑問が残る。
ここでは,様々な埋め込み空間における実・超解音声の分離性を分析することにより,この問題に対処する。
我々は、中帯域(4\to 16$~kHz)とフルバンド(16\to 48$~kHz)の両方を、音声と音楽のためのアップサンプリングタスクとして検討し、複数の種類のオーディオ埋め込みに基づいて、リアルと合成サンプルを区別するために線形分類器を訓練する。
主観的測定値と主観的聴力テストとの比較により, 生成した音声が高い知覚的品質と最先端の計測値を得た場合でも, 埋め込み型分類器がほぼ完全に分離できることが判明した。
この挙動は、最近の拡散に基づくアプローチを含むデータセットやモデル間で一貫性があり、ADSRモデルにおける知覚的品質と真の分布忠実性の間の永続的なギャップを強調している。
関連論文リスト
- High-Quality Sound Separation Across Diverse Categories via Visually-Guided Generative Modeling [65.02357548201188]
DAVIS(Diffusion-based Audio-VIsual separation framework)を提案する。
本フレームワークは、混合音声入力と関連する視覚情報に基づいて、ノイズ分布から直接、所望の分離音スペクトルを合成することによって機能する。
論文 参考訳(メタデータ) (2025-09-26T08:46:00Z) - Inference-time Scaling for Diffusion-based Audio Super-resolution [27.246435209069865]
拡散モデルは、音声超解像(SR)を含む生成タスクにおいて顕著な成功を収めた。
本稿では,サンプリング過程における複数の解軌跡を探索するSRの推論時間スケーリングを通じて,異なるパラダイムを提案する。
検証とアルゴリズムの組み合わせによって高次元の解空間の探索を積極的に導くことで、より堅牢で高品質な出力を可能にします。
論文 参考訳(メタデータ) (2025-08-04T13:17:49Z) - Unleashing the Power of Natural Audio Featuring Multiple Sound Sources [54.38251699625379]
ユニバーサルサウンド分離は、混合音声から異なるイベントに対応するクリーンなオーディオトラックを抽出することを目的としている。
複雑な混合音声を複数の独立したトラックに分解するために,データエンジンを利用するフレームワークであるClearSepを提案する。
実験では、ClearSepは複数の音分離タスクで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-04-24T17:58:21Z) - SpecDiff-GAN: A Spectrally-Shaped Noise Diffusion GAN for Speech and
Music Synthesis [0.0]
本稿では,HiFi-GANに基づくニューラルボコーダSpecDiff-GANを紹介する。
いくつかのデータセットに対して,提案モデルによる音声合成と音楽合成の利点を示す。
論文 参考訳(メタデータ) (2024-01-30T09:17:57Z) - From Discrete Tokens to High-Fidelity Audio Using Multi-Band Diffusion [84.138804145918]
深層生成モデルは、様々な種類の表現で条件付けられた高忠実度オーディオを生成することができる。
これらのモデルは、条件付けに欠陥がある場合や不完全な場合、可聴アーチファクトを生成する傾向がある。
低ビットレート離散表現から任意の種類のオーディオモダリティを生成する高忠実度マルチバンド拡散ベースフレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-02T22:14:29Z) - BinauralGrad: A Two-Stage Conditional Diffusion Probabilistic Model for
Binaural Audio Synthesis [129.86743102915986]
我々は、音声を共通部分へ分解することで、異なる視点から合成プロセスを定式化する。
拡散モデルを備えた新しい2段階フレームワークであるBinauralGradを提案する。
実験結果から,BinauralGradは対象評価指標と対象評価指標の両方において,既存のベースラインよりも高い性能を示した。
論文 参考訳(メタデータ) (2022-05-30T02:09:26Z) - Bridging the Gap Between Clean Data Training and Real-World Inference
for Spoken Language Understanding [76.89426311082927]
既存のモデルはクリーンデータに基づいてトレーニングされ、クリーンデータトレーニングと現実世界の推論の間にtextitgapが発生する。
本稿では,良質なサンプルと低品質のサンプルの両方が類似ベクトル空間に埋め込まれた領域適応法を提案する。
広く使用されているデータセット、スニップス、および大規模な社内データセット(1000万のトレーニング例)に関する実験では、この方法は実世界の(騒々しい)コーパスのベースラインモデルを上回るだけでなく、堅牢性、すなわち、騒々しい環境下で高品質の結果を生み出すことを実証しています。
論文 参考訳(メタデータ) (2021-04-13T17:54:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。