論文の概要: Upsampling artifacts in neural audio synthesis
- arxiv url: http://arxiv.org/abs/2010.14356v2
- Date: Tue, 9 Feb 2021 17:21:05 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-02 13:27:02.935748
- Title: Upsampling artifacts in neural audio synthesis
- Title(参考訳): ニューラルオーディオ合成におけるアップサンプリングアーティファクト
- Authors: Jordi Pons, Santiago Pascual, Giulio Cengarle, Joan Serr\`a
- Abstract要約: アップサンプリングアーティファクトはコンピュータビジョンで研究されてきたが、オーディオ処理では見過ごされてきた。
アップサンプリングアーティファクトの主なソースは、 (i)問題アップサンプリング演算子によって導入されたトーナルおよびフィルタリングアーティファクト、 (ii)アップサンプリング中に出現するスペクトルレプリカである。
近隣のアップサンプラーは問題のある(しかし最先端の)変換やサブピクセル・コンボリューションの代替となりうることを示す。
- 参考スコア(独自算出の注目度): 24.409899861477427
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A number of recent advances in neural audio synthesis rely on upsampling
layers, which can introduce undesired artifacts. In computer vision, upsampling
artifacts have been studied and are known as checkerboard artifacts (due to
their characteristic visual pattern). However, their effect has been overlooked
so far in audio processing. Here, we address this gap by studying this problem
from the audio signal processing perspective. We first show that the main
sources of upsampling artifacts are: (i) the tonal and filtering artifacts
introduced by problematic upsampling operators, and (ii) the spectral replicas
that emerge while upsampling. We then compare different upsampling layers,
showing that nearest neighbor upsamplers can be an alternative to the
problematic (but state-of-the-art) transposed and subpixel convolutions which
are prone to introduce tonal artifacts.
- Abstract(参考訳): 最近のニューラルオーディオ合成の進歩は、望ましくないアーティファクトを導入できるアップサンプリング層に依存している。
コンピュータビジョンでは、アップサンプリングされたアーティファクトが研究され、チェッカーボードアーティファクトとして知られている。
しかし、オーディオ処理では、その効果は見過ごされている。
本稿では,このギャップを音声信号処理の観点から検討することで解決する。
最初に、アップサンプリングアーティファクトの主なソースは次のとおりであることを示す。
(i)問題のあるアップサンプリング・オペレータが導入した調律的・フィルタリング的アーティファクト、
(ii)アップサンプリング中に出現するスペクトルレプリカ。
次に,様々なアップサンプリング層を比較し,隣接するアップサンプラーが問題のある(しかし最先端の)トランスポーズとサブピクセル畳み込みの代替となりうることを示す。
関連論文リスト
- Analyzing the Impact of Splicing Artifacts in Partially Fake Speech Signals [15.595136769477614]
我々は,信号の結合による音声トラックの解析を行い,それらのアーティファクトを調査し,既存のデータセットにバイアスが生じているかどうかを評価する。
その結果,スプライシングアーティファクトを解析することにより,ArialSpoofデータセットとHADデータセットでそれぞれ6.16%,7.36%のEERを検出できることがわかった。
論文 参考訳(メタデータ) (2024-08-25T09:28:04Z) - The Crystal Ball Hypothesis in diffusion models: Anticipating object positions from initial noise [92.53724347718173]
拡散モデルはテキスト・画像生成タスクにおいて顕著な成功を収めた。
我々は、初期ノイズ画像内の特定の領域をトリガーパッチと呼び、結果として発生する画像のオブジェクト生成に重要な役割を果たす。
論文 参考訳(メタデータ) (2024-06-04T05:06:00Z) - Rethinking the Up-Sampling Operations in CNN-based Generative Network
for Generalizable Deepfake Detection [86.97062579515833]
我々は、アップサンプリング操作から生じる一般化された構造的アーティファクトをキャプチャし、特徴付ける手段として、NPR(Neighboring Pixel Relationships)の概念を紹介した。
tft28の異なる生成モデルによって生成されたサンプルを含む、オープンワールドデータセット上で包括的な分析を行う。
この分析は、新しい最先端のパフォーマンスを確立し、既存の手法よりも優れたtft11.6%の向上を示している。
論文 参考訳(メタデータ) (2023-12-16T14:27:06Z) - Improving Feature Stability during Upsampling -- Spectral Artifacts and the Importance of Spatial Context [15.351461000403074]
画像復元、画像分割、不均一性推定など、さまざまなタスクにおいて、画素ワイズ予測が求められている。
以前の研究では、再サンプリング操作がエイリアスなどのアーティファクトの対象であることが示されている。
アップサンプリング中に大きな空間的コンテキストが利用できることで,安定かつ高品質な画素ワイズ予測が実現可能であることを示す。
論文 参考訳(メタデータ) (2023-11-29T10:53:05Z) - Upsampling layers for music source separation [12.982998040587665]
アップサンプリングアーティファクトは、トーナルアーティファクト(付加的な高周波ノイズ)またはフィルタリングアーティファクト(サブストアクティブ、一部のバンドを減衰させる)のいずれかである。
異なるアーティファクトがどのように相互作用し、モデルのパフォーマンスに与える影響を評価する。
以上の結果から, アップサンプラーに関連付けられたフィルター工芸品は, 客観的スコアが悪くても, 知覚的に好適であることが示唆された。
論文 参考訳(メタデータ) (2021-11-23T10:36:28Z) - On the Frequency Bias of Generative Models [61.60834513380388]
我々は、最先端のGANトレーニングにおいて、高周波アーティファクトに対する提案手法を解析した。
既存のアプローチでは、スペクトルアーティファクトを完全に解決できないことが分かっています。
以上の結果から,識別能力の向上に大きな可能性があることが示唆された。
論文 参考訳(メタデータ) (2021-11-03T18:12:11Z) - Ensembling with Deep Generative Views [72.70801582346344]
生成モデルは、色やポーズの変化などの現実世界の変動を模倣する人工画像の「ビュー」を合成することができる。
そこで本研究では, 画像分類などの下流解析作業において, 実画像に適用できるかどうかを検討する。
StyleGAN2を再生増強の源として使用し、顔の属性、猫の顔、車を含む分類タスクについてこの設定を調査します。
論文 参考訳(メタデータ) (2021-04-29T17:58:35Z) - AD-NeRF: Audio Driven Neural Radiance Fields for Talking Head Synthesis [55.24336227884039]
高忠実な会話ヘッドビデオを生成するための新しいフレームワークを紹介します。
音声入力と映像出力のギャップを埋めるために,ニューラルシーン表現ネットワークを用いる。
本フレームワークは,(1)高い忠実度と自然な結果を生み出すことができ,(2)音声信号,視線方向,背景画像の自由な調整をサポートする。
論文 参考訳(メタデータ) (2021-03-20T02:58:13Z) - Weakly- and Semi-Supervised Probabilistic Segmentation and
Quantification of Ultrasound Needle-Reverberation Artifacts to Allow Better
AI Understanding of Tissue Beneath Needles [0.0]
人工物から所望の組織ベースのピクセル値を分離する確率論的ニードル・アンド・レバーベーション・アーティファクトセグメンテーション法を提案する。
提案手法は,最先端のアーティファクトセグメンテーション性能と一致し,アーティファクトの画素ごとのコントリビューションを,基礎となる解剖学に対して推定する新しい標準を設定する。
論文 参考訳(メタデータ) (2020-11-24T08:34:38Z) - BBAND Index: A No-Reference Banding Artifact Predictor [55.42929350861115]
バンディングアーティファクト(英: Banding artifact)または偽コントゥーリング(英: false contouring)は、一般的なビデオ圧縮障害である。
本稿では,Blind BANding Detector (BBAND index) と呼ばれる,歪み特異的な非参照ビデオ品質モデルを提案する。
論文 参考訳(メタデータ) (2020-02-27T03:05:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。