論文の概要: Learning Continuous Representation of Audio for Arbitrary Scale Super
Resolution
- arxiv url: http://arxiv.org/abs/2111.00195v1
- Date: Sat, 30 Oct 2021 07:09:18 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-02 18:03:30.431407
- Title: Learning Continuous Representation of Audio for Arbitrary Scale Super
Resolution
- Title(参考訳): 任意スケール超解像のための音声の連続表現学習
- Authors: Jaechang Kim, Yunjoo Lee, Seunghoon Hong, Jungseul Ok
- Abstract要約: 任意スケール超解像(LISA)のためのニューラル暗黙表現法(ローカルインプリシット表現)を提案する。
本手法は,音声のチャンクを連続時間関数として局所的にパラメータ化し,各チャンクを隣接チャンクの局所潜時符号で表現することにより,任意の時間座標,すなわち無限分解能で信号の外挿を可能にする。
数値評価の結果,LISAは従来の固定スケール法よりも若干のパラメータで優れていたが,訓練データの解像度を超えた任意のスケール超解法も可能であることがわかった。
- 参考スコア(独自算出の注目度): 14.20185948683942
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Audio super resolution aims to predict the missing high resolution components
of the low resolution audio signals. While audio in nature is continuous
signal, current approaches treat it as discrete data (i.e., input is defined on
discrete time domain), and consider the super resolution over fixed scale
factor (i.e., it is required to train a new neural network to change output
resolution). To obtain a continuous representation of audio and enable super
resolution for arbitrary scale factor, we propose a method of neural implicit
representation, coined Local Implicit representation for Super resolution of
Arbitrary scale (LISA). Our method locally parameterizes a chunk of audio as a
function of continuous time, and represents each chunk with the local latent
codes of neighboring chunks so that the function can extrapolate the signal at
any time coordinate, i.e., infinite resolution. To learn a continuous
representation for audio, we design a self-supervised learning strategy to
practice super resolution tasks up to the original resolution by stochastic
selection. Our numerical evaluation shows that LISA outperforms the previous
fixed-scale methods with a fraction of parameters, but also is capable of
arbitrary scale super resolution even beyond the resolution of training data.
- Abstract(参考訳): audio super resolutionは、低解像度オーディオ信号の高分解能コンポーネントの欠落を予測することを目的としている。
自然界の音声は連続的な信号であるが、現在のアプローチでは離散データ(すなわち、入力は離散時間領域で定義される)として扱い、固定スケール因子(すなわち、出力解像度を変更するために新しいニューラルネットワークを訓練する必要がある)に対する超解像を考える。
音響の連続的な表現と任意のスケール係数の超分解能を実現するため、任意スケールの超分解能のためのニューラル暗黙表現法、Local Implicit representation(LISA)を提案する。
本手法は,音声のチャンクを連続時間関数として局所的にパラメータ化し,各チャンクを隣接チャンクの局所潜時符号で表現することにより,任意の時間座標,すなわち無限分解能で信号の外挿を可能にする。
音声の連続表現を学習するために,確率的選択によって元の解像度までスーパーレゾリューションタスクを実践するための自己教師あり学習戦略を設計する。
数値評価の結果,LISAは従来の固定スケール法よりも若干のパラメータで優れていたが,訓練データの解像度を超えた任意のスケール超解法も可能であることがわかった。
関連論文リスト
- $\text{S}^{3}$Mamba: Arbitrary-Scale Super-Resolution via Scaleable State Space Model [45.65903826290642]
ASSRは、1つのモデルを用いて、任意のスケールで低解像度画像を高解像度画像に超解き放つことを目的としている。
拡張性のある連続表現空間を構築するために,$textS3$Mambaと呼ばれる新しい任意のスケール超解法を提案する。
論文 参考訳(メタデータ) (2024-11-16T11:13:02Z) - Any-resolution Training for High-resolution Image Synthesis [55.19874755679901]
生成モデルは、様々な大きさの自然画像であっても、一定の解像度で動作します。
すべてのピクセルが重要であり、そのネイティブ解像度で収集された可変サイズのイメージを持つデータセットを作成する、と我々は主張する。
ランダムなスケールでパッチをサンプリングし、可変出力解像度で新しいジェネレータを訓練するプロセスである。
論文 参考訳(メタデータ) (2022-04-14T17:59:31Z) - Neural Vocoder is All You Need for Speech Super-resolution [56.84715616516612]
音声スーパーレゾリューション(SR)は、高周波成分を生成して音声サンプリング率を高めるタスクである。
既存の音声SR法は、固定的なアップサンプリング比のような制約のある実験環境で訓練される。
本稿では,ニューラルボコーダを用いた音声超解法(NVSR)を提案する。
論文 参考訳(メタデータ) (2022-03-28T17:51:00Z) - FreqNet: A Frequency-domain Image Super-Resolution Network with Dicrete
Cosine Transform [16.439669339293747]
単一画像超解像(SISR)は低分解能(LR)入力から高分解能(HR)出力を得ることを目的とした不適切な問題である。
高ピーク信号-雑音比(PSNR)の結果にもかかわらず、モデルが望まれる高周波の詳細を正しく付加するかどうかを判断することは困難である。
本稿では、周波数領域の観点から直感的なパイプラインであるFreqNetを提案し、この問題を解決する。
論文 参考訳(メタデータ) (2021-11-21T11:49:12Z) - Resolution based Feature Distillation for Cross Resolution Person
Re-Identification [17.86505685442293]
人物の再識別(re-id)は、異なるカメラビューで同一人物の画像を取得することを目的としている。
解像度のミスマッチは、興味のある人とカメラの間の距離が異なるため起こる。
本稿では,複数の解像度の問題を克服するために,分解能に基づく特徴蒸留(RFD)アプローチを提案する。
論文 参考訳(メタデータ) (2021-09-16T11:07:59Z) - InfinityGAN: Towards Infinite-Resolution Image Synthesis [92.40782797030977]
任意の解像度画像を生成するinfinityganを提案する。
少ない計算資源でパッチバイパッチをシームレスに訓練し、推論する方法を示す。
論文 参考訳(メタデータ) (2021-04-08T17:59:30Z) - Looking into Your Speech: Learning Cross-modal Affinity for Audio-visual
Speech Separation [73.1652905564163]
本稿では,音声-視覚的ニューラル処理を用いて音声信号と映像を分離する問題に対処する。
従来の手法では、フレームワイドマッチング基準を用いて、音声とビデオの共有情報を抽出する。
音声と視覚ストリーム間の局所的な親和性だけでなく,グローバル通信を学習するクロスモーダル親和性ネットワーク(CaffNet)を提案する。
論文 参考訳(メタデータ) (2021-03-25T15:39:12Z) - Interpretable Detail-Fidelity Attention Network for Single Image
Super-Resolution [89.1947690981471]
本研究では,スムースとディテールを段階的に分割・収束的に処理する,目的・解釈可能なディテール・ファイダリティ・アテンション・ネットワークを提案する。
特に,詳細推論において顕著な解釈可能な特徴表現のためのヘシアンフィルタを提案する。
実験により,提案手法は最先端手法よりも優れた性能を示すことが示された。
論文 参考訳(メタデータ) (2020-09-28T08:31:23Z) - Hierarchical Timbre-Painting and Articulation Generation [92.59388372914265]
本稿では,f0と大音量に基づく高速かつ高忠実な楽曲生成手法を提案する。
合成音声は、対象楽器の音色及び調音を模倣する。
論文 参考訳(メタデータ) (2020-08-30T05:27:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。