論文の概要: Adversarial Audio Synthesis with Complex-valued Polynomial Networks
- arxiv url: http://arxiv.org/abs/2206.06811v1
- Date: Tue, 14 Jun 2022 12:58:59 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-15 15:33:52.298629
- Title: Adversarial Audio Synthesis with Complex-valued Polynomial Networks
- Title(参考訳): 複素値多項式ネットワークを用いた逆音声合成
- Authors: Yongtao Wu, Grigorios G Chrysos, Volkan Cevher
- Abstract要約: 音声における時間周波数(TF)表現は、実数値ネットワークとしてますますモデル化されている。
我々は,このような複雑な数値表現を自然な方法で統合するAPOLLOと呼ばれる複雑な数値ネットワークを導入する。
APOLLOは、音声生成におけるSC09の最先端拡散モデルよりも17.5%$改善され、8.2%ドルとなる。
- 参考スコア(独自算出の注目度): 60.231877895663956
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Time-frequency (TF) representations in audio synthesis have been increasingly
modeled with real-valued networks. However, overlooking the complex-valued
nature of TF representations can result in suboptimal performance and require
additional modules (e.g., for modeling the phase). To this end, we introduce
complex-valued polynomial networks, called APOLLO, that integrate such
complex-valued representations in a natural way. Concretely, APOLLO captures
high-order correlations of the input elements using high-order tensors as
scaling parameters. By leveraging standard tensor decompositions, we derive
different architectures and enable modeling richer correlations. We outline
such architectures and showcase their performance in audio generation across
four benchmarks. As a highlight, APOLLO results in $17.5\%$ improvement over
adversarial methods and $8.2\%$ over the state-of-the-art diffusion models on
SC09 dataset in audio generation. Our models can encourage the systematic
design of other efficient architectures on the complex field.
- Abstract(参考訳): 音声合成における時間周波数(tf)表現は、実数値ネットワークでモデル化されている。
しかし、TF表現の複雑な値の性質を見渡すと、最適以下の性能となり、追加のモジュール(例えば位相をモデル化する)が必要になる。
この目的のために、複素値表現を自然な方法で統合するAPOLLOと呼ばれる複素値多項式ネットワークを導入する。
具体的には、APOLLOは高次テンソルをスケーリングパラメータとして、入力要素の高次相関をキャプチャする。
標準テンソル分解を利用して、異なるアーキテクチャを導出し、よりリッチな相関をモデル化できる。
このようなアーキテクチャを概説し、4つのベンチマークでオーディオ生成のパフォーマンスを示す。
強調として、APOLLOは、音声生成におけるSC09データセットの最先端拡散モデルよりも17.5\%$改善され、8.2\%ドルとなる。
我々のモデルは、複雑な分野における他の効率的なアーキテクチャの体系設計を促進することができる。
関連論文リスト
- Tensor Polynomial Additive Model [40.30621617188693]
TPAMは、加法モデルの固有の解釈可能性、透明な意思決定、意味のある特徴値の抽出を保存している。
精度を最大30%向上し、圧縮速度を最大5倍向上させ、良好な解釈性を維持することができる。
論文 参考訳(メタデータ) (2024-06-05T06:23:11Z) - RAVEN: Rethinking Adversarial Video Generation with Efficient Tri-plane Networks [93.18404922542702]
本稿では,長期的空間的および時間的依存関係に対処する新しいビデオ生成モデルを提案する。
提案手法は,3次元認識型生成フレームワークにインスパイアされた,明示的で単純化された3次元平面のハイブリッド表現を取り入れたものである。
我々のモデルは高精細度ビデオクリップを解像度256時間256$ピクセルで合成し、フレームレート30fpsで5ドル以上まで持続する。
論文 参考訳(メタデータ) (2024-01-11T16:48:44Z) - Adaptive re-calibration of channel-wise features for Adversarial Audio
Classification [0.0]
合成音声検出のための注意特徴融合を用いた特徴量の再検討を提案する。
本研究では,End2EndモデルやResnetベースモデルなど,さまざまな検出手法との比較を行った。
また,線形周波数ケプストラム係数 (LFCC) とメル周波数ケプストラム係数 (MFCC) の組み合わせにより,より優れた入力特徴表現が得られることを示した。
論文 参考訳(メタデータ) (2022-10-21T04:21:56Z) - Squeezeformer: An Efficient Transformer for Automatic Speech Recognition [99.349598600887]
Conformerは、そのハイブリッドアテンション・コンボリューションアーキテクチャに基づいて、様々な下流音声タスクの事実上のバックボーンモデルである。
Squeezeformerモデルを提案する。これは、同じトレーニングスキームの下で、最先端のASRモデルよりも一貫して優れている。
論文 参考訳(メタデータ) (2022-06-02T06:06:29Z) - Multi-Scale Semantics-Guided Neural Networks for Efficient
Skeleton-Based Human Action Recognition [140.18376685167857]
スケルトンに基づく行動認識には,単純なマルチスケールセマンティクス誘導ニューラルネットワークが提案されている。
MS-SGNは、NTU60、NTU120、SYSUデータセットの最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2021-11-07T03:50:50Z) - MTCRNN: A multi-scale RNN for directed audio texture synthesis [0.0]
本稿では,異なる抽象レベルで訓練された繰り返しニューラルネットワークと,ユーザ指向の合成を可能にする条件付け戦略を組み合わせたテクスチャのモデリング手法を提案する。
モデルの性能を様々なデータセットで実証し、その性能を様々なメトリクスで検証し、潜在的なアプリケーションについて議論する。
論文 参考訳(メタデータ) (2020-11-25T09:13:53Z) - High-Capacity Complex Convolutional Neural Networks For I/Q Modulation
Classification [0.0]
複素数値畳み込みを計算するための残差および/または高密度接続を含む高容量アーキテクチャを実現することで、技術性能の状態を主張する。
I/Q変調分類のための複雑な畳み込みを伴う全ネットワークにおいて統計的に有意な改善を示す。
論文 参考訳(メタデータ) (2020-10-21T02:26:24Z) - Revealing the Invisible with Model and Data Shrinking for
Composite-database Micro-expression Recognition [49.463864096615254]
入力複雑性とモデル複雑性を含む学習複雑性の影響を分析する。
より浅層構造と低分解能入力データを探索する再帰畳み込みネットワーク(RCN)を提案する。
学習可能なパラメータを増やさなくてもRCNと統合できる3つのパラメータフリーモジュールを開発した。
論文 参考訳(メタデータ) (2020-06-17T06:19:24Z) - Convolutional Tensor-Train LSTM for Spatio-temporal Learning [116.24172387469994]
本稿では,ビデオシーケンスの長期相関を効率的に学習できる高次LSTMモデルを提案する。
これは、時間をかけて畳み込み特徴を組み合わせることによって予測を行う、新しいテンソルトレインモジュールによって達成される。
この結果は,幅広いアプリケーションやデータセットにおいて,最先端のパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2020-02-21T05:00:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。