論文の概要: TUNet: A Block-online Bandwidth Extension Model based on Transformers
and Self-supervised Pretraining
- arxiv url: http://arxiv.org/abs/2110.13492v1
- Date: Tue, 26 Oct 2021 08:43:46 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-27 16:32:21.017303
- Title: TUNet: A Block-online Bandwidth Extension Model based on Transformers
and Self-supervised Pretraining
- Title(参考訳): TUNet:変圧器と自己教師型事前学習に基づくブロックオンライン帯域拡張モデル
- Authors: Viet-Anh Nguyen, Anh H. T. Nguyen, Andy W. H. Khong
- Abstract要約: 本稿では,時間的特徴量線形変調(TFiLM)モデルのブロックオンライン変種を導入し,帯域幅拡張を実現する。
提案アーキテクチャは、TFiLMのUNetバックボーンを単純化し、推論時間を短縮する。
我々はまた、帯域幅拡張信号の品質を高めるために、自己教師付き事前訓練とデータ拡張を利用する。
- 参考スコア(独自算出の注目度): 16.727879968475367
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce a block-online variant of the temporal feature-wise linear
modulation (TFiLM) model to achieve bandwidth extension. The proposed
architecture simplifies the UNet backbone of the TFiLM to reduce inference time
and employs an efficient transformer at the bottleneck to alleviate performance
degradation. We also utilize self-supervised pretraining and data augmentation
to enhance the quality of bandwidth extended signals and reduce the sensitivity
with respect to downsampling methods. Experiment results on the VCTK dataset
show that the proposed method outperforms several recent baselines in terms of
spectral distance and source-to-distortion ratio. Pretraining and filter
augmentation also help stabilize and enhance the overall performance.
- Abstract(参考訳): 帯域幅拡張を実現するために,時間的特徴軸線形変調(tfilm)モデルのブロックオンライン変種を提案する。
提案するアーキテクチャは,tfilm の unet バックボーンを単純化して推論時間を短縮し,性能劣化を緩和するためのボトルネックに効率的なトランスフォーマーを用いる。
また、自己教師付き事前学習とデータ拡張により帯域幅拡張信号の品質が向上し、ダウンサンプリング法に対する感度が低下する。
VCTKデータセットによる実験結果から,提案手法はスペクトル距離および音源歪み比において,近年のベースラインを上回っていることがわかった。
事前トレーニングとフィルタ拡張は、全体的なパフォーマンスの安定化と向上にも役立ちます。
関連論文リスト
- Representation Alignment for Generation: Training Diffusion Transformers Is Easier Than You Think [72.48325960659822]
生成のための大規模拡散モデルの訓練における主要なボトルネックは、これらの表現を効果的に学習することにある。
本稿では,RePresentation Alignment (REPA) と呼ばれる単純な正規化を導入し,ノイズの多い入力隠れ状態の投影を,外部の事前学習された視覚エンコーダから得られるクリーンな画像表現と整合させる手法を提案する。
我々の単純な戦略は、一般的な拡散やDiTsやSiTsといったフローベースのトランスフォーマーに適用した場合、トレーニング効率と生成品質の両方に大きな改善をもたらす。
論文 参考訳(メタデータ) (2024-10-09T14:34:53Z) - Diffusion-Driven Semantic Communication for Generative Models with Bandwidth Constraints [27.049330099874396]
本稿では,帯域制限付き生成モデルのための,高度なVAEベースの圧縮を用いた拡散駆動型セマンティック通信フレームワークを提案する。
実験の結果,ピーク信号対雑音比 (PSNR) などの画素レベルの指標と,LPIPS (Learning Perceptual Image patch similarity) のような意味的指標が大幅に改善された。
論文 参考訳(メタデータ) (2024-07-26T02:34:25Z) - Collaborative Feedback Discriminative Propagation for Video Super-Resolution [66.61201445650323]
ビデオ超解像法(VSR)の主な成功は、主に空間情報と時間情報を探索することに由来する。
不正確なアライメントは通常、重要なアーティファクトを備えたアライメント機能につながる。
伝搬モジュールは同じタイムステップ機能のみを前方または後方に伝播する。
論文 参考訳(メタデータ) (2024-04-06T22:08:20Z) - Approximated Prompt Tuning for Vision-Language Pre-trained Models [54.326232586461614]
視覚言語による事前学習モデルでは、事前学習タスクと下流タスクのギャップを埋めるために、しばしば多くの学習可能なトークンを必要とする。
本稿では,効率的なVL転送学習を実現するために,APT(Approximated Prompt Tuning)アプローチを提案する。
論文 参考訳(メタデータ) (2023-06-27T05:43:47Z) - Gradient Sparsification for Efficient Wireless Federated Learning with
Differential Privacy [25.763777765222358]
フェデレートラーニング(FL)により、分散クライアントは、生データを互いに共有することなく、機械学習モデルを協調的にトレーニングできる。
モデルのサイズが大きくなるにつれて、送信帯域の制限によるトレーニングのレイテンシが低下し、個人情報が劣化すると同時に、差分プライバシ(DP)保護を使用する。
我々は、収束性能を犠牲にすることなく、トレーニング効率を向上させるために、FLフレームワーク無線チャネルのスペース化を提案する。
論文 参考訳(メタデータ) (2023-04-09T05:21:15Z) - Latent Autoregressive Source Separation [5.871054749661012]
本稿では,ベクトル量子化遅延自己回帰音源分離(入力信号を構成源にデミックスする)を導入する。
分離法は, 自己回帰モデルが先行するベイズ式に依拠し, 付加トークンの潜在和に対して離散的(非パラメトリック)確率関数を構築した。
論文 参考訳(メタデータ) (2023-01-09T17:32:00Z) - Functional Regularization for Reinforcement Learning via Learned Fourier
Features [98.90474131452588]
本稿では、入力を学習されたフーリエベースに埋め込むことにより、深層強化学習のための簡単なアーキテクチャを提案する。
その結果、状態ベースと画像ベースの両方のRLのサンプル効率が向上することがわかった。
論文 参考訳(メタデータ) (2021-12-06T18:59:52Z) - LaSAFT: Latent Source Attentive Frequency Transformation for Conditioned
Source Separation [7.002478301291264]
本稿では、ソース依存周波数パターンをキャプチャするLaSAFT(Latent Source Attentive Frequency Transformation)ブロックを提案する。
また,Gated Point-wise Convolutional Modulation (GPoCM) を提案する。
論文 参考訳(メタデータ) (2020-10-22T11:58:23Z) - Harnessing Wireless Channels for Scalable and Privacy-Preserving
Federated Learning [56.94644428312295]
無線接続は、フェデレートラーニング(FL)の実現に有効である
Channel randomnessperturbs 各ワーカはモデル更新をインバージョンし、複数のワーカはバンド幅に大きな干渉を発生させる。
A-FADMMでは、すべてのワーカーがモデル更新をアナログ送信を介して単一のチャンネルを使用してパラメータサーバにアップロードする。
これは通信帯域幅を節約するだけでなく、各ワーカーの正確なモデル更新軌跡を任意の盗聴者から隠蔽する。
論文 参考訳(メタデータ) (2020-07-03T16:31:15Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。