論文の概要: Exploiting Time-Frequency Conformers for Music Audio Enhancement
- arxiv url: http://arxiv.org/abs/2308.12599v1
- Date: Thu, 24 Aug 2023 06:56:54 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-25 14:55:45.931164
- Title: Exploiting Time-Frequency Conformers for Music Audio Enhancement
- Title(参考訳): 音楽聴取改善のための時間周波数変換器の試作
- Authors: Yunkee Chae, Junghyun Koo, Sungho Lee and Kyogu Lee
- Abstract要約: コンフォーマーアーキテクチャに基づく音楽強調システムを提案する。
提案手法はコンフォーマーの注意機構を探索し,その性能を検証し,音楽強調作業における最善のアプローチを見出す。
- 参考スコア(独自算出の注目度): 21.243039524049614
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the proliferation of video platforms on the internet, recording musical
performances by mobile devices has become commonplace. However, these
recordings often suffer from degradation such as noise and reverberation, which
negatively impact the listening experience. Consequently, the necessity for
music audio enhancement (referred to as music enhancement from this point
onward), involving the transformation of degraded audio recordings into
pristine high-quality music, has surged to augment the auditory experience. To
address this issue, we propose a music enhancement system based on the
Conformer architecture that has demonstrated outstanding performance in speech
enhancement tasks. Our approach explores the attention mechanisms of the
Conformer and examines their performance to discover the best approach for the
music enhancement task. Our experimental results show that our proposed model
achieves state-of-the-art performance on single-stem music enhancement.
Furthermore, our system can perform general music enhancement with multi-track
mixtures, which has not been examined in previous work.
- Abstract(参考訳): インターネット上のビデオプラットフォームの普及に伴い、モバイルデバイスによる演奏の録音が一般的になっている。
しかし、これらの録音は、しばしばノイズや残響などの劣化に悩まされ、聴取体験に悪影響を及ぼす。
その結果、音質向上の必要性(この時点から音楽エンハンスメントとして見なされる)は、劣化したオーディオ録音を原始的な高品質音楽へと変換し、聴覚体験を増強するために急増した。
この問題に対処するために,コンフォーマーアーキテクチャに基づく楽曲強調システムを提案する。
提案手法はコンフォーマーの注意機構を探索し,その性能を検証し,音楽強調作業における最善のアプローチを見出す。
実験結果から,提案モデルがシングルステム音楽の強化における最先端性能を実現することを示す。
また,先行研究では検討されていないマルチトラック混合による一般音楽エンハンスメントも行うことができる。
関連論文リスト
- AudioScenic: Audio-Driven Video Scene Editing [55.098754835213995]
本稿では,映像シーン編集のためのオーディオ駆動フレームワークであるAudioScenicを紹介する。
AudioScenicは、時間対応の音声セマンティックインジェクションプロセスを通じて、音声セマンティクスを視覚シーンに統合する。
音の大きさの変化に応じてシーンの時間的ダイナミクスを調節するオーディオ・マグニチュード・モジュレータ・モジュールを提案する。
第2に、オーディオ周波数フーザーモジュールは、映像シーンのダイナミックスとオーディオの周波数を一致させることにより、時間的一貫性を確保するように設計されている。
論文 参考訳(メタデータ) (2024-04-25T12:55:58Z) - Spectrogram-Based Detection of Auto-Tuned Vocals in Music Recordings [9.646498710102174]
本研究では,3重項ネットワークを利用した自動音節検出手法を提案する。
実験により,提案手法の精度とロバスト性の両方において,反汚濁防止のためのエンドツーエンドモデルであるRawnet2よりも優れていることが示された。
論文 参考訳(メタデータ) (2024-03-08T15:19:26Z) - Music Auto-Tagging with Robust Music Representation Learned via Domain
Adversarial Training [18.71152526968065]
音楽情報検索(MIR)の既存のモデルは、マルチメディアコンテンツにおける環境や音声などの現実的なノイズに苦しむ。
本研究では,音声関連タスクにインスパイアされた,ノイズの多い環境下での音楽の自動タグ付け性能を向上させる手法を提案する。
論文 参考訳(メタデータ) (2024-01-27T06:56:51Z) - V2Meow: Meowing to the Visual Beat via Video-to-Music Generation [47.076283429992664]
V2Meow(V2Meow)は、様々な種類のビデオ入力に対して高品質な音楽オーディオを制作できるビデオ・音楽生成システムである。
ビデオフレームから抽出した訓練済みの汎用視覚特徴を条件づけて、高忠実度オーディオ波形を合成する。
論文 参考訳(メタデータ) (2023-05-11T06:26:41Z) - Deep Performer: Score-to-Audio Music Performance Synthesis [30.95307878579825]
Deep Performer(ディープ・パーフォーマー)は、音楽の楽譜合成のための新しいシステムである。
音声とは異なり、音楽はポリフォニーや長い音符を含むことが多い。
提案モデルでは, 鮮明なポリフォニーとハーモニック構造で楽曲を合成できることが示されている。
論文 参考訳(メタデータ) (2022-02-12T10:36:52Z) - Audiovisual Singing Voice Separation [25.862550744570324]
ビデオモデルは口の動きを入力し、それをオーディオベースの分離フレームワークの機能埋め込みに融合する。
トレーニングと評価のための2つのオーディオヴィジュアルな歌唱パフォーマンスデータセットを作成します。
提案手法は、ほとんどのテスト記録における分離品質の観点から、音声ベースの手法よりも優れる。
論文 参考訳(メタデータ) (2021-07-01T06:04:53Z) - Sep-Stereo: Visually Guided Stereophonic Audio Generation by Associating
Source Separation [96.18178553315472]
本稿では,ステレオ音声の生成を容易にするために,膨大な量のモノデータを活用することを提案する。
ステレオ生成とソース分離の両方を統合フレームワークであるSep-Stereoに統合します。
論文 参考訳(メタデータ) (2020-07-20T06:20:26Z) - Music Gesture for Visual Sound Separation [121.36275456396075]
ミュージック・ジェスチャ(Music Gesture)は、音楽演奏時の演奏者の身体と指の動きを明示的にモデル化するキーポイントに基づく構造化表現である。
まず、コンテキスト対応グラフネットワークを用いて、視覚的コンテキストと身体力学を統合し、その後、身体の動きと対応する音声信号とを関連付けるために、音声-視覚融合モデルを適用する。
論文 参考訳(メタデータ) (2020-04-20T17:53:46Z) - Audio Impairment Recognition Using a Correlation-Based Feature
Representation [85.08880949780894]
本稿では,特徴対の相関に基づく手作り特徴の新しい表現を提案する。
実験段階において,コンパクトな特徴次元と計算速度の向上の観点から,優れた性能を示す。
論文 参考訳(メタデータ) (2020-03-22T13:34:37Z) - Audiovisual SlowFast Networks for Video Recognition [140.08143162600354]
本稿では,視聴覚統合アーキテクチャであるAudiovisual SlowFast Networksを紹介する。
複数の層に音声と視覚的特徴を融合させ,階層型音声視覚概念の形成に寄与する。
6つのビデオ行動分類と検出データセットの結果を報告し、詳細なアブレーション研究を行い、AVSlowFastの一般化を示し、自己監督型音声視覚特徴を学習する。
論文 参考訳(メタデータ) (2020-01-23T18:59:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。