論文の概要: Hybrid Spectrogram and Waveform Source Separation
- arxiv url: http://arxiv.org/abs/2111.03600v1
- Date: Fri, 5 Nov 2021 16:37:45 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-08 16:13:58.794544
- Title: Hybrid Spectrogram and Waveform Source Separation
- Title(参考訳): ハイブリッド分光法と波形源分離
- Authors: Alexandre D\'efossez
- Abstract要約: エンド・ツー・エンドのハイブリッド・ソース分離を行う方法を示し、各ソースに適したドメインをモデルで決定する。
提案されたDemucsアーキテクチャのハイブリッドバージョンは、ソニーが主催したMusic Demixing Challenge 2021で優勝した。
- 参考スコア(独自算出の注目度): 91.3755431537592
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Source separation models either work on the spectrogram or waveform domain.
In this work, we show how to perform end-to-end hybrid source separation,
letting the model decide which domain is best suited for each source, and even
combining both. The proposed hybrid version of the Demucs architecture won the
Music Demixing Challenge 2021 organized by Sony. This architecture also comes
with additional improvements, such as compressed residual branches, local
attention or singular value regularization. Overall, a 1.4 dB improvement of
the Signal-To-Distortion (SDR) was observed across all sources as measured on
the MusDB HQ dataset, an improvement confirmed by human subjective evaluation,
with an overall quality rated at 2.83 out of 5 (2.36 for the non hybrid
Demucs), and absence of contamination at 3.04 (against 2.37 for the non hybrid
Demucs and 2.44 for the second ranking model submitted at the competition).
- Abstract(参考訳): ソース分離モデルは、スペクトログラムまたは波形領域で動作する。
本研究では、エンド・ツー・エンドのハイブリッド・ソース分離を行う方法を示し、各ソースに最適なドメインをモデルで決定し、その両方を組み合わせる。
demucsアーキテクチャのハイブリッドバージョンが、sonyが主催するmusic demixing challenge 2021で優勝した。
このアーキテクチャには、圧縮された残枝、局所的な注意、特異値正規化など、さらなる改善も加えられている。
総合的に、MusDB HQデータセットで測定されたすべてのソースにおいて、SDR(Signal-To-Distortion)の1.4dB改善が観測され、ヒトの主観評価による改善が確認され、全体的な品質は5点中2.83点(2.36点)、汚染は3.04点(非ハイブリッドデミュースでは2.37点、2.44点)であった。
関連論文リスト
- Evolving Alignment via Asymmetric Self-Play [52.3079697845254]
本稿では、2人のプレーヤー間の非対称ゲームとしてアライメントをキャストする一般オープンエンドなRLHFフレームワークを提案する。
Asymmetric Self-Play (eva) によるアライメントの進化(Evolving Alignment)というこのフレームワークは、既存のRLHFアルゴリズムを拡張性のあるアライメントに利用できるシンプルで効率的なアプローチをもたらす。
論文 参考訳(メタデータ) (2024-10-31T08:15:32Z) - SZU-AFS Antispoofing System for the ASVspoof 5 Challenge [3.713577625357432]
SZU-AFSアンチスプーフィングシステムはオープン条件下でASVspoof 5 Challengeのトラック1のために設計された。
最終融合システムは、評価セットで0.115のminDCFと4.04%のEERを達成する。
論文 参考訳(メタデータ) (2024-08-19T12:12:29Z) - PatchFusion: An End-to-End Tile-Based Framework for High-Resolution
Monocular Metric Depth Estimation [47.53810786827547]
単一画像深度推定はコンピュータビジョンと生成モデルの基本課題である。
PatchFusionは3つのキーコンポーネントを持つタイルベースの新しいフレームワークで、最先端技術を改善する。
UnrealStereo4K、MVS-Synth、Middleburry 2014の実験は、我々のフレームワークが複雑な詳細で高解像度の深度マップを作成できることを実証している。
論文 参考訳(メタデータ) (2023-12-04T19:03:12Z) - Efficient Integrators for Diffusion Generative Models [22.01769257075573]
拡散モデルは、推論時に遅いサンプル生成に悩まされる。
事前学習モデルにおけるサンプル生成を高速化するための2つの補完的フレームワークを提案する。
本稿では,拡張空間における拡散モデルにおける最良報告性能を実現するハイブリッド手法を提案する。
論文 参考訳(メタデータ) (2023-10-11T21:04:42Z) - Occluded Human Mesh Recovery [23.63235079216075]
我々は、画像空間コンテキストを組み込んだ新しいトップダウンメッシュ回復アプローチであるOCHMR(Occluded Human Mesh Recovery)を提案する。
OCHMRは、3DPW、CrowdPose、OCHumanといった挑戦的なマルチパーソンベンチマークにおいて優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2022-03-24T21:39:20Z) - MixSTE: Seq2seq Mixed Spatio-Temporal Encoder for 3D Human Pose
Estimation in Video [75.23812405203778]
近年, 学習時間相関のため, 全フレームのボディジョイントを世界規模で考慮し, 2次元キーポイントシーケンスから3次元人間のポーズを推定する手法が提案されている。
本研究では,各関節の時間的動きを別々にモデル化する時間的変圧器ブロックと,関節間空間相関を有する変圧器ブロックを有するミキシングミキシングを提案する。
さらに、ネットワーク出力は、中央フレームから入力ビデオの全フレームに拡張され、入力と出力のベンチマーク間のコヒーレンスが改善される。
論文 参考訳(メタデータ) (2022-03-02T04:20:59Z) - Generalized Focal Loss: Learning Qualified and Distributed Bounding
Boxes for Dense Object Detection [85.53263670166304]
一段検出器は基本的に、物体検出を密度の高い分類と位置化として定式化する。
1段検出器の最近の傾向は、局所化の質を推定するために個別の予測分岐を導入することである。
本稿では, 上記の3つの基本要素, 品質推定, 分類, ローカライゼーションについて述べる。
論文 参考訳(メタデータ) (2020-06-08T07:24:33Z) - Towards a Competitive End-to-End Speech Recognition for CHiME-6 Dinner
Party Transcription [73.66530509749305]
本稿では,難しい場合であっても,ハイブリッドベースラインに近い性能を示すエンドツーエンドアプローチについて論じる。
CTC-Attention と RNN-Transducer のアプローチと RNN と Transformer のアーキテクチャを比較し,解析する。
RNN-Transducerをベースとしたベストエンド・ツー・エンドモデルでは、ビームサーチの改善とともに、LF-MMI TDNN-F CHiME-6 Challengeのベースラインよりも品質が3.8%向上した。
論文 参考訳(メタデータ) (2020-04-22T19:08:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。