論文の概要: SeCo: Separating Unknown Musical Visual Sounds with Consistency Guidance
- arxiv url: http://arxiv.org/abs/2203.13535v1
- Date: Fri, 25 Mar 2022 09:42:11 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-28 14:40:06.468342
- Title: SeCo: Separating Unknown Musical Visual Sounds with Consistency Guidance
- Title(参考訳): SeCo: 未知の音楽ビジュアルサウンドを一貫性ガイダンスで分離する
- Authors: Xinchi Zhou, Dongzhan Zhou, Wanli Ouyang, Hang Zhou, Ziwei Liu, and Di
Hu
- Abstract要約: この作品は未知の楽器の分離に焦点を当てている。
本稿では,未知のカテゴリを分離できるセコ(SeCo)フレームワークを提案する。
本手法は,新たな楽曲カテゴリに適応する能力を示し,基本手法を顕著なマージンで上回る性能を示す。
- 参考スコア(独自算出の注目度): 88.0355290619761
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent years have witnessed the success of deep learning on the visual sound
separation task. However, existing works follow similar settings where the
training and testing datasets share the same musical instrument categories,
which to some extent limits the versatility of this task. In this work, we
focus on a more general and challenging scenario, namely the separation of
unknown musical instruments, where the categories in training and testing
phases have no overlap with each other. To tackle this new setting, we propose
the Separation-with-Consistency (SeCo) framework, which can accomplish the
separation on unknown categories by exploiting the consistency constraints.
Furthermore, to capture richer characteristics of the novel melodies, we devise
an online matching strategy, which can bring stable enhancements with no cost
of extra parameters. Experiments demonstrate that our SeCo framework exhibits
strong adaptation ability on the novel musical categories and outperforms the
baseline methods by a significant margin.
- Abstract(参考訳): 近年,視覚的分離作業における深層学習の成功を目撃している。
しかしながら、既存の作業は、トレーニングとテストデータセットが同じ楽器カテゴリを共有するような、同様の設定に従っているため、このタスクの汎用性はある程度制限される。
本研究は、未知楽器の分離、すなわち、訓練段階と試験段階のカテゴリーが相互に重複しない、より一般的で困難なシナリオに焦点を当てる。
この新しい設定に取り組むため,我々は,一貫性の制約を生かして未知のカテゴリの分離を実現するsepament-with-consistency(seco)フレームワークを提案する。
さらに, 新たなメロディーの豊かな特徴を捉えるために, 新たなパラメータのコストを伴わずに, 安定した拡張を実現するオンラインマッチング戦略を考案した。
実験により,セコフレームワークは新たな楽曲カテゴリに強い適応能力を示し,ベースライン手法よりも優れた性能を示した。
関連論文リスト
- Continual Audio-Visual Sound Separation [35.06195539944879]
本稿では,新しいクラスに対して連続的に音源を分離することを目的とした,連続的な音声・視覚的音源分離タスクを提案する。
本稿では,クロスモーダルなセマンティックな類似性を維持するために,クロスモーダルな類似度蒸留制限(CrossSDC)を提案する。
実験により、ContAV-Sepは破滅的な忘れを効果的に軽減し、他の継続的な学習ベースラインと比較して著しく優れた性能が得られることが示された。
論文 参考訳(メタデータ) (2024-11-05T07:09:14Z) - Unlocking Potential in Pre-Trained Music Language Models for Versatile Multi-Track Music Arrangement [10.714947060480426]
シンボリック・ミュージック・モデルの微調整を可能にする一貫したシーケンス・ツー・シーケンス・フレームワークを提案する。
提案手法は,タスク固有のベースラインよりも高い音質が得られることを示す。
論文 参考訳(メタデータ) (2024-08-27T16:18:51Z) - Strike a Balance in Continual Panoptic Segmentation [60.26892488010291]
既存の知識の安定性と新しい情報への適応性のバランスをとるため,過去クラスのバックトレース蒸留を導入する。
また,リプレイ用サンプルセットのクラス分布と過去のトレーニングデータとの整合性を考慮したクラス比記憶戦略を導入する。
連続パノプティカルバランス(BalConpas)と呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2024-07-23T09:58:20Z) - Structured Multi-Track Accompaniment Arrangement via Style Prior Modelling [9.489311894706765]
本稿では,これらの課題に対処するために,不整合型因子に対する事前モデリングを活用する新しいシステムを提案する。
私たちのキーとなる設計は、ベクトル量子化と、オーケストレーションスタイルの長期フローをモデル化するためのユニークなマルチストリームトランスの使用です。
本システムでは,既存のベースラインに比べて,コヒーレンス,構造,全体的な配置品質が優れていることを示す。
論文 参考訳(メタデータ) (2023-10-25T03:30:37Z) - Unsupervised Meta-Learning via Few-shot Pseudo-supervised Contrastive
Learning [72.3506897990639]
本稿では,Pseudo-supervised Contrast (PsCo) という,シンプルだが効果的なメタ学習フレームワークを提案する。
PsCoは、さまざまなドメイン内およびクロスドメインのいくつかのショット分類ベンチマークの下で、既存の教師なしメタラーニングメソッドより優れています。
論文 参考訳(メタデータ) (2023-03-02T06:10:13Z) - Dynamic Supervisor for Cross-dataset Object Detection [52.95818230087297]
オブジェクト検出タスクにおけるデータセット間のトレーニングは、データセットにまたがるカテゴリ内の不整合が、完全に教師付き学習を半教師付き学習に変換するため、複雑である。
本稿では,ハードラベルとソフトラベルを併用した複数更新サブモデルを用いて,アノテーションを複数回更新する動的スーパーバイザフレームワークを提案する。
最終生成アノテーションでは、ハードラベルトレーニングとソフトラベルトレーニングを統合することで、リコールと精度が大幅に向上した。
論文 参考訳(メタデータ) (2022-04-01T03:18:46Z) - Generating Lead Sheets with Affect: A Novel Conditional seq2seq
Framework [3.029434408969759]
本稿では,リードシート内のコード進行の正負性や負性性を計算するための新しい手法を提案する。
私たちのアプローチは、シーケンス・トゥ・シークエンスアーキテクチャのエンコーダ部分に高レベルの条件を含むため、ニューラルネットワーク翻訳(NMT)問題に似ています。
提案された戦略は、制御可能な方法でリードシートを生成することができ、トレーニングデータセットのそれに似た音楽属性の分布をもたらす。
論文 参考訳(メタデータ) (2021-04-27T09:04:21Z) - Structure-Aware Audio-to-Score Alignment using Progressively Dilated
Convolutional Neural Networks [8.669338893753885]
音楽演奏と楽譜の間の構造的差異の同定は、音声とスコアのアライメントにおいて難しいが不可欠なステップである。
本稿では、進化的に拡張された畳み込みニューラルネットワークを用いて、そのような違いを検出する新しい手法を提案する。
論文 参考訳(メタデータ) (2021-01-31T05:14:58Z) - Dynamic Semantic Matching and Aggregation Network for Few-shot Intent
Detection [69.2370349274216]
利用可能な注釈付き発話が不足しているため、インテント検出は困難である。
セマンティック成分はマルチヘッド自己認識によって発話から蒸留される。
本手法はラベル付きインスタンスとラベルなしインスタンスの両方の表現を強化するための総合的なマッチング手段を提供する。
論文 参考訳(メタデータ) (2020-10-06T05:16:38Z) - Music Gesture for Visual Sound Separation [121.36275456396075]
ミュージック・ジェスチャ(Music Gesture)は、音楽演奏時の演奏者の身体と指の動きを明示的にモデル化するキーポイントに基づく構造化表現である。
まず、コンテキスト対応グラフネットワークを用いて、視覚的コンテキストと身体力学を統合し、その後、身体の動きと対応する音声信号とを関連付けるために、音声-視覚融合モデルを適用する。
論文 参考訳(メタデータ) (2020-04-20T17:53:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。