論文の概要: Multi-view Audio and Music Classification
- arxiv url: http://arxiv.org/abs/2103.02420v1
- Date: Wed, 3 Mar 2021 14:18:04 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-06 15:11:50.377237
- Title: Multi-view Audio and Music Classification
- Title(参考訳): マルチビューオーディオと音楽分類
- Authors: Huy Phan, Huy Le Nguyen, Oliver Y. Ch\'en, Lam Pham, Philipp Koch, Ian
McLoughlin, Alfred Mertins
- Abstract要約: 提案するマルチビューネットワークは4つのワークから成り,それぞれが1つの入力タイプを処理する。
分類枝の学習行動を追跡し,その重みをネットワークトレーニングのための勾配を比例的にブレンドする新しい手法を提案する。
3つの異なる音声・音楽分類タスクの実験から,提案したマルチビューネットワークは単一ビューベースラインを上回るだけでなく,結合性や後期融合に基づくマルチビューベースラインよりも優れていることが示された。
- 参考スコア(独自算出の注目度): 17.98043746208736
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose in this work a multi-view learning approach for audio and music
classification. Considering four typical low-level representations (i.e.
different views) commonly used for audio and music recognition tasks, the
proposed multi-view network consists of four subnetworks, each handling one
input types. The learned embedding in the subnetworks are then concatenated to
form the multi-view embedding for classification similar to a simple
concatenation network. However, apart from the joint classification branch, the
network also maintains four classification branches on the single-view
embedding of the subnetworks. A novel method is then proposed to keep track of
the learning behavior on the classification branches and adapt their weights to
proportionally blend their gradients for network training. The weights are
adapted in such a way that learning on a branch that is generalizing well will
be encouraged whereas learning on a branch that is overfitting will be slowed
down. Experiments on three different audio and music classification tasks show
that the proposed multi-view network not only outperforms the single-view
baselines but also is superior to the multi-view baselines based on
concatenation and late fusion.
- Abstract(参考訳): 本研究では,音声と音楽の分類のためのマルチビュー学習手法を提案する。
典型的な4つの低レベル表現(すなわち)を考える。
音声と音楽の認識タスクによく使用される) 提案するマルチビューネットワークは4つのサブネットワークで構成され、それぞれが1つの入力タイプを処理している。
サブネットワーク内の学習された埋め込みは連結され、単純な連結ネットワークに似た分類のために多視点埋め込みを形成する。
しかし、ジョイント分類分枝とは別に、ネットワークはサブネットワークのシングルビュー埋め込みに4つの分類分枝を維持している。
次に,分類枝の学習行動を追跡し,その重みをネットワークトレーニングのための勾配を比例的にブレンドする新しい手法を提案する。
重みは、一般化しているブランチでの学習が奨励される一方で、過度に適合しているブランチでの学習が遅くなるように適応される。
3つの異なる音声・音楽分類タスクの実験から,提案したマルチビューネットワークは単一ビューベースラインを上回るだけでなく,結合性や後期融合に基づくマルチビューベースラインよりも優れていることが示された。
関連論文リスト
- Dynamic Perceiver for Efficient Visual Recognition [87.08210214417309]
特徴抽出手順と早期分類タスクを分離する動的知覚器(Dyn-Perceiver)を提案する。
特徴ブランチは画像の特徴を抽出し、分類ブランチは分類タスクに割り当てられた遅延コードを処理する。
早期出口は分類枝に限られており、低レベルの特徴において線形分離性は不要である。
論文 参考訳(メタデータ) (2023-06-20T03:00:22Z) - Multi-Class Unlearning for Image Classification via Weight Filtering [44.707144011189335]
Machine Unlearningは、ネットワークからトレーニングデータポイントの影響を選択的に除去するための新興パラダイムである。
メモリ行列を用いてネットワークのコンポーネントを調整し、トレーニング後の任意のクラスに対して選択的な未学習動作を示す。
コンボリューションとトランスフォーマーベースのバックボーンを用いた,小規模・中規模の画像分類データセット上で,提案手法を検証した。
論文 参考訳(メタデータ) (2023-04-04T18:01:59Z) - Open-Vocabulary Semantic Segmentation with Decoupled One-Pass Network [26.97153244517095]
入力画像の視覚言語モデルに1つのパスしか必要としないネットワークを提案する。
本稿ではまず,事前学習した視覚エンコーダにおけるパッチ埋め込み間の有害な干渉を抑制するために,パッチ重大度と呼ばれる新しいネットワーク適応手法を提案する。
そこで我々は,ネットワークがより差別的な特徴に着目するよう促すために,分類アンカー学習を提案する。
論文 参考訳(メタデータ) (2023-04-03T17:59:21Z) - Reliable Representations Learning for Incomplete Multi-View Partial Multi-Label Classification [78.15629210659516]
本稿ではRANKという不完全なマルチビュー部分的マルチラベル分類ネットワークを提案する。
既存の手法に固有のビューレベルの重みを分解し、各サンプルのビューに品質スコアを動的に割り当てる品質対応サブネットワークを提案する。
我々のモデルは、完全なマルチビューマルチラベルデータセットを処理できるだけでなく、欠落したインスタンスやラベルを持つデータセットでも機能する。
論文 参考訳(メタデータ) (2023-03-30T03:09:25Z) - Interpreting Class Conditional GANs with Channel Awareness [57.01413866290279]
クラス条件生成器が複数のクラスの合成をどのように統合するかを検討する。
このような現象を説明するために、単一チャネルが最終合成にどのように貢献するかを定量的に特徴づけるチャネル認識を提案する。
我々のアルゴリズムは条件付きGANでいくつかの新しい応用を可能にする。
論文 参考訳(メタデータ) (2022-03-21T17:53:22Z) - MixMo: Mixing Multiple Inputs for Multiple Outputs via Deep Subnetworks [97.08677678499075]
マルチインプットマルチアウトプットディープワークを学ぶための新しいフレームワークであるMixMoを紹介します。
機能、特にCutMixのパッチによるバイナリの混合は、ワークをより強く、より多様なものにすることによって、結果を向上します。
実装が容易で、推論にコストがかかることに加えて、我々のモデルはよりコストの高いデータ拡張深層アンサンブルよりも優れています。
論文 参考訳(メタデータ) (2021-03-10T15:31:02Z) - Universal-to-Specific Framework for Complex Action Recognition [114.78468658086572]
本稿では,複雑な行動認識のためのU2Sフレームワークを提案する。
U2Sフレームワークは、ユニバーサルネットワーク、カテゴリ固有のネットワーク、マスクネットワークという3つのワークで構成されている。
さまざまなベンチマークデータセットの実験では、U2Sフレームワークの有効性が示されている。
論文 参考訳(メタデータ) (2020-07-13T01:49:07Z) - ReMarNet: Conjoint Relation and Margin Learning for Small-Sample Image
Classification [49.87503122462432]
ReMarNet(Relation-and-Margin Learning Network)と呼ばれるニューラルネットワークを導入する。
本手法は,上記2つの分類機構の双方において優れた性能を発揮する特徴を学習するために,異なるバックボーンの2つのネットワークを組み立てる。
4つの画像データセットを用いた実験により,本手法はラベル付きサンプルの小さな集合から識別的特徴を学習するのに有効であることが示された。
論文 参考訳(メタデータ) (2020-06-27T13:50:20Z) - Adversarial Multi-Binary Neural Network for Multi-class Classification [19.298875915675502]
マルチタスクフレームワークを使用して、マルチクラス分類に対処する。
我々は,クラス固有の特徴とクラスに依存しない特徴を識別するために,対人訓練を実践する。
論文 参考訳(メタデータ) (2020-03-25T02:19:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。