論文の概要: Towards Explainable Convolutional Features for Music Audio Modeling
- arxiv url: http://arxiv.org/abs/2106.00110v1
- Date: Mon, 31 May 2021 21:31:27 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-02 14:02:14.935241
- Title: Towards Explainable Convolutional Features for Music Audio Modeling
- Title(参考訳): 音楽音響モデリングのための説明可能な畳み込み機能を目指して
- Authors: Anna K. Yanchenko, Mohammadreza Soltani, Robert J. Ravier, Sayan
Mukherjee and Vahid Tarokh
- Abstract要約: 深層畳み込みモデル上で「ブラックボックス」を開き、将来の音楽オーディオタスクを知らせる。
深層畳み込み機能は、もともとそのタスクで訓練された深層アーキテクチャから抽出されるか否かに関わらず、様々な目標タスクに対して良好に機能することを示す。
深部の特徴は手作りのウェーブレットの特徴と高い類似性を示し、深部の特徴が訓練されたモデルから抽出されるか、訓練されていないモデルから抽出されるかのどちらかである。
- 参考スコア(独自算出の注目度): 27.496731746087033
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Audio signals are often represented as spectrograms and treated as 2D images.
In this light, deep convolutional architectures are widely used for music audio
tasks even though these two data types have very different structures. In this
work, we attempt to "open the black-box" on deep convolutional models to inform
future architectures for music audio tasks, and explain the excellent
performance of deep convolutions that model spectrograms as 2D images. To this
end, we expand recent explainability discussions in deep learning for natural
image data to music audio data through systematic experiments using the deep
features learned by various convolutional architectures. We demonstrate that
deep convolutional features perform well across various target tasks, whether
or not they are extracted from deep architectures originally trained on that
task. Additionally, deep features exhibit high similarity to hand-crafted
wavelet features, whether the deep features are extracted from a trained or
untrained model.
- Abstract(参考訳): 音声信号はしばしばスペクトログラムとして表現され、2d画像として扱われる。
この光の下では、深い畳み込みアーキテクチャは音楽オーディオのタスクに広く使われているが、これら2つのデータ型は全く異なる構造を持っている。
本研究では,音楽音声タスクの将来のアーキテクチャを知らせる深層畳み込みモデルの「ブラックボックス」を開放し,スペクトログラムを2次元画像としてモデル化する深層畳み込みの優れた性能を説明する。
この目的のために,様々な畳み込みアーキテクチャで学習した深い特徴を用いた体系的な実験を通じて,自然画像データから音楽音声データへの深層学習に関する最近の説明可能性に関する議論を拡大する。
深い畳み込み機能は、元々そのタスクで訓練された深層アーキテクチャから抽出されるかどうかに関わらず、さまざまなターゲットタスクでうまく機能する。
さらに、深い特徴は、訓練されたモデルまたは訓練されていないモデルから抽出された深い特徴にかかわらず、手作りのウェーブレット機能と高い類似性を示す。
関連論文リスト
- Diverse Neural Audio Embeddings -- Bringing Features back ! [1.2328446298523066]
様々な特徴表現を用いて音声の埋め込みを学習する。
我々は、ピッチ、音色、ニューラル表現などの多様なオーディオ特性に対する頑健な個別の埋め込みと、エンドツーエンドアーキテクチャを通してそれを学習する。
論文 参考訳(メタデータ) (2023-09-15T20:27:47Z) - Align, Adapt and Inject: Sound-guided Unified Image Generation [50.34667929051005]
本稿では,音声誘導画像生成,編集,スタイリングのための統合フレームワーク「アライン,アダプティブ,インジェクション(AAI)」を提案する。
本手法は,既存のテキスト・ツー・イメージ(T2I)モデルを用いて,入力音を通常の単語のように音声トークンに適応させる。
提案するAAIは、他のテキストや音声誘導方式よりも優れています。
論文 参考訳(メタデータ) (2023-06-20T12:50:49Z) - Towards Reliable Image Outpainting: Learning Structure-Aware Multimodal
Fusion with Depth Guidance [49.94504248096527]
異なるモードの特徴表現をモデル化するためのDGONet(Depth-Guided Outpainting Network)を提案する。
1)マルチモーダル学習モジュールは、異なるモーダル特性の観点から独自の深さとRGBの特徴表現を生成する。
我々は、不明瞭な輪郭を増進し、信頼性の高いコンテンツ生成を迅速化するために、クロスモーダルロスとエッジロスからなる追加の制約戦略を特別に設計する。
論文 参考訳(メタデータ) (2022-04-12T06:06:50Z) - Audio representations for deep learning in sound synthesis: A review [0.0]
本稿では,ディープラーニングを用いた音声合成に応用した音声表現の概要について述べる。
また、深層学習モデルを用いた音声合成アーキテクチャの開発と評価のための最も重要な手法も提示する。
論文 参考訳(メタデータ) (2022-01-07T15:08:47Z) - Geometry-Aware Multi-Task Learning for Binaural Audio Generation from
Video [94.42811508809994]
本研究では,映像中の視覚情報に基づいてモノラル(単一チャンネル)音声を音声に変換する音声空間化手法を提案する。
既存の手法では,映像フレームから直接抽出した視覚的特徴を活用するが,この手法は視覚ストリームに存在する幾何学的手がかりを明示的に切り離し,学習過程を導出する。
論文 参考訳(メタデータ) (2021-11-21T19:26:45Z) - End-to-end Multi-modal Video Temporal Grounding [105.36814858748285]
ビデオから補完情報を抽出するマルチモーダルフレームワークを提案する。
我々は、外見にRGB画像、運動に光学フロー、画像構造に深度マップを採用する。
本稿では、Charades-STAおよびActivityNet Captionsデータセットの実験を行い、提案手法が最先端のアプローチに対して好適に動作することを示す。
論文 参考訳(メタデータ) (2021-07-12T17:58:10Z) - Deep Direct Volume Rendering: Learning Visual Feature Mappings From
Exemplary Images [57.253447453301796]
本稿では,ディープ・ダイレクト・ボリューム・レンダリング(Deep Direct Volume Rendering,DVR)を導入し,ディープ・ニューラル・ネットワークをDVRアルゴリズムに統合する。
潜在色空間におけるレンダリングを概念化し、深層アーキテクチャを用いて特徴抽出と分類のための暗黙マッピングを学習できるようにする。
我々の一般化は、画像空間の例から直接エンドツーエンドにトレーニングできる新しいボリュームレンダリングアーキテクチャを導き出すのに役立つ。
論文 参考訳(メタデータ) (2021-06-09T23:03:00Z) - Music source separation conditioned on 3D point clouds [0.0]
本稿では,音楽演奏記録の3次元点雲に条件付き音源分離を行うマルチモーダル深層学習モデルを提案する。
3次元スパース畳み込みを用いて視覚特徴を抽出し、高密度畳み込みを用いて音声特徴を抽出する。
融合モジュールは抽出した特徴を組み合わせて、最終的に音源分離を行う。
論文 参考訳(メタデータ) (2021-02-03T12:18:35Z) - An Empirical Study of Visual Features for DNN based Audio-Visual Speech
Enhancement in Multi-talker Environments [5.28539620288341]
AVSE法は音声と視覚の両方を用いて音声強調を行う。
我々の知る限りでは、この特定のタスクにどの視覚的特徴が最適であるかを調査する論文は発表されていない。
本研究は, 組込み型機能の全体的な性能が向上しているにもかかわらず, 計算集約的な事前処理により, 低資源システムでは利用が困難であることを示す。
論文 参考訳(メタデータ) (2020-11-09T11:48:14Z) - Music Gesture for Visual Sound Separation [121.36275456396075]
ミュージック・ジェスチャ(Music Gesture)は、音楽演奏時の演奏者の身体と指の動きを明示的にモデル化するキーポイントに基づく構造化表現である。
まず、コンテキスト対応グラフネットワークを用いて、視覚的コンテキストと身体力学を統合し、その後、身体の動きと対応する音声信号とを関連付けるために、音声-視覚融合モデルを適用する。
論文 参考訳(メタデータ) (2020-04-20T17:53:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。