論文の概要: Music Gesture for Visual Sound Separation
- arxiv url: http://arxiv.org/abs/2004.09476v1
- Date: Mon, 20 Apr 2020 17:53:46 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-11 18:28:53.937109
- Title: Music Gesture for Visual Sound Separation
- Title(参考訳): 視覚分離のための音楽ジェスチャー
- Authors: Chuang Gan, Deng Huang, Hang Zhao, Joshua B. Tenenbaum, Antonio
Torralba
- Abstract要約: ミュージック・ジェスチャ(Music Gesture)は、音楽演奏時の演奏者の身体と指の動きを明示的にモデル化するキーポイントに基づく構造化表現である。
まず、コンテキスト対応グラフネットワークを用いて、視覚的コンテキストと身体力学を統合し、その後、身体の動きと対応する音声信号とを関連付けるために、音声-視覚融合モデルを適用する。
- 参考スコア(独自算出の注目度): 121.36275456396075
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent deep learning approaches have achieved impressive performance on
visual sound separation tasks. However, these approaches are mostly built on
appearance and optical flow like motion feature representations, which exhibit
limited abilities to find the correlations between audio signals and visual
points, especially when separating multiple instruments of the same types, such
as multiple violins in a scene. To address this, we propose "Music Gesture," a
keypoint-based structured representation to explicitly model the body and
finger movements of musicians when they perform music. We first adopt a
context-aware graph network to integrate visual semantic context with body
dynamics, and then apply an audio-visual fusion model to associate body
movements with the corresponding audio signals. Experimental results on three
music performance datasets show: 1) strong improvements upon benchmark metrics
for hetero-musical separation tasks (i.e. different instruments); 2) new
ability for effective homo-musical separation for piano, flute, and trumpet
duets, which to our best knowledge has never been achieved with alternative
methods. Project page: http://music-gesture.csail.mit.edu.
- Abstract(参考訳): 近年の深層学習は,視覚的音源分離タスクにおいて顕著な性能を発揮している。
しかし、これらのアプローチは、特にシーン内の複数のバイオリンのような同じタイプの複数の楽器を分離する場合において、オーディオ信号と視覚点の相関を見つける能力が限られている、外観や運動特徴表現のような光学的流れに基づくものが多い。
そこで我々は,音楽演奏時の演奏者の身体と指の動きを明示的にモデル化するキーポイントに基づく構造化表現「Music Gesture」を提案する。
まず,視覚意味的文脈と身体のダイナミクスを統合するために文脈認識グラフネットワークを採用し,その後,身体運動と対応する音声信号の関連付けに音声・視覚融合モデルを適用した。
3つの音楽演奏データセットにおける実験結果
1)ヘテロ音楽分離タスク(すなわち、異なる楽器)のためのベンチマーク指標の強力な改善
2)ピアノ,フルート,トランペットデュエットを効果的に分離する新たな能力は,我々の知る限り,代替手法では達成されていない。
プロジェクトページ: http://music-gesture.csail.mit.edu
関連論文リスト
- Bridging Paintings and Music -- Exploring Emotion based Music Generation through Paintings [10.302353984541497]
本研究では,視覚芸術で表現される感情に共鳴する音楽を生成するモデルを開発した。
コーディネートアートと音楽データの不足に対処するため、私たちはEmotion Painting Musicデータセットをキュレートした。
我々の2段階のフレームワークは、イメージを感情的内容のテキスト記述に変換し、これらの記述を音楽に変換することで、最小限のデータによる効率的な学習を容易にする。
論文 参考訳(メタデータ) (2024-09-12T08:19:25Z) - MeLFusion: Synthesizing Music from Image and Language Cues using Diffusion Models [57.47799823804519]
私たちは、ミュージシャンが映画の脚本だけでなく、視覚化を通して音楽を作る方法にインスピレーションを受けています。
本稿では,テキスト記述と対応する画像からの手がかりを効果的に利用して音楽を合成するモデルであるMeLFusionを提案する。
音楽合成パイプラインに視覚情報を加えることで、生成した音楽の質が大幅に向上することを示す。
論文 参考訳(メタデータ) (2024-06-07T06:38:59Z) - Graph-based Polyphonic Multitrack Music Generation [9.701208207491879]
本稿では,音楽のための新しいグラフ表現と,音楽グラフの構造と内容を別々に生成する深部変分オートエンコーダを提案する。
音楽グラフの構造と内容を分離することにより、特定のタイミングでどの楽器が演奏されているかを指定することで条件生成が可能となる。
論文 参考訳(メタデータ) (2023-07-27T15:18:50Z) - Vis2Mus: Exploring Multimodal Representation Mapping for Controllable
Music Generation [11.140337453072311]
視覚芸術の領域から音楽の領域への表現マッピングについて検討する。
我々は,深層音楽表現学習とユーザ学習を組み合わせた分析・解釈アプローチを採用する。
シンボリック音楽生成のための制御可能なインタフェースとしてVis2Musシステムをリリースする。
論文 参考訳(メタデータ) (2022-11-10T13:01:26Z) - Contrastive Learning with Positive-Negative Frame Mask for Music
Representation [91.44187939465948]
本稿では,PEMRと略記したコントラッシブラーニングフレームワークに基づく,音楽表現のための正負負のフレームマスクを提案する。
我々は,同じ音楽からサンプリングした自己増強陽性/陰性の両方に対応するために,新しいコントラスト学習目標を考案した。
論文 参考訳(メタデータ) (2022-03-17T07:11:42Z) - Learning music audio representations via weak language supervision [14.335950077921435]
我々は,一連のプロキシタスクによって最適化された音楽と言語事前学習(MuLaP)のためのマルチモーダルアーキテクチャを設計する。
弱い監督は、トラックの全体的な音楽内容を伝える、騒々しい自然言語記述の形で提供される。
提案手法の有効性を,同一のオーディオバックボーンが生成する音声表現の性能と,異なる学習戦略とを比較して示す。
論文 参考訳(メタデータ) (2021-12-08T10:30:52Z) - Binaural SoundNet: Predicting Semantics, Depth and Motion with Binaural
Sounds [118.54908665440826]
人間は視覚的および/または聴覚的手がかりを用いて、オブジェクトを頑健に認識し、ローカライズすることができる。
この研究は、純粋に音に基づくシーン理解のためのアプローチを開発する。
視覚的および音声的手がかりの共存は、監督伝達に活用される。
論文 参考訳(メタデータ) (2021-09-06T22:24:00Z) - Look, Listen, and Attend: Co-Attention Network for Self-Supervised
Audio-Visual Representation Learning [17.6311804187027]
音声と視覚イベントの相関関係は、ニューラルネットワークをトレーニングするための自由教師付き情報として利用することができる。
本稿では,非競合ビデオから汎用的なクロスモーダル表現を学習するためのコアテンション機構を備えた,新しい自己教師型フレームワークを提案する。
実験の結果,従来の手法に比べてパラメータが少なめでありながら,プレテキストタスク上での最先端性能が得られた。
論文 参考訳(メタデータ) (2020-08-13T10:08:12Z) - Multi-Modal Music Information Retrieval: Augmenting Audio-Analysis with
Visual Computing for Improved Music Video Analysis [91.3755431537592]
この論文は、音声分析とコンピュータビジョンを組み合わせて、マルチモーダルの観点から音楽情報検索(MIR)タスクにアプローチする。
本研究の主な仮説は、ジャンルやテーマなど特定の表現的カテゴリーを視覚的内容のみに基づいて認識できるという観察に基づいている。
実験は、3つのMIRタスクに対して行われ、アーティスト識別、音楽ジェネア分類、クロスジェネア分類を行う。
論文 参考訳(メタデータ) (2020-02-01T17:57:14Z) - Visually Guided Self Supervised Learning of Speech Representations [62.23736312957182]
音声視覚音声の文脈における視覚的モダリティによって導かれる音声表現を学習するためのフレームワークを提案する。
音声クリップに対応する静止画像をアニメーション化し、音声セグメントの実際の映像にできるだけ近いよう、生成した映像を最適化する。
我々は,感情認識のための技術成果と,音声認識のための競争結果を達成する。
論文 参考訳(メタデータ) (2020-01-13T14:53:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。