論文の概要: Multi-Modal Music Information Retrieval: Augmenting Audio-Analysis with
Visual Computing for Improved Music Video Analysis
- arxiv url: http://arxiv.org/abs/2002.00251v1
- Date: Sat, 1 Feb 2020 17:57:14 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-05 01:20:42.929054
- Title: Multi-Modal Music Information Retrieval: Augmenting Audio-Analysis with
Visual Computing for Improved Music Video Analysis
- Title(参考訳): マルチモーダル音楽情報検索:ビジュアルコンピューティングによる音声分析の強化と音楽ビデオ解析の改善
- Authors: Alexander Schindler
- Abstract要約: この論文は、音声分析とコンピュータビジョンを組み合わせて、マルチモーダルの観点から音楽情報検索(MIR)タスクにアプローチする。
本研究の主な仮説は、ジャンルやテーマなど特定の表現的カテゴリーを視覚的内容のみに基づいて認識できるという観察に基づいている。
実験は、3つのMIRタスクに対して行われ、アーティスト識別、音楽ジェネア分類、クロスジェネア分類を行う。
- 参考スコア(独自算出の注目度): 91.3755431537592
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This thesis combines audio-analysis with computer vision to approach Music
Information Retrieval (MIR) tasks from a multi-modal perspective. This thesis
focuses on the information provided by the visual layer of music videos and how
it can be harnessed to augment and improve tasks of the MIR research domain.
The main hypothesis of this work is based on the observation that certain
expressive categories such as genre or theme can be recognized on the basis of
the visual content alone, without the sound being heard. This leads to the
hypothesis that there exists a visual language that is used to express mood or
genre. In a further consequence it can be concluded that this visual
information is music related and thus should be beneficial for the
corresponding MIR tasks such as music genre classification or mood recognition.
A series of comprehensive experiments and evaluations are conducted which are
focused on the extraction of visual information and its application in
different MIR tasks. A custom dataset is created, suitable to develop and test
visual features which are able to represent music related information.
Evaluations range from low-level visual features to high-level concepts
retrieved by means of Deep Convolutional Neural Networks. Additionally, new
visual features are introduced capturing rhythmic visual patterns. In all of
these experiments the audio-based results serve as benchmark for the visual and
audio-visual approaches. The experiments are conducted for three MIR tasks
Artist Identification, Music Genre Classification and Cross-Genre
Classification. Experiments show that an audio-visual approach harnessing
high-level semantic information gained from visual concept detection,
outperforms audio-only genre-classification accuracy by 16.43%.
- Abstract(参考訳): この論文は、音声分析とコンピュータビジョンを組み合わせて、マルチモーダルの観点から音楽情報検索(MIR)タスクにアプローチする。
この論文は、音楽ビデオの視覚層が提供する情報と、それがMIR研究領域のタスクの強化と改善にどのように活用できるかに焦点を当てている。
本研究の主な仮説は、音を聴くことなく、視覚コンテンツだけでジャンルやテーマなどのある種の表現的カテゴリーを認識できるという観察に基づくものである。
これは、気分やジャンルを表現するために使われる視覚言語が存在するという仮説に繋がる。
結果として、この視覚情報は音楽関連であり、音楽ジャンル分類や気分認識といった対応するmirタスクに有益であるべきであると結論付けることができる。
様々なmirタスクにおける視覚情報の抽出とその応用に焦点を当てた総合的な実験および評価を行った。
カスタムデータセットが作成され、音楽関連の情報を表現できるビジュアル機能の開発とテストに適しています。
評価は、低レベルの視覚特徴から、深い畳み込みニューラルネットワークによって得られた高レベルの概念まで幅広い。
さらに、リズミカルな視覚パターンをキャプチャする新しい視覚機能が導入されている。
これらの実験の全てにおいて、オーディオベースの結果は、視覚的およびオーディオ視覚的アプローチのベンチマークとなる。
実験は,mirタスクのアーティスト識別,音楽ジャンル分類,クロスジェネレーション分類の3つを対象に行った。
実験によれば、視覚概念検出から得られる高レベルの意味情報を活用した視聴覚アプローチは、オーディオのみのジャンル分類精度を16.43%上回っている。
関連論文リスト
- Self-Supervised Contrastive Learning for Robust Audio-Sheet Music
Retrieval Systems [3.997809845676912]
自己指導型コントラスト学習は、実際の音楽コンテンツからの注釈付きデータの不足を軽減することができることを示す。
クロスモーダルなピース識別の高レベルなタスクにスニペットを埋め込む。
本研究では,実際の音楽データが存在する場合,検索品質が30%から100%に向上することが観察された。
論文 参考訳(メタデータ) (2023-09-21T14:54:48Z) - Learning in Audio-visual Context: A Review, Analysis, and New
Perspective [88.40519011197144]
本調査は,聴覚・視覚領域の研究を体系的に整理し,分析することを目的とする。
計算研究に影響を与えた重要な発見をいくつか紹介する。
本稿では,音声視覚シーン理解の新しい視点を提案するとともに,音声視覚学習領域の今後の可能性について論じ,分析する。
論文 参考訳(メタデータ) (2022-08-20T02:15:44Z) - Predicting emotion from music videos: exploring the relative
contribution of visual and auditory information to affective responses [0.0]
本稿では、感情的マルチメディアコンテンツ分析のための新しいデータセットであるMusicVideos(MuVi)を紹介する。
データは、音楽、視覚、オーディオヴィジュアルの3つの条件で、参加者に音楽映像を提示することで収集された。
論文 参考訳(メタデータ) (2022-02-19T07:36:43Z) - An Audio-Visual Dataset and Deep Learning Frameworks for Crowded Scene
Classification [58.720142291102135]
本稿では,音声視覚シーン分類(SC)の課題について述べる。
この課題において、入力ビデオは「リオト」、「ノワーズ・ストリート」、「ファイアワーク・イベント」、「ミュージック・イベント」、そして「スポーツ・アトムスフィア」の5つの実物混みのシーンのうちの1つに分類される。
論文 参考訳(メタデータ) (2021-12-16T19:48:32Z) - Multi-task Learning with Metadata for Music Mood Classification [0.0]
ムード認識は音楽情報学において重要な問題であり、音楽発見とレコメンデーションに重要な応用がある。
マルチタスク学習手法を提案する。この手法では、共有されたモデルが、気分やメタデータの予測タスクに対して同時に訓練される。
我々の手法を既存の最先端の畳み込みニューラルネットワークに適用することにより、その性能を継続的に改善する。
論文 参考訳(メタデータ) (2021-10-10T11:36:34Z) - Audiovisual Highlight Detection in Videos [78.26206014711552]
本研究は,タスク上の単一特徴の有効性研究と,一つの特徴を一度に残すアブレーション研究の2つの実験の結果である。
映像要約作業では,視覚的特徴がほとんどの情報を持ち,視覚的特徴を含む視覚的特徴が視覚のみの情報よりも向上することが示唆された。
その結果,映像要約タスクからハイライト検出タスクに特化して訓練されたモデルに知識を伝達できることが示唆された。
論文 参考訳(メタデータ) (2021-02-11T02:24:00Z) - What Can You Learn from Your Muscles? Learning Visual Representation
from Human Interactions [50.435861435121915]
視覚のみの表現よりも優れた表現を学べるかどうかを調べるために,人間のインタラクションとアテンション・キューを用いている。
実験の結果,我々の「音楽監督型」表現は,視覚のみの最先端手法であるMoCoよりも優れていた。
論文 参考訳(メタデータ) (2020-10-16T17:46:53Z) - Music Gesture for Visual Sound Separation [121.36275456396075]
ミュージック・ジェスチャ(Music Gesture)は、音楽演奏時の演奏者の身体と指の動きを明示的にモデル化するキーポイントに基づく構造化表現である。
まず、コンテキスト対応グラフネットワークを用いて、視覚的コンテキストと身体力学を統合し、その後、身体の動きと対応する音声信号とを関連付けるために、音声-視覚融合モデルを適用する。
論文 参考訳(メタデータ) (2020-04-20T17:53:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。