論文の概要: Multi-Modal Music Information Retrieval: Augmenting Audio-Analysis with
Visual Computing for Improved Music Video Analysis
- arxiv url: http://arxiv.org/abs/2002.00251v1
- Date: Sat, 1 Feb 2020 17:57:14 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-05 01:20:42.929054
- Title: Multi-Modal Music Information Retrieval: Augmenting Audio-Analysis with
Visual Computing for Improved Music Video Analysis
- Title(参考訳): マルチモーダル音楽情報検索:ビジュアルコンピューティングによる音声分析の強化と音楽ビデオ解析の改善
- Authors: Alexander Schindler
- Abstract要約: この論文は、音声分析とコンピュータビジョンを組み合わせて、マルチモーダルの観点から音楽情報検索(MIR)タスクにアプローチする。
本研究の主な仮説は、ジャンルやテーマなど特定の表現的カテゴリーを視覚的内容のみに基づいて認識できるという観察に基づいている。
実験は、3つのMIRタスクに対して行われ、アーティスト識別、音楽ジェネア分類、クロスジェネア分類を行う。
- 参考スコア(独自算出の注目度): 91.3755431537592
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This thesis combines audio-analysis with computer vision to approach Music
Information Retrieval (MIR) tasks from a multi-modal perspective. This thesis
focuses on the information provided by the visual layer of music videos and how
it can be harnessed to augment and improve tasks of the MIR research domain.
The main hypothesis of this work is based on the observation that certain
expressive categories such as genre or theme can be recognized on the basis of
the visual content alone, without the sound being heard. This leads to the
hypothesis that there exists a visual language that is used to express mood or
genre. In a further consequence it can be concluded that this visual
information is music related and thus should be beneficial for the
corresponding MIR tasks such as music genre classification or mood recognition.
A series of comprehensive experiments and evaluations are conducted which are
focused on the extraction of visual information and its application in
different MIR tasks. A custom dataset is created, suitable to develop and test
visual features which are able to represent music related information.
Evaluations range from low-level visual features to high-level concepts
retrieved by means of Deep Convolutional Neural Networks. Additionally, new
visual features are introduced capturing rhythmic visual patterns. In all of
these experiments the audio-based results serve as benchmark for the visual and
audio-visual approaches. The experiments are conducted for three MIR tasks
Artist Identification, Music Genre Classification and Cross-Genre
Classification. Experiments show that an audio-visual approach harnessing
high-level semantic information gained from visual concept detection,
outperforms audio-only genre-classification accuracy by 16.43%.
- Abstract(参考訳): この論文は、音声分析とコンピュータビジョンを組み合わせて、マルチモーダルの観点から音楽情報検索(MIR)タスクにアプローチする。
この論文は、音楽ビデオの視覚層が提供する情報と、それがMIR研究領域のタスクの強化と改善にどのように活用できるかに焦点を当てている。
本研究の主な仮説は、音を聴くことなく、視覚コンテンツだけでジャンルやテーマなどのある種の表現的カテゴリーを認識できるという観察に基づくものである。
これは、気分やジャンルを表現するために使われる視覚言語が存在するという仮説に繋がる。
結果として、この視覚情報は音楽関連であり、音楽ジャンル分類や気分認識といった対応するmirタスクに有益であるべきであると結論付けることができる。
様々なmirタスクにおける視覚情報の抽出とその応用に焦点を当てた総合的な実験および評価を行った。
カスタムデータセットが作成され、音楽関連の情報を表現できるビジュアル機能の開発とテストに適しています。
評価は、低レベルの視覚特徴から、深い畳み込みニューラルネットワークによって得られた高レベルの概念まで幅広い。
さらに、リズミカルな視覚パターンをキャプチャする新しい視覚機能が導入されている。
これらの実験の全てにおいて、オーディオベースの結果は、視覚的およびオーディオ視覚的アプローチのベンチマークとなる。
実験は,mirタスクのアーティスト識別,音楽ジャンル分類,クロスジェネレーション分類の3つを対象に行った。
実験によれば、視覚概念検出から得られる高レベルの意味情報を活用した視聴覚アプローチは、オーディオのみのジャンル分類精度を16.43%上回っている。
関連論文リスト
- Bridging Paintings and Music -- Exploring Emotion based Music Generation through Paintings [10.302353984541497]
本研究では,視覚芸術で表現される感情に共鳴する音楽を生成するモデルを開発した。
コーディネートアートと音楽データの不足に対処するため、私たちはEmotion Painting Musicデータセットをキュレートした。
我々の2段階のフレームワークは、イメージを感情的内容のテキスト記述に変換し、これらの記述を音楽に変換することで、最小限のデータによる効率的な学習を容易にする。
論文 参考訳(メタデータ) (2024-09-12T08:19:25Z) - MeLFusion: Synthesizing Music from Image and Language Cues using Diffusion Models [57.47799823804519]
私たちは、ミュージシャンが映画の脚本だけでなく、視覚化を通して音楽を作る方法にインスピレーションを受けています。
本稿では,テキスト記述と対応する画像からの手がかりを効果的に利用して音楽を合成するモデルであるMeLFusionを提案する。
音楽合成パイプラインに視覚情報を加えることで、生成した音楽の質が大幅に向上することを示す。
論文 参考訳(メタデータ) (2024-06-07T06:38:59Z) - Semantic-Based Active Perception for Humanoid Visual Tasks with Foveal Sensors [49.99728312519117]
この研究の目的は、最近の意味に基づくアクティブな知覚モデルが、人間が定期的に行う視覚的なタスクをいかに正確に達成できるかを確立することである。
このモデルは、現在のオブジェクト検出器が多数のオブジェクトクラスをローカライズし、分類し、複数の固定にまたがるシーンのセマンティック記述を更新する能力を利用する。
シーン探索の課題では、セマンティック・ベースの手法は従来のサリエンシ・ベース・モデルよりも優れた性能を示す。
論文 参考訳(メタデータ) (2024-04-16T18:15:57Z) - Predicting emotion from music videos: exploring the relative
contribution of visual and auditory information to affective responses [0.0]
本稿では、感情的マルチメディアコンテンツ分析のための新しいデータセットであるMusicVideos(MuVi)を紹介する。
データは、音楽、視覚、オーディオヴィジュアルの3つの条件で、参加者に音楽映像を提示することで収集された。
論文 参考訳(メタデータ) (2022-02-19T07:36:43Z) - An Audio-Visual Dataset and Deep Learning Frameworks for Crowded Scene
Classification [58.720142291102135]
本稿では,音声視覚シーン分類(SC)の課題について述べる。
この課題において、入力ビデオは「リオト」、「ノワーズ・ストリート」、「ファイアワーク・イベント」、「ミュージック・イベント」、そして「スポーツ・アトムスフィア」の5つの実物混みのシーンのうちの1つに分類される。
論文 参考訳(メタデータ) (2021-12-16T19:48:32Z) - Multi-task Learning with Metadata for Music Mood Classification [0.0]
ムード認識は音楽情報学において重要な問題であり、音楽発見とレコメンデーションに重要な応用がある。
マルチタスク学習手法を提案する。この手法では、共有されたモデルが、気分やメタデータの予測タスクに対して同時に訓練される。
我々の手法を既存の最先端の畳み込みニューラルネットワークに適用することにより、その性能を継続的に改善する。
論文 参考訳(メタデータ) (2021-10-10T11:36:34Z) - Audiovisual Highlight Detection in Videos [78.26206014711552]
本研究は,タスク上の単一特徴の有効性研究と,一つの特徴を一度に残すアブレーション研究の2つの実験の結果である。
映像要約作業では,視覚的特徴がほとんどの情報を持ち,視覚的特徴を含む視覚的特徴が視覚のみの情報よりも向上することが示唆された。
その結果,映像要約タスクからハイライト検出タスクに特化して訓練されたモデルに知識を伝達できることが示唆された。
論文 参考訳(メタデータ) (2021-02-11T02:24:00Z) - Music Gesture for Visual Sound Separation [121.36275456396075]
ミュージック・ジェスチャ(Music Gesture)は、音楽演奏時の演奏者の身体と指の動きを明示的にモデル化するキーポイントに基づく構造化表現である。
まず、コンテキスト対応グラフネットワークを用いて、視覚的コンテキストと身体力学を統合し、その後、身体の動きと対応する音声信号とを関連付けるために、音声-視覚融合モデルを適用する。
論文 参考訳(メタデータ) (2020-04-20T17:53:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。