論文の概要: Deep Neural Network approaches for Analysing Videos of Music
Performances
- arxiv url: http://arxiv.org/abs/2205.11232v2
- Date: Tue, 24 May 2022 08:42:50 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-29 21:23:11.525876
- Title: Deep Neural Network approaches for Analysing Videos of Music
Performances
- Title(参考訳): 音楽演奏のビデオ解析のためのディープニューラルネットワークアプローチ
- Authors: Foteini Simistira Liwicki, Richa Upadhyay, Prakash Chandra Chhipa,
Killian Murphy, Federico Visi, Stefan \"Ostersj\"o and Marcus Liwicki
- Abstract要約: 本稿では,3次元畳み込みニューラルネットワーク(CNN)を用いた演奏ビデオにおけるジェスチャーのラベル付けプロセスを自動化するフレームワークを提案する。
従来の作業に比べてジェスチャー識別性能は12%向上した(前作業の51%以上)。
- 参考スコア(独自算出の注目度): 1.1262538079489224
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents a framework to automate the labelling process for
gestures in musical performance videos with a 3D Convolutional Neural Network
(CNN). While this idea was proposed in a previous study, this paper introduces
several novelties: (i) Presents a novel method to overcome the class imbalance
challenge and make learning possible for co-existent gestures by batch
balancing approach and spatial-temporal representations of gestures. (ii)
Performs a detailed study on 7 and 18 categories of gestures generated during
the performance (guitar play) of musical pieces that have been video-recorded.
(iii) Investigates the possibility to use audio features. (iv) Extends the
analysis to multiple videos. The novel methods significantly improve the
performance of gesture identification by 12 %, when compared to the previous
work (51 % in this study over 39 % in previous work). We successfully validate
the proposed methods on 7 super classes (72 %), an ensemble of the 18
gestures/classes, and additional videos (75 %).
- Abstract(参考訳): 本稿では,3次元畳み込みニューラルネットワーク(CNN)を用いた演奏ビデオにおけるジェスチャーのラベル付けプロセスを自動化するフレームワークを提案する。
この考え方は前回の研究で提案されたが,本研究ではいくつかの新奇性を紹介した。
(i)バッチバランスアプローチとジェスチャの空間・時間表現により,クラス不均衡を克服し,共存ジェスチャの学習を可能にする新しい手法を提案する。
(II)ビデオ録画された楽曲の演奏(ギター演奏)中に生じる7と18のジェスチャーについて、詳細な研究を行う。
(iii)音声機能の使用の可能性を探る。
(iv)解析を複数のビデオに拡張する。
提案手法は,従来の作業と比較してジェスチャー識別性能を12%向上させた(本研究の51 %は前作業の39 %以上)。
7つのスーパークラス(72%)、18のジェスチャ/クラスのアンサンブル、追加の動画(75%)で提案手法を検証できた。
関連論文リスト
- Self-Supervised Contrastive Learning for Robust Audio-Sheet Music
Retrieval Systems [3.997809845676912]
自己指導型コントラスト学習は、実際の音楽コンテンツからの注釈付きデータの不足を軽減することができることを示す。
クロスモーダルなピース識別の高レベルなタスクにスニペットを埋め込む。
本研究では,実際の音楽データが存在する場合,検索品質が30%から100%に向上することが観察された。
論文 参考訳(メタデータ) (2023-09-21T14:54:48Z) - Video-Mined Task Graphs for Keystep Recognition in Instructional Videos [71.16703750980143]
手続き的活動理解には、より広いタスクの観点から人間の行動を知覚する必要がある。
本稿では,ハウツービデオからタスクグラフを自動的に発見して,人々がキーステップを実行する傾向を確率論的に表現することを提案する。
より信頼性の高いゼロショットキーステップのローカライゼーションとビデオ表現学習の改善。
論文 参考訳(メタデータ) (2023-07-17T18:19:36Z) - Localizing Visual Sounds the Hard Way [149.84890978170174]
音を発する物体を含む画像であっても、難しい画像断片を明示的に識別するようにネットワークを訓練します。
提案アルゴリズムは,Flickr SoundNetデータセット上での最先端性能を実現する。
最近導入されたVGG-Soundデータセットの新しいアノテーションセットであるVGG-Sound Source(VGG-SS)ベンチマークを紹介します。
論文 参考訳(メタデータ) (2021-04-06T17:38:18Z) - Multimodal Engagement Analysis from Facial Videos in the Classroom [5.202558003704116]
本研究の目的は,授業の質や教員養成の文脈において,授業ビデオの手動データ分析を容易にするための技術手段を提供することである。
論文 参考訳(メタデータ) (2021-01-11T22:15:04Z) - A Comprehensive Study of Deep Video Action Recognition [35.7068977497202]
ビデオ動作認識は,映像理解における代表的なタスクの一つである。
ビデオ行動認識のためのディープラーニングに関する200以上の既存論文を包括的に調査する。
論文 参考訳(メタデータ) (2020-12-11T18:54:08Z) - Collaborative Distillation in the Parameter and Spectrum Domains for
Video Action Recognition [79.60708268515293]
本稿では,行動認識のための小型かつ効率的なネットワークの訓練方法について検討する。
周波数領域における2つの蒸留戦略,すなわち特徴スペクトルとパラメータ分布蒸留を提案する。
提案手法は,同じバックボーンを持つ最先端の手法よりも高い性能を実現することができる。
論文 参考訳(メタデータ) (2020-09-15T07:29:57Z) - Self-supervised Video Representation Learning by Pace Prediction [48.029602040786685]
本稿では,ビデオペース予測による自己指導型映像表現学習の課題に対処する。
人間の視覚系がビデオのペースに敏感であるという観察に由来する。
我々は、異なるペースでトレーニングクリップをランダムにサンプリングし、ニューラルネットワークに各ビデオクリップのペースを特定するよう依頼する。
論文 参考訳(メタデータ) (2020-08-13T12:40:24Z) - Unsupervised Learning of Video Representations via Dense Trajectory
Clustering [86.45054867170795]
本稿では,ビデオにおける行動認識のための表現の教師なし学習の課題に対処する。
まず、このクラスの2つのトップパフォーマンス目標(インスタンス認識と局所集約)を適用することを提案する。
有望な性能を観察するが、定性的解析により、学習した表現が動きのパターンを捉えないことを示す。
論文 参考訳(メタデータ) (2020-06-28T22:23:03Z) - COALA: Co-Aligned Autoencoders for Learning Semantically Enriched Audio
Representations [32.456824945999465]
本稿では,学習した音声とその関連タグの潜在表現を調整し,音声表現を学習する手法を提案する。
組込みモデルの性能評価を行い,その性能を3つの異なるタスクにおける特徴抽出器として評価した。
論文 参考訳(メタデータ) (2020-06-15T13:17:18Z) - Naive-Student: Leveraging Semi-Supervised Learning in Video Sequences
for Urban Scene Segmentation [57.68890534164427]
本研究では,未ラベル映像シーケンスと追加画像の半教師付き学習を利用して,都市景観セグメンテーションの性能を向上させることができるかどうかを問う。
我々は単にラベルのないデータに対して擬似ラベルを予測し、人間の注釈付きデータと擬似ラベル付きデータの両方でその後のモデルを訓練する。
我々のNaive-Studentモデルは、このような単純で効果的な反復的半教師付き学習で訓練され、3つのCityscapesベンチマークで最先端の結果を得る。
論文 参考訳(メタデータ) (2020-05-20T18:00:05Z) - Delving into 3D Action Anticipation from Streaming Videos [99.0155538452263]
アクション予測は、部分的な観察でアクションを認識することを目的としている。
本稿では,いくつかの相補的評価指標を導入し,フレームワイド動作分類に基づく基本モデルを提案する。
また,全動作表現とクラス非依存行動ラベルという2つの側面から補助情報を取り入れたマルチタスク学習戦略についても検討する。
論文 参考訳(メタデータ) (2019-06-15T10:30:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。