論文の概要: Visual Attention for Musical Instrument Recognition
- arxiv url: http://arxiv.org/abs/2006.09640v2
- Date: Sun, 21 Jun 2020 15:53:37 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-19 21:40:32.112740
- Title: Visual Attention for Musical Instrument Recognition
- Title(参考訳): 楽器認識のための視覚的注意
- Authors: Karn Watcharasupat, Siddharth Gururani and Alexander Lerch
- Abstract要約: 本研究では,楽器認識の性能向上を図るため,音節時間感覚における注意機構,すなわち視覚的注意(la visual attention)の活用について検討する。
第1のアプローチは,各音節時間インスタンスに基づく予測をアグリゲーション前に注意重み付けし,最終的な予測を生成するスライディング・ウインドウ・パラダイムに注意機構を適用した。
第2のアプローチは、ネットワークがスペクトログラムの一部にのみ参加し、限られた回数の視覚的注意を前提として、次にどこに出席するかを決定する、反復的な視覚的注意モデルに基づいている。
- 参考スコア(独自算出の注目度): 72.05116221011949
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the field of music information retrieval, the task of simultaneously
identifying the presence or absence of multiple musical instruments in a
polyphonic recording remains a hard problem. Previous works have seen some
success in improving instrument classification by applying temporal attention
in a multi-instance multi-label setting, while another series of work has also
suggested the role of pitch and timbre in improving instrument recognition
performance. In this project, we further explore the use of attention mechanism
in a timbral-temporal sense, \`a la visual attention, to improve the
performance of musical instrument recognition using weakly-labeled data. Two
approaches to this task have been explored. The first approach applies
attention mechanism to the sliding-window paradigm, where a prediction based on
each timbral-temporal `instance' is given an attention weight, before
aggregation to produce the final prediction. The second approach is based on a
recurrent model of visual attention where the network only attends to parts of
the spectrogram and decide where to attend to next, given a limited number of
`glimpses'.
- Abstract(参考訳): 音楽情報検索の分野では、ポリフォニック録音における複数の楽器の有無を同時に識別する作業は依然として難しい課題である。
先行研究は多言語マルチラベル設定における時間的注意を応用して楽器分類の改善に成功しており、また別の一連の研究は、楽器認識性能の向上におけるピッチと音色の役割も示唆している。
本研究は,弱ラベルデータを用いた楽器認識の性能向上を目的として,ティンブラル・テンポラル感覚の「a la visual attention」におけるアテンション機構の利用をさらに検討する。
この課題に対する2つのアプローチが検討されている。
第1のアプローチは,各音節時間的「インスタンス」に基づく予測をアグリゲーション前に注意重み付けし,最終的な予測を生成するスライディングウインドウパラダイムに注意機構を適用した。
第2のアプローチは、ネットワークがスペクトログラムの一部にのみ出席し、限られた数の'glimpses'を与えられた場合、次に出席する場所を決定するという、視覚的注意のリカレントモデルに基づいている。
関連論文リスト
- Toward a More Complete OMR Solution [49.74172035862698]
光音楽認識は、音楽の表記をデジタル形式に変換することを目的としている。
OMRに取り組む1つのアプローチは、画像内の視覚音楽の表記要素を最初に検出するマルチステージパイプラインである。
YOLOv8に基づく音楽オブジェクト検出器を導入し,検出性能を向上する。
第2に、検出出力に基づいて記法組立段階を完了する教師付きトレーニングパイプラインを導入する。
論文 参考訳(メタデータ) (2024-08-31T01:09:12Z) - Cadence Detection in Symbolic Classical Music using Graph Neural
Networks [7.817685358710508]
本稿では,シンボルスコアのグラフ表現を中間的手段として提示し,ケイデンス検出課題を解決する。
グラフ畳み込みネットワークを用いた不均衡ノード分類問題としてケイデンス検出にアプローチする。
実験の結果,グラフ畳み込みは,非局所的コンテキストを符号化する特殊な特徴を考案する必要がなく,ケイデンス検出を支援する非局所的特徴を学習できることが示唆された。
論文 参考訳(メタデータ) (2022-08-31T12:39:57Z) - Self-Attention Neural Bag-of-Features [103.70855797025689]
我々は最近導入された2D-Attentionの上に構築し、注意学習方法論を再構築する。
本稿では,関連情報を強調した2次元目視マスクを学習する機能・時間的アテンション機構を提案する。
論文 参考訳(メタデータ) (2022-01-26T17:54:14Z) - Revisiting spatio-temporal layouts for compositional action recognition [63.04778884595353]
私たちは、アクション認識にオブジェクト中心のアプローチを取ります。
本論文の主な焦点は、合成/ファウショット動作認識である。
レイアウトモデルとの融合による外観モデルの性能向上を実証する。
論文 参考訳(メタデータ) (2021-11-02T23:04:39Z) - Recurrent Attention Models with Object-centric Capsule Representation
for Multi-object Recognition [4.143091738981101]
反復的な注目を伴うエンコーダ・デコーダモデルにおけるオブジェクト中心の隠れ表現は、注意と認識の効果的な統合をもたらすことを示す。
我々の研究は、再帰的なオブジェクト中心表現を注意を向ける計画に組み込むための一般的なアーキテクチャへの一歩を踏み出した。
論文 参考訳(メタデータ) (2021-10-11T01:41:21Z) - Counterfactual Attention Learning for Fine-Grained Visual Categorization
and Re-identification [101.49122450005869]
本稿では,因果推論に基づくより効果的な注意力学習法を提案する。
具体的には,学習した視覚的注意がネットワーク予測に与える影響を分析する。
本手法は,広範囲の粒度認識タスクにおいて評価する。
論文 参考訳(メタデータ) (2021-08-19T14:53:40Z) - Timbre Classification of Musical Instruments with a Deep Learning
Multi-Head Attention-Based Model [1.7188280334580197]
この研究の目的は、できるだけ少ないパラメータで異なる楽器の音色を識別できるモデルを定義することである。
楽器が同じ音符を同じ強度で演奏している場合でも、音色で楽器を分類する能力を評価することが可能である。
論文 参考訳(メタデータ) (2021-07-13T16:34:19Z) - Audiovisual transfer learning for audio tagging and sound event
detection [21.574781022415372]
本研究では,2つの音声認識問題,すなわち音声タグ付けと音声イベント検出における伝達学習の利点について検討する。
我々は、スペクトル音響入力のみを利用したベースラインシステムを適用し、事前訓練された聴覚と視覚的特徴を利用する。
オーディオヴィジュアルなマルチラベルデータセット上で,これらのモデルを用いて実験を行う。
論文 参考訳(メタデータ) (2021-06-09T21:55:05Z) - Music Gesture for Visual Sound Separation [121.36275456396075]
ミュージック・ジェスチャ(Music Gesture)は、音楽演奏時の演奏者の身体と指の動きを明示的にモデル化するキーポイントに基づく構造化表現である。
まず、コンテキスト対応グラフネットワークを用いて、視覚的コンテキストと身体力学を統合し、その後、身体の動きと対応する音声信号とを関連付けるために、音声-視覚融合モデルを適用する。
論文 参考訳(メタデータ) (2020-04-20T17:53:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。