論文の概要: Learning Unsupervised Hierarchies of Audio Concepts
- arxiv url: http://arxiv.org/abs/2207.11231v1
- Date: Thu, 21 Jul 2022 16:34:31 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-25 13:53:15.962841
- Title: Learning Unsupervised Hierarchies of Audio Concepts
- Title(参考訳): 音声概念の教師なし階層学習
- Authors: Darius Afchar, Romain Hennequin and Vincent Guigue
- Abstract要約: コンピュータビジョンでは、正しい抽象化レベルに説明を調整するために概念学習が提案された。
本稿では,概念学習を音楽の領域に適用し,その特異性について述べる。
音声から多数の音楽概念を学習し,それらを階層化し,相互関係を明らかにする手法を提案する。
- 参考スコア(独自算出の注目度): 13.400413055847084
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Music signals are difficult to interpret from their low-level features,
perhaps even more than images: e.g. highlighting part of a spectrogram or an
image is often insufficient to convey high-level ideas that are genuinely
relevant to humans. In computer vision, concept learning was therein proposed
to adjust explanations to the right abstraction level (e.g. detect clinical
concepts from radiographs). These methods have yet to be used for MIR.
In this paper, we adapt concept learning to the realm of music, with its
particularities. For instance, music concepts are typically non-independent and
of mixed nature (e.g. genre, instruments, mood), unlike previous work that
assumed disentangled concepts. We propose a method to learn numerous music
concepts from audio and then automatically hierarchise them to expose their
mutual relationships. We conduct experiments on datasets of playlists from a
music streaming service, serving as a few annotated examples for diverse
concepts. Evaluations show that the mined hierarchies are aligned with both
ground-truth hierarchies of concepts -- when available -- and with proxy
sources of concept similarity in the general case.
- Abstract(参考訳): 音楽信号は低レベルの特徴から解釈することは困難であり、例えば、スペクトログラムや画像のハイライトは、人間と真に関係のある高レベルのアイデアを伝えるのに不十分である。
コンピュータビジョンでは、適切な抽象化レベル(例えば、放射線写真から臨床概念を検出する)に説明を調整するために概念学習が提案された。
これらの手法はまだMIRには使われていない。
本稿では,概念学習を音楽の領域に適応させ,その特質について述べる。
例えば、音楽の概念は典型的には非独立的で混合性(ジャンル、楽器、ムードなど)であり、非絡み合いの概念を仮定した以前の作品とは異なる。
音声から多数の音楽概念を学習し,それらを階層化し,相互関係を明らかにする手法を提案する。
音楽ストリーミングサービスのプレイリストのデータセットについて実験を行い、様々なコンセプトの注釈付き例をいくつか提供する。
評価の結果、採掘された階層は、利用可能な場合、概念の基盤となる階層と、一般的な場合における概念の類似性のプロキシソースの両方に一致していることが示されている。
関連論文リスト
- Explainable Concept Generation through Vision-Language Preference Learning [7.736445799116692]
概念に基づく説明は、ポストホック後のディープニューラルネットワークを説明するための一般的な選択肢となっている。
視覚言語生成モデルを微調整する強化学習に基づく選好最適化アルゴリズムを考案する。
提案手法の有効性と信頼性に加えて,ニューラルネットワーク解析の診断ツールとしての有用性を示す。
論文 参考訳(メタデータ) (2024-08-24T02:26:42Z) - Pre-trained Vision-Language Models Learn Discoverable Visual Concepts [33.302556000017844]
学習した視覚的概念が広範囲のアプリケーションを可能にすることを目標にしています。
事前学習されたVLMによってキャプチャされた視覚概念は、テキストベースの概念プロンプトで視覚言語インタフェースによって抽出できると仮定する。
提案する概念発見学習フレームワークは,汎用的な視覚概念の多種多様なリストを識別するように設計されている。
論文 参考訳(メタデータ) (2024-04-19T06:41:32Z) - Structuring Concept Space with the Musical Circle of Fifths by Utilizing Music Grammar Based Activations [0.0]
スパイクネットワークなどの離散ニューラルネットワークの構造とピアノ作品の構成との興味深い類似性について検討する。
スパイクニューラルネットワークにおけるアクティベーションの制御に音楽文法を活用する新しい手法を提案する。
本稿では,本モデルにおける概念マップが5番目の音楽サークルによって構成されていることを示し,深層学習アルゴリズムにおける音楽理論の原理を活用する可能性を明らかにする。
論文 参考訳(メタデータ) (2024-02-22T03:28:25Z) - Concept-Based Techniques for "Musicologist-friendly" Explanations in a
Deep Music Classifier [5.442298461804281]
ハイレベルな音楽概念に基づくより人間フレンドリーな説明に焦点を当てる。
我々の研究は、訓練されたシステム(ポストホックな説明)をターゲットとし、2つのアプローチを探求する。
既存のシンボリック作曲家分類システムにおいて,両手法を実証し,その可能性を示し,本質的な限界を強調した。
論文 参考訳(メタデータ) (2022-08-26T07:45:29Z) - Static and Dynamic Concepts for Self-supervised Video Representation
Learning [70.15341866794303]
本稿では,自己教師付きビデオ表現学習のための新しい学習手法を提案する。
人間がビデオを理解する方法に触発され、まず一般的な視覚概念を学習し、ビデオ理解のための識別的地域への参加を提案する。
論文 参考訳(メタデータ) (2022-07-26T10:28:44Z) - ConceptBeam: Concept Driven Target Speech Extraction [69.85003619274295]
本研究では,ConceptBeamと呼ばれる意味情報に基づくターゲット音声抽出のための新しいフレームワークを提案する。
提案手法では,概念記述子を共有埋め込み空間にマッピングすることにより,概念を意味埋め込みとして符号化する。
我々は、モダリティに依存した情報、すなわち混合中の音声セグメント、および特定のモダリティに依存しない概念をブリッジするためにそれを使用する。
論文 参考訳(メタデータ) (2022-07-25T08:06:07Z) - Visual Superordinate Abstraction for Robust Concept Learning [80.15940996821541]
概念学習は言語意味論と結びついた視覚表現を構成する。
視覚概念の本質的な意味的階層を探索する失敗のボトルネックについて説明する。
本稿では,意味認識型視覚サブ空間を明示的にモデル化するビジュアル・スーパーオーディネート・抽象化・フレームワークを提案する。
論文 参考訳(メタデータ) (2022-05-28T14:27:38Z) - Visual Concepts Tokenization [65.61987357146997]
本稿では,教師なしトランスフォーマーに基づく視覚概念トークン化フレームワーク VCT を提案する。
これらの概念トークンを得るためには、概念トークン間の自己注意なしで画像トークン層から視覚情報を抽出するために、クロスアテンションのみを用いる。
さらに,異なる概念トークンが独立した視覚概念を表現することを容易にするために,概念分離損失を提案する。
論文 参考訳(メタデータ) (2022-05-20T11:25:31Z) - Contrastive Learning with Positive-Negative Frame Mask for Music
Representation [91.44187939465948]
本稿では,PEMRと略記したコントラッシブラーニングフレームワークに基づく,音楽表現のための正負負のフレームマスクを提案する。
我々は,同じ音楽からサンプリングした自己増強陽性/陰性の両方に対応するために,新しいコントラスト学習目標を考案した。
論文 参考訳(メタデータ) (2022-03-17T07:11:42Z) - Towards Visual Semantics [17.1623244298824]
私たちは、人間の視覚的知覚の精神表現、すなわち概念の構築方法を研究します。
本稿では,分類概念と呼ばれる概念に対応する物質概念を学習する理論とアルゴリズムを提案する。
予備的な実験は、アルゴリズムが正しい精度で属と分化の概念を取得することを証明している。
論文 参考訳(メタデータ) (2021-04-26T07:28:02Z) - Visual Concept-Metaconcept Learning [101.62725114966211]
本稿では,概念とメタ概念を画像と関連する問合せ対から学習するための視覚概念メタコンセプタ(VCML)を提案する。
赤と緑がオブジェクトの同じ性質を記述していることを知ると、立方体と球面がオブジェクトの同じ性質を記述しているという事実を一般化する。
論文 参考訳(メタデータ) (2020-02-04T18:42:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。