論文の概要: Musical Training, but not Mere Exposure to Music, Drives the Emergence of Chroma Equivalence in Artificial Neural Networks
- arxiv url: http://arxiv.org/abs/2602.18635v1
- Date: Fri, 20 Feb 2026 22:07:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-24 17:42:02.207292
- Title: Musical Training, but not Mere Exposure to Music, Drives the Emergence of Chroma Equivalence in Artificial Neural Networks
- Title(参考訳): 音楽教育は単なる音楽への露出ではなく, ニューラルネットワークにおけるクロマ等価性の出現を駆動する
- Authors: Lukas Grasse, Matthew S. Tata,
- Abstract要約: 我々は,近年の聴覚ANNを用いて,学習表現におけるピッチ高さとクロマ同値の出現を検証した。
その結果,全てのモデルがピッチ高さの表現の程度が異なることがわかったが,教師付き音楽転写タスクで訓練されたモデルのみがクロマ同値を示した。
これは、クロマ同値性は、音楽知覚の特定のタスクをサポートするために現れる高次認知計算である、という見解を支持する。
- 参考スコア(独自算出の注目度): 0.09668407688201358
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pitch is a fundamental aspect of auditory perception. Pitch perception is commonly described across two perceptual dimensions: pitch height is the sense that tones with varying frequencies seem to be higher or lower, and chroma equivalence is the cyclical similarity of notes octaves, corresponding to a doubling of fundamental frequency. Existing research is divided on whether chroma equivalence is a learned percept that varies according to musical experience and culture, or is an innate percept that develops automatically. Building on a recent framework that proposes to use ANNs to ask 'why' questions about the brain, we evaluated recent auditory ANNs using representational similarity analysis to test the emergence of pitch height and chroma equivalence in their learned representations. Additionally, we fine-tuned two models, Wav2Vec 2.0 and Data2Vec, on a self-supervised learning task using speech and music, and a supervised music transcription task. We found that all models exhibited varying degrees of pitch height representation, but that only models trained on the supervised music transcription task exhibited chroma equivalence. Mere exposure to music through self-supervised learning was not sufficient for chroma equivalence to emerge. This supports the view that chroma equivalence is a higher-order cognitive computation that emerges to support the specific task of music perception, distinct from other auditory perception such as speech listening. This work also highlights the usefulness of ANNs for probing the developmental conditions that give rise to perceptual representations in humans.
- Abstract(参考訳): ピッチは聴覚知覚の基本的な側面である。
ピッチの知覚は2つの知覚次元に共通して記述される: ピッチの高さは、異なる周波数のトーンがより高いか低いかのように見える感覚であり、クロマ同値は基本周波数の倍増に対応する音符オクターブの循環的類似性である。
既存の研究では、クロマ同値性は音楽経験や文化によって異なる学習パーセプションであるのか、あるいは、自動的に発達する自然パーセプションであるのかが分かれている。
脳に関する「なぜ」質問をANNを用いて行うことを提案する最近の枠組みに基づいて,近年の聴覚ANNを表現的類似性分析を用いて評価し,その学習表現におけるピッチ高さとクロマ同値の出現を検証した。
さらに、音声と音楽を用いた自己教師型学習タスクと、教師型音楽書き起こしタスクにおいて、Wav2Vec 2.0とData2Vecの2つのモデルを微調整した。
その結果,全てのモデルがピッチ高さの表現の程度が異なることがわかったが,教師付き音楽転写タスクで訓練されたモデルのみがクロマ同値を示した。
自己指導学習による音楽への露出だけでは、クロマ同値が現れるには不十分であった。
これは、クロマ同値性は、音声聴取のような他の聴覚的知覚とは異なる、音楽知覚の特定のタスクをサポートするために現れる高次認知計算である、という見解を支持する。
この研究は、人間の知覚表現を引き起こす発達条件を探索するためのANNの有用性も強調している。
関連論文リスト
- Music Flamingo: Scaling Music Understanding in Audio Language Models [98.94537017112704]
Music Flamingoは、基礎的なオーディオモデルにおける音楽理解を促進するために設計された、新しい大きなオーディオ言語モデルである。
MF-Skillsはマルチステージパイプラインを通じてラベル付けされたデータセットで、調和、構造、音色、歌詞、文化的な文脈をカバーする豊富なキャプションと質問応答ペアを生成する。
MF-Thinkは音楽理論に基づく新しいチェーン・オブ・シンク・データセットで、続いてGRPOベースの強化学習とカスタム報酬を取り入れた。
論文 参考訳(メタデータ) (2025-11-13T13:21:09Z) - MeLFusion: Synthesizing Music from Image and Language Cues using Diffusion Models [57.47799823804519]
私たちは、ミュージシャンが映画の脚本だけでなく、視覚化を通して音楽を作る方法にインスピレーションを受けています。
本稿では,テキスト記述と対応する画像からの手がかりを効果的に利用して音楽を合成するモデルであるMeLFusionを提案する。
音楽合成パイプラインに視覚情報を加えることで、生成した音楽の質が大幅に向上することを示す。
論文 参考訳(メタデータ) (2024-06-07T06:38:59Z) - Learning Interpretable Low-dimensional Representation via Physical
Symmetry [8.606028974758479]
現代物理学からインスピレーションを得て、物理対称性を時系列データの潜在空間に対する自己整合制約として利用する。
物理的対称性は、自己教師方式で非競合モノフォニック・オーディオから線形ピッチファクターを学習することにつながることを示す。
同じ手法がコンピュータビジョンに適用でき、ラベルなしで動く単純な物体のビデオから3Dカルテシア空間を学習することができる。
論文 参考訳(メタデータ) (2023-02-05T21:48:42Z) - Mel Spectrogram Inversion with Stable Pitch [0.0]
ボーコーダ(Vocoder)は、音声信号(通常はメルスペクトル)の低次元スペクトル表現を波形に変換することのできるモデルである。
近年,音声認識のために開発されたボコーダモデルは,高いリアリズムを実現する。
音声と比較して、音のテクスチャの構造は新たな課題をもたらす。
論文 参考訳(メタデータ) (2022-08-26T17:01:57Z) - Toward a realistic model of speech processing in the brain with
self-supervised learning [67.7130239674153]
生波形で訓練された自己教師型アルゴリズムは有望な候補である。
We show that Wav2Vec 2.0 learns brain-like representations with little as 600 hours of unlabelled speech。
論文 参考訳(メタデータ) (2022-06-03T17:01:46Z) - Contrastive Learning with Positive-Negative Frame Mask for Music
Representation [91.44187939465948]
本稿では,PEMRと略記したコントラッシブラーニングフレームワークに基づく,音楽表現のための正負負のフレームマスクを提案する。
我々は,同じ音楽からサンプリングした自己増強陽性/陰性の両方に対応するために,新しいコントラスト学習目標を考案した。
論文 参考訳(メタデータ) (2022-03-17T07:11:42Z) - Towards Cross-Cultural Analysis using Music Information Dynamics [7.4517333921953215]
異なる文化の音楽は、2つの面で異なるスタイルのコンベンションを持つことによって異なる美学を確立する。
本稿では,これら2つの側面に着目し,異なる文化の楽曲を定量的に比較する枠組みを提案する。
論文 参考訳(メタデータ) (2021-11-24T16:05:29Z) - Music Gesture for Visual Sound Separation [121.36275456396075]
ミュージック・ジェスチャ(Music Gesture)は、音楽演奏時の演奏者の身体と指の動きを明示的にモデル化するキーポイントに基づく構造化表現である。
まず、コンテキスト対応グラフネットワークを用いて、視覚的コンテキストと身体力学を統合し、その後、身体の動きと対応する音声信号とを関連付けるために、音声-視覚融合モデルを適用する。
論文 参考訳(メタデータ) (2020-04-20T17:53:46Z) - Multi-Modal Music Information Retrieval: Augmenting Audio-Analysis with
Visual Computing for Improved Music Video Analysis [91.3755431537592]
この論文は、音声分析とコンピュータビジョンを組み合わせて、マルチモーダルの観点から音楽情報検索(MIR)タスクにアプローチする。
本研究の主な仮説は、ジャンルやテーマなど特定の表現的カテゴリーを視覚的内容のみに基づいて認識できるという観察に基づいている。
実験は、3つのMIRタスクに対して行われ、アーティスト識別、音楽ジェネア分類、クロスジェネア分類を行う。
論文 参考訳(メタデータ) (2020-02-01T17:57:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。