論文の概要: Emergent musical properties of a transformer under contrastive self-supervised learning
- arxiv url: http://arxiv.org/abs/2506.23873v1
- Date: Mon, 30 Jun 2025 14:04:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-01 21:27:54.092866
- Title: Emergent musical properties of a transformer under contrastive self-supervised learning
- Title(参考訳): コントラスト学習における変圧器の創発的音楽特性
- Authors: Yuexuan Kong, Gabriel Meseguer-Brocal, Vincent Lostanlen, Mathieu Lagrange, Romain Hennequin,
- Abstract要約: 時間周波数領域の1次元パッチで視覚変換器を訓練する。
ウェイトシェアリングにより、VT-1Dのシーケンストークンに情報的音楽特性が出現する可能性があることを観察する。
本論文は,パフォーマンス向上ではなく,変圧器の音楽解釈の進歩に焦点をあてる。
- 参考スコア(独自算出の注目度): 8.007443439979944
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In music information retrieval (MIR), contrastive self-supervised learning for general-purpose representation models is effective for global tasks such as automatic tagging. However, for local tasks such as chord estimation, it is widely assumed that contrastively trained general-purpose self-supervised models are inadequate and that more sophisticated SSL is necessary; e.g., masked modeling. Our paper challenges this assumption by revealing the potential of contrastive SSL paired with a transformer in local MIR tasks. We consider a lightweight vision transformer with one-dimensional patches in the time--frequency domain (ViT-1D) and train it with simple contrastive SSL through normalized temperature-scaled cross-entropy loss (NT-Xent). Although NT-Xent operates only over the class token, we observe that, potentially thanks to weight sharing, informative musical properties emerge in ViT-1D's sequence tokens. On global tasks, the temporal average of class and sequence tokens offers a performance increase compared to the class token alone, showing useful properties in the sequence tokens. On local tasks, sequence tokens perform unexpectedly well, despite not being specifically trained for. Furthermore, high-level musical features such as onsets emerge from layer-wise attention maps and self-similarity matrices show different layers capture different musical dimensions. Our paper does not focus on improving performance but advances the musical interpretation of transformers and sheds light on some overlooked abilities of contrastive SSL paired with transformers for sequence modeling in MIR.
- Abstract(参考訳): 音楽情報検索(MIR)において,汎用表現モデルに対するコントラスト学習は,自動タグ付けなどのグローバルなタスクに有効である。
しかし、コード推定のような局所的なタスクでは、対照的に訓練された汎用的な自己組織化モデルは不十分であり、より洗練されたSSLが必要であると広く想定されている。
本稿では,ローカルなMIRタスクにおいて,コントラスト型SSLとトランスフォーマーの組み合わせの可能性を明らかにすることで,この仮定に挑戦する。
時間周波数領域 (ViT-1D) に1次元パッチを印加した軽量な視覚変換器について検討し, 温度スケールクロスエントロピー損失 (NT-Xent) を正規化することにより, 単純なコントラストSSLで訓練する。
NT-Xentはクラストークン上でのみ動作するが、ウェイトシェアリングにより、VT-1Dのシーケンストークンに情報的音楽特性が出現する可能性がある。
グローバルタスクでは、クラストークンとシーケンストークンの時間平均は、クラストークンのみと比較してパフォーマンスが向上し、シーケンストークンの有用な特性を示す。
ローカルタスクでは、特定のトレーニングを受けていないにもかかわらず、シーケンストークンは予期せずうまく機能する。
さらに,レイヤワイドアテンションマップや自己相似行列からオンセットのようなハイレベルな音楽的特徴が出現し,異なるレイヤが異なる音楽的次元を捉えていることを示す。
本論文は、性能向上に焦点をあてるのではなく、トランスフォーマーの音楽解釈を進歩させ、MIRにおけるシーケンスモデリングのためのコントラスト型SSLとトランスフォーマーを組み合わせた、見過ごされた能力に光を当てる。
関連論文リスト
- Is Attention Required for Transformer Inference? Explore Function-preserving Attention Replacement [13.38679135071682]
本稿では,事前学習したトランスフォーマーのすべての注意ブロックを学習可能なシーケンス・ツー・シーケンスモジュールに置き換える機能保存型アテンション・リプレースメントフレームワークを提案する。
DeiTビジョントランスファミリ上でFARを検証し、ImageNet上の元のモデルの精度と、パラメータとレイテンシを低減した複数の下流タスクとを一致させることを実証する。
論文 参考訳(メタデータ) (2025-05-24T02:23:46Z) - Mitigating Over-smoothing in Transformers via Regularized Nonlocal
Functionals [31.328766460487355]
変圧器の自己保持層は, 平滑化を促進する機能を最小限に抑え, トークンの均一性をもたらすことを示す。
本稿では, 自己注意からのスムーズな出力トークンと入力トークンとの差分を正規化して, トークンの忠実性を維持するための新たな正規化器を提案する。
我々は,トークン表現の過度な平滑化を低減するために,ベースライントランスフォーマーと最先端手法に対するNeuTRENOの利点を実証的に実証した。
論文 参考訳(メタデータ) (2023-12-01T17:52:47Z) - Supervised Masked Knowledge Distillation for Few-Shot Transformers [36.46755346410219]
そこで本稿では,少数のトランスフォーマーを対象としたSMKD(Supervised Masked Knowledge Distillation Model)を提案する。
従来の自己管理手法と比較して,クラストークンとパッチトークンの両方でクラス内知識蒸留が可能である。
簡単な設計による手法は,従来の手法を大きなマージンで上回り,新たなスタート・オブ・ザ・アーティファクトを実現する。
論文 参考訳(メタデータ) (2023-03-25T03:31:46Z) - Exploring Efficient Few-shot Adaptation for Vision Transformers [70.91692521825405]
そこで本稿では,Few-shot LearningタスクにおけるVTの微調整を容易にするトランスフォーマーチューニング(eTT)手法を提案する。
新しく発表されたAttentive Prefix Tuning(APT)とDomain Residual Adapter(DRA)の主な新機能
我々は,我々のモデルの有効性を示す広範囲な実験を行った。
論文 参考訳(メタデータ) (2023-01-06T08:42:05Z) - Patch-level Representation Learning for Self-supervised Vision
Transformers [68.8862419248863]
視覚変換器(ViT)は近年、より優れたアーキテクチャ選択として多くの注目を集めており、様々な視覚タスクにおいて畳み込みネットワークよりも優れています。
これに触発された私たちは、パッチレベルの表現をより良く学習するための、SelfPatchという、シンプルで効果的なビジュアルプリテキストタスクを設計しました。
我々は、既存のSSLメソッドの様々な視覚的タスクに対する性能を大幅に改善できることを実証した。
論文 参考訳(メタデータ) (2022-06-16T08:01:19Z) - Self-Promoted Supervision for Few-Shot Transformer [178.52948452353834]
SUN(Self-promoted sUpervisioN)は視覚変換器(ViT)のための数発の学習フレームワークである
SUNは、数ショットの学習データセットでViTを事前トレーニングし、各パッチトークンを導くために、個別のロケーション固有の監視を生成する。
実験によると、ViTを使ったSUNは、ViTを使った他の数発の学習フレームワークを大幅に上回っており、CNNの最先端技術よりも高いパフォーマンスを実現している。
論文 参考訳(メタデータ) (2022-03-14T12:53:27Z) - Stochastic Layers in Vision Transformers [85.38733795180497]
視覚変換器の完全な層を導入し,性能を著しく低下させることなく実現した。
この追加により、視覚機能の堅牢性が向上し、プライバシーが強化される。
私たちの機能は3つの異なるアプリケーション、すなわち、敵の堅牢性、ネットワークキャリブレーション、機能プライバシに使用しています。
論文 参考訳(メタデータ) (2021-12-30T16:07:59Z) - On Improving Adversarial Transferability of Vision Transformers [97.17154635766578]
視覚変換器(ViT)は、入力画像を、自己注意によるパッチのシーケンスとして処理する。
本稿では,ViTモデルの対角的特徴空間とその伝達性について検討する。
本稿では,ViTモデルのアーキテクチャに特有な2つの新しい戦略を紹介する。
論文 参考訳(メタデータ) (2021-06-08T08:20:38Z) - Less is More: Pay Less Attention in Vision Transformers [61.05787583247392]
注意の少ないvIsion Transformerは、畳み込み、完全接続層、自己アテンションが、画像パッチシーケンスを処理するためにほぼ同等な数学的表現を持つという事実に基づいている。
提案したLITは、画像分類、オブジェクト検出、インスタンス分割を含む画像認識タスクにおいて有望な性能を達成する。
論文 参考訳(メタデータ) (2021-05-29T05:26:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。