論文の概要: Linear Complexity Self-Supervised Learning for Music Understanding with Random Quantizer
- arxiv url: http://arxiv.org/abs/2601.09603v1
- Date: Wed, 14 Jan 2026 16:23:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-15 18:59:20.466909
- Title: Linear Complexity Self-Supervised Learning for Music Understanding with Random Quantizer
- Title(参考訳): ランダム量子化器を用いた音楽理解のための線形複雑性自己教師付き学習
- Authors: Petros Vavaroutsos, Theodoros Palamas, Pantelis Vikatos,
- Abstract要約: 本稿では,音楽情報検索(MIR)タスクに適用した場合のファンデーションのモデルサイズ削減に焦点をあてる。
本研究は,まず音声認識に応用したSessionMixingと,ランダムな量子化プロセスを組み合わせたブランチフォーマーアーキテクチャを組み合わせたものである。
我々のアーキテクチャは,他の最先端モデルと比較して,競争性能が向上することを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In recent years, foundation models have become very popular due to their exceptional performance, mainly in natural language (NLP) tasks where they were first introduced. These models usually consist of hundreds of millions, or even billions, of parameters, making them resource-intensive during training and in production systems, leading to increased costs. This paper focuses on the reduction of a foundation's model size when applied to music information retrieval (MIR) tasks. Our research combines the Branchformer architecture with SummaryMixing, which were first applied in speech recognition, along with a random quantization process. To facilitate reproducibility, we conduct pre-training on publicly available datasets, complemented by a proprietary dataset comparable in scale to other private datasets reported in the literature. We ensure robust evaluation by using a framework consisting of a variety of downstream MIR tasks. Our results show that our architecture achieves competitive performance when compared with other state-of-the-art models that use multi-head self-attention, while reducing the model size from 8.5% up to 12.3%.
- Abstract(参考訳): 近年,自然言語(NLP)タスクに特有な性能を持つファンデーションモデルが注目されている。
これらのモデルは通常、数億、あるいは数十億のパラメータで構成され、トレーニングや運用システムにおいてリソース集約化され、コストが増大する。
本稿では,音楽情報検索(MIR)タスクに適用した場合のファンデーションのモデルサイズ削減に焦点をあてる。
本研究は,まず音声認識に応用したSessionMixingと,ランダムな量子化プロセスを組み合わせたブランチフォーマーアーキテクチャを組み合わせたものである。
再現性を高めるために、文献で報告されている他のプライベートデータセットに匹敵する規模でプロプライエタリなデータセットを補完する、公開データセットの事前トレーニングを実施します。
我々は、様々な下流MIRタスクからなるフレームワークを用いて、ロバストな評価を保証する。
我々のアーキテクチャは,マルチヘッド自己注意を用いた他の最先端モデルと比較して,8.5%から12.3%に縮小した上で,競争性能を実現していることを示す。
関連論文リスト
- From Limited Data to Rare-event Prediction: LLM-powered Feature Engineering and Multi-model Learning in Venture Capital [0.0]
本稿では,大規模言語モデル (LLM) とマルチモデル機械学習 (ML) アーキテクチャを統合することで,希少かつ高インパクトな結果を予測する枠組みを提案する。
構造化されていないデータから複雑な信号を抽出・合成するために,LLMを利用した特徴工学を用いる。
我々はこのフレームワークをVC(Venture Capital)の分野に適用し、投資家は限られた、騒々しいアーリーステージデータでスタートアップを評価する必要がある。
論文 参考訳(メタデータ) (2025-09-09T20:46:54Z) - MAmmoTH-VL: Eliciting Multimodal Reasoning with Instruction Tuning at Scale [66.73529246309033]
MLLM(Multimodal large language model)は、多モーダルタスクにおいて大きな可能性を秘めている。
既存の命令チューニングデータセットは、中間的合理性のないフレーズレベルの答えのみを提供する。
そこで本研究では,大規模マルチモーダル・インストラクション・チューニング・データセットを構築するためのスケーラブルで費用対効果の高い手法を提案する。
論文 参考訳(メタデータ) (2024-12-06T18:14:24Z) - An Empirical Study of Multimodal Model Merging [148.48412442848795]
モデルマージは、異なるタスクでトレーニングされた複数のモデルを融合してマルチタスクソリューションを生成するテクニックである。
我々は、モダリティ固有のアーキテクチャのビジョン、言語、およびクロスモーダルトランスフォーマーをマージできる新しい目標に向けて研究を行っている。
本稿では,重み間の距離を推定し,マージ結果の指標となる2つの指標を提案する。
論文 参考訳(メタデータ) (2023-04-28T15:43:21Z) - Cross-Modal Fine-Tuning: Align then Refine [83.37294254884446]
ORCAはクロスモーダルな微調整フレームワークであり、単一の大規模事前訓練モデルの適用範囲を様々に拡張する。
ORCAは12のモダリティから60以上のデータセットを含む3つのベンチマークで最先端の結果を得る。
論文 参考訳(メタデータ) (2023-02-11T16:32:28Z) - Few-Shot Named Entity Recognition: A Comprehensive Study [92.40991050806544]
マルチショット設定のモデル一般化能力を向上させるための3つの手法を検討する。
ラベル付きデータの比率の異なる10の公開nerデータセットについて経験的比較を行う。
マルチショットとトレーニングフリーの両方の設定で最新の結果を作成します。
論文 参考訳(メタデータ) (2020-12-29T23:43:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。