論文の概要: MuCPT: Music-related Natural Language Model Continued Pretraining
- arxiv url: http://arxiv.org/abs/2511.14245v1
- Date: Tue, 18 Nov 2025 08:33:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-19 16:23:53.009553
- Title: MuCPT: Music-related Natural Language Model Continued Pretraining
- Title(参考訳): MuCPT:音楽関連自然言語モデルの事前訓練継続
- Authors: Kai Tian, Yirong Mao, Wendong Bi, Hanjie Wang, Que Wenhui,
- Abstract要約: 我々は、オープンソースのデータと社内データを組み合わせた大規模な音楽関連自然言語コーパス(40Bトークン)を構築します。
また、基準モデル(RM)に基づくトークンレベルのソフトスコアリングを導入し、品質管理を行う。
全体として、この作業は適切なコーパスと適切な目的の両方を前進させ、スケーラブルなデータトレーニングフレームワークを提供する。
- 参考スコア(独自算出の注目度): 2.2288022262475873
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models perform strongly on general tasks but remain constrained in specialized settings such as music, particularly in the music-entertainment domain, where corpus scale, purity, and the match between data and training objectives are critical. We address this by constructing a large, music-related natural language corpus (40B tokens) that combines open source and in-house data, and by implementing a domain-first data pipeline: a lightweight classifier filters and weights in-domain text, followed by multi-stage cleaning, de-duplication, and privacy-preserving masking. We further integrate multi-source music text with associated metadata to form a broader, better-structured foundation of domain knowledge. On the training side, we introduce reference-model (RM)-based token-level soft scoring for quality control: a unified loss-ratio criterion is used both for data selection and for dynamic down-weighting during optimization, reducing noise gradients and amplifying task-aligned signals, thereby enabling more effective music-domain continued pretraining and alignment. To assess factuality, we design the MusicSimpleQA benchmark, which adopts short, single-answer prompts with automated agreement scoring. Beyond the benchmark design, we conduct systematic comparisons along the axes of data composition. Overall, this work advances both the right corpus and the right objective, offering a scalable data-training framework and a reusable evaluation tool for building domain LLMs in the music field.
- Abstract(参考訳): 大規模言語モデルは、一般的なタスクで強く機能するが、特にコーパススケール、純粋さ、データとトレーニング目標との一致が重要となる音楽エンターテイメント領域において、音楽のような特殊な設定で制約される。
我々は、オープンソースのデータと社内データを組み合わせた大規模な音楽関連自然言語コーパス(40Bトークン)を構築し、ドメインファーストのデータパイプラインを実装することで、この問題に対処する。
さらに,マルチソース音楽テキストを関連メタデータと統合し,ドメイン知識のより広範な,より構造化された基盤を形成する。
トレーニング側では、基準モデルに基づく品質制御のためのトークンレベルのソフトスコアリングを導入し、データ選択と最適化中の動的ダウンウェイト化、ノイズ勾配の低減、タスク整列信号の増幅の両方に統一的なロス比基準を適用し、より効果的な音楽領域の事前訓練とアライメントを可能にする。
事実性を評価するため,単問合せプロンプトを短時間で自動スコアリングするMusicSimpleQAベンチマークを設計した。
ベンチマーク設計の他に、データ合成の軸に沿って体系的な比較を行う。
全体として、この研究は適切なコーパスと適切な目的の両方を推進し、スケーラブルなデータトレーニングフレームワークと、音楽分野におけるドメインLLMを構築するための再利用可能な評価ツールを提供する。
関連論文リスト
- RecBase: Generative Foundation Model Pretraining for Zero-Shot Recommendation [78.01030342481246]
RecBaseは、レコメンデーション指向の目的によって事前訓練されたドメインに依存しない基礎モデルである。
アイテムを階層的な概念識別子にエンコードする統一されたアイテムトークンを導入します。
我々のモデルは、ゼロショットおよびクロスドメインレコメンデーションタスクにおいて、LLMのベースラインの最大7Bパラメータのパフォーマンスを一致または超過します。
論文 参考訳(メタデータ) (2025-09-03T08:33:43Z) - MUST-RAG: MUSical Text Question Answering with Retrieval Augmented Generation [6.903890310699392]
MusT-RAG - Retrieval Augmented Generation (RAG)に基づく包括的なフレームワーク
MusWikiDBは、検索段階のための音楽特化ベクターデータベースである。
実験の結果,MusT-RAGはLLMの音楽領域適応能力を向上する従来の微調整手法よりも優れていた。
論文 参考訳(メタデータ) (2025-07-31T08:31:05Z) - CrossMuSim: A Cross-Modal Framework for Music Similarity Retrieval with LLM-Powered Text Description Sourcing and Mining [15.58671300364536]
本稿では,音楽類似性モデリングの指針となる,新しいクロスモーダルコントラスト学習フレームワークを提案する。
高品質なテキストと音楽のペアリングデータの不足を克服するため,本稿では,デュアルソースデータ取得手法を提案する。
実験により、提案されたフレームワークは既存のベンチマークよりも大幅にパフォーマンスが向上していることが示された。
論文 参考訳(メタデータ) (2025-03-29T15:43:09Z) - Semantic Library Adaptation: LoRA Retrieval and Fusion for Open-Vocabulary Semantic Segmentation [72.28364940168092]
オープン語彙セマンティックセグメンテーションモデルは、視覚とテキストを関連付け、テキストクエリを使用して未定義のクラスの集合からピクセルをラベル付けする。
本稿では,セマンティックライブラリ適応(Semantic Library Adaptation, SemLA)を紹介する。
論文 参考訳(メタデータ) (2025-03-27T17:59:58Z) - In-depth analysis of music structure as a text network [7.735597173716555]
音楽の基本的要素に着目し,自然言語としての音楽の観点から進化的ネットワークを構築する。
我々は,様々な時代の音楽の構造的差異を理解することを目指しており,より科学的に音楽を探究することができる。
論文 参考訳(メタデータ) (2023-03-21T08:39:56Z) - Exploring the Efficacy of Pre-trained Checkpoints in Text-to-Music
Generation Task [86.72661027591394]
テキスト記述から完全で意味論的に一貫したシンボリック音楽の楽譜を生成する。
テキスト・音楽生成タスクにおける自然言語処理のための公開チェックポイントの有効性について検討する。
実験結果から, BLEUスコアと編集距離の類似性において, 事前学習によるチェックポイントの使用による改善が統計的に有意であることが示唆された。
論文 参考訳(メタデータ) (2022-11-21T07:19:17Z) - Towards Context-Aware Neural Performance-Score Synchronisation [2.0305676256390934]
音楽の同期は、音楽の複数の表現を統一的にナビゲートする手段を提供する。
従来の同期手法は知識駆動と性能分析のアプローチを用いてアライメントを計算する。
このPhDは、データ駆動型コンテクスト対応アライメントアプローチの提案により、パフォーマンススコア同期の研究をさらに進める。
論文 参考訳(メタデータ) (2022-05-31T16:45:25Z) - Unified Instance and Knowledge Alignment Pretraining for Aspect-based
Sentiment Analysis [96.53859361560505]
Aspect-based Sentiment Analysis (ABSA) は、ある側面に対する感情の極性を決定することを目的としている。
事前トレーニングと下流ABSAデータセットの間には、常に深刻なドメインシフトが存在する。
我々は,バニラ・プレトレイン・ファインチューンパイプラインにアライメント事前訓練フレームワークを導入する。
論文 参考訳(メタデータ) (2021-10-26T04:03:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。