論文の概要: When Noise Lowers The Loss: Rethinking Likelihood-Based Evaluation in Music Large Language Models
- arxiv url: http://arxiv.org/abs/2602.02738v1
- Date: Mon, 02 Feb 2026 19:53:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-04 18:37:15.051226
- Title: When Noise Lowers The Loss: Rethinking Likelihood-Based Evaluation in Music Large Language Models
- Title(参考訳): ノイズが損失を下げる時:音楽大言語モデルにおける同義性に基づく評価を再考する
- Authors: Xiaosha Li, Chun Liu, Ziyu Wang,
- Abstract要約: 音楽大言語モデル(LLM)は、出力品質を評価する堅牢な方法を必要とする。
モデルが体系的に破損した音楽に遭遇し、独立した品質指標としての妥当性を損なうことを示す。
絶対値ではなく、損失曲線の形状は、生成されたコンテンツの品質に関する重要な情報を符号化します。
- 参考スコア(独自算出の注目度): 4.959996513415697
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rise of music large language models (LLMs) demands robust methods of evaluating output quality, especially in distinguishing high-quality compositions from "garbage music". Curiously, we observe that the standard cross-entropy loss -- a core training metric -- often decrease when models encounter systematically corrupted music, undermining its validity as a standalone quality indicator. To investigate this paradox, we introduce noise injection experiment, where controlled noise signal of varying lengths are injected into musical contexts. We hypothesize that a model's loss reacting positively to these perturbations, specifically a sharp increase ("Peak" area) for short injection, can serve as a proxy for its ability to discern musical integrity. Experiments with MusicGen models in the audio waveform domain confirm that Music LLMs respond more strongly to local, texture-level disruptions than to global semantic corruption. Beyond exposing this bias, our results highlight a new principle: the shape of the loss curve -- rather than its absolute value -- encodes critical information about the quality of the generated content (i.e., model behavior). We envision this profile-based evaluation as a label-free, model-intrinsic framework for assessing musical quality -- opening the door to more principled training objectives and sharper benchmarks.
- Abstract(参考訳): 音楽大言語モデル(LLM)の台頭は、特に高品質な作曲と「ガーベッジ・ミュージック」の区別において、出力品質を評価する堅牢な方法を要求する。
奇妙なことに、標準的なクロスエントロピー損失(コアトレーニング指標)は、組織的に破損した音楽に遭遇したモデルによってしばしば減少し、独立した品質指標としての妥当性を損なう。
このパラドックスを解析するために、様々な長さの制御されたノイズ信号を音楽的文脈に注入するノイズ注入実験を導入する。
これらの摂動に正に反応するモデルの損失、特に短い注入のための急激な増加(ピーク領域)は、その音楽的整合性を見極めるためのプロキシとして機能する、という仮説を立てる。
オーディオ波形領域におけるMusicGenモデルによる実験により、音楽LLMはグローバルなセマンティックな腐敗よりも、局所的、テクスチャレベルの破壊に強く反応することを確認した。
絶対値ではなく損失曲線の形状は、生成されたコンテンツの品質(すなわちモデル行動)に関する重要な情報を符号化します。
我々は、このプロファイルに基づく評価を、より原則化されたトレーニング目標とよりシャープなベンチマークへの扉を開く、音楽品質を評価するためのラベルのないモデル固有のフレームワークとして想定する。
関連論文リスト
- Lost in the Noise: How Reasoning Models Fail with Contextual Distractors [57.31788955167306]
推論モデルとエージェントAIシステムの最近の進歩は、多様な外部情報への依存度を高めている。
NoisyBenchは、RAGの11のデータセット、推論、アライメント、ツール使用タスクに対して、モデルロバスト性を体系的に評価する包括的なベンチマークである。
評価の結果,文脈的障害に直面した場合,最先端モデルでは最大80%の破滅的な性能低下がみられた。
論文 参考訳(メタデータ) (2026-01-12T05:43:51Z) - WoW-Bench: Evaluating Fine-Grained Acoustic Perception in Audio-Language Models via Marine Mammal Vocalizations [67.6147632074449]
海洋哺乳動物の発声を用いた低レベルの聴覚知覚と認知を評価するために,WoW-Benchベンチマーク(World-of-Whale benchmark)を導入した。
WoW-Benchは、新しい音を分類するための知覚ベンチマークと、ブルームの分類学にインスパイアされた認知ベンチマークで構成され、音の出来事を記憶、理解、応用、分析する能力を評価する。
最先端のLALMを用いた実験は、人間のレベルよりもはるかに低い性能を示し、LALMのより強力な聴覚的接地の必要性を示している。
論文 参考訳(メタデータ) (2025-08-28T16:29:46Z) - Machine Unlearning for Robust DNNs: Attribution-Guided Partitioning and Neuron Pruning in Noisy Environments [5.8166742412657895]
ディープニューラルネットワーク(DNN)は、さまざまなドメインで顕著な成功を収めているが、ノイズやトレーニングデータによってそのパフォーマンスが著しく低下する可能性がある。
本稿では,帰属誘導型データパーティショニング,識別的ニューロンプルーニング,およびノイズのあるサンプルの影響を軽減するための微調整を目的とした新しいフレームワークを提案する。
CIFAR-10の標準リトレーニングよりも約10%の絶対精度向上を実現し,ラベルノイズを注入した。
論文 参考訳(メタデータ) (2025-06-13T09:37:11Z) - Impact of Noisy Supervision in Foundation Model Learning [91.56591923244943]
本論文は、事前学習データセットにおけるノイズの性質を包括的に理解し分析する最初の研究である。
雑音の悪影響を緩和し、一般化を改善するため、特徴空間に適応するチューニング法(NMTune)を提案する。
論文 参考訳(メタデータ) (2024-03-11T16:22:41Z) - High Perceptual Quality Image Denoising with a Posterior Sampling CGAN [31.42883613312055]
条件付き生成逆数ネットワーク(CGAN)を用いた画像認識の新しい手法を提案する。
私たちの目標は、許容できる歪みで高い知覚品質を達成することです。
提案手法は, 改質消音目標を達成し, 不動騒音レベルで鮮やかで多様な結果を生み出す, 斬新な消音アーキテクチャで紹介する。
論文 参考訳(メタデータ) (2021-03-06T20:18:45Z) - Music FaderNets: Controllable Music Generation Based On High-Level
Features via Low-Level Feature Modelling [5.88864611435337]
限られたデータ量で高レベルの特徴表現を学習できるフレームワークを提案する。
提案するフレームワークをMusic FaderNetsと呼び,低レベルの属性を継続的に操作できるという事実から着想を得た。
本モデルでは, 覚醒特性とそれに対応する低レベル属性の固有関係をうまく学習できることを実証する。
論文 参考訳(メタデータ) (2020-07-29T16:01:45Z) - Perceiving Music Quality with GANs [0.0]
本研究では,大規模な音楽ライブラリ上でGANを訓練し,その判別器を音楽の知覚品質の非参照品質評価尺度として用いることを提案する。
448人の被験者による聴取テストにおいて、被験者は、異なるレベルと種類の信号劣化で、プロが制作した音楽トラックを格付けし、人間の格付けされた素材のデータセットを構築した。
人間の評価データセットを用いて、判別器のスコアが主観的評価と大きく相関していることを示し、提案手法が非参照音質評価尺度の作成に有効であることが示唆された。
論文 参考訳(メタデータ) (2020-06-11T09:45:54Z) - Audio Impairment Recognition Using a Correlation-Based Feature
Representation [85.08880949780894]
本稿では,特徴対の相関に基づく手作り特徴の新しい表現を提案する。
実験段階において,コンパクトな特徴次元と計算速度の向上の観点から,優れた性能を示す。
論文 参考訳(メタデータ) (2020-03-22T13:34:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。