論文の概要: Unify Variables in Neural Scaling Laws for General Audio Representations via Embedding Effective Rank
- arxiv url: http://arxiv.org/abs/2510.10948v1
- Date: Mon, 13 Oct 2025 02:58:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 18:06:30.166073
- Title: Unify Variables in Neural Scaling Laws for General Audio Representations via Embedding Effective Rank
- Title(参考訳): 有効ランクの埋め込みによる一般音声表現のためのニューラルスケーリング法における変数の統一
- Authors: Xuyao Deng, Yanjie Sun, Yong Dou, Kele Xu,
- Abstract要約: 一般的な音声表現表現の質は、オーディオ長、埋め込み次元、モデル深さ、モデルアーキテクチャ、データボリュームなどの変数に共同で影響される。
本研究では,埋め込み有効ランク(RankMe)を統一計量として利用することにより,一般的な音声表現のスケーリング法則を体系的に研究する。
実験の結果,RangeMeと表現品質との間には一貫したパワー-ロー関係がみられ,音声表現学習におけるモデル性能の評価・予測のための信頼性の高いプロキシとして有効であることが示唆された。
- 参考スコア(独自算出の注目度): 33.09583978598707
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Scaling laws have profoundly shaped our understanding of model performance in computer vision and natural language processing, yet their application to general audio representation learning remains underexplored. A key challenge lies in the multifactorial nature of general audio representation-representation quality is jointly influenced by variables such as audio length, embedding dimensionality, model depth, model architecture, data volume, etc., many of which are difficult to isolate or express analytically. In this work, we present a systematic study of scaling laws for general audio representations by utilizing embedding effective rank (RankMe) as a unifying metric that encapsulates the impact of diverse variables on representation quality. RankMe enables a label-free, information-theoretic quantification of audio embeddings, allowing us to examine scaling behaviors across a wide hyper-parameter space, including model size, training data volume, computational budget, architectural configurations, etc. Our empirical findings reveal a consistent power-law relationship between RankMe and representation quality, suggesting that embedding effective rank serves as a reliable proxy for assessing and predicting model performance in audio representation learning. This work not only validates the applicability of classical scaling principles to the general audio domain but also offers a theoretically grounded and empirically robust framework for guiding future model scaling strategies in audio foundation models.
- Abstract(参考訳): スケーリング法則は、コンピュータビジョンと自然言語処理におけるモデルパフォーマンスに対する我々の理解を大いに形作っているが、一般的な音声表現学習への応用はいまだ研究されていない。
一般的な音声表現の表現品質の多因子的性質は、音響長、埋め込み次元、モデル深度、モデルアーキテクチャ、データボリュームなどの変数に共同で影響され、その多くが分離または解析的に表現することが困難である。
本研究では,様々な変数が表現品質に与える影響をカプセル化する統一尺度として,埋め込み有効ランク(RankMe)を利用して,一般的な音声表現のスケーリング法則を体系的に研究する。
RankMeは、ラベルのない情報理論によるオーディオ埋め込みの定量化を可能にし、モデルサイズ、トレーニングデータボリューム、計算予算、アーキテクチャ構成など、幅広いハイパーパラメータ空間にわたるスケーリングの挙動を調べることができる。
実験の結果,RangeMeと表現品質との間には一貫したパワー-ロー関係がみられ,音声表現学習におけるモデル性能の評価・予測のための信頼性の高いプロキシとして有効であることが示唆された。
この研究は、古典的なスケーリング原則が一般的なオーディオ領域に適用可能であることを検証するだけでなく、オーディオ基礎モデルにおける将来のモデルスケーリング戦略を導くための理論的基盤と経験的に堅牢なフレームワークを提供する。
関連論文リスト
- Measuring the Robustness of Audio Deepfake Detectors [59.09338266364506]
この研究は、16の一般的な汚職に対する10のオーディオディープフェイク検出モデルの頑健さを体系的に評価する。
従来のディープラーニングモデルと最先端の基礎モデルの両方を用いて、4つのユニークな観察を行う。
論文 参考訳(メタデータ) (2025-03-21T23:21:17Z) - Investigating Disentanglement in a Phoneme-level Speech Codec for Prosody Modeling [39.80957479349776]
本稿では,RVQ-VAEモデルの離散空間の韻律モデリング機能について検討し,音素レベルでの操作を可能とした。
音素レベルの離散潜在表現は, 頑健かつ伝達可能な微細な韻律情報を捕捉し, 高いアンタングル化を実現することを示す。
論文 参考訳(メタデータ) (2024-09-13T09:27:05Z) - Learning Disentangled Speech Representations [0.412484724941528]
SynSpeechは、非絡み合った音声表現の研究を可能にするために設計された、新しい大規模合成音声データセットである。
本稿では, 線形探索と教師付きアンタングル化指標を併用して, アンタングル化表現学習手法を評価する枠組みを提案する。
SynSpeechは、さまざまな要因のベンチマークを促進し、ジェンダーや話し方のようなより単純な機能の切り離しを期待できると同時に、話者アイデンティティのような複雑な属性を分離する際の課題を強調します。
論文 参考訳(メタデータ) (2023-11-04T04:54:17Z) - XAI-based Comparison of Input Representations for Audio Event
Classification [10.874097312428235]
我々はeXplainable AI(XAI)を活用し、異なる入力表現に基づいて訓練されたモデルの基本的な分類戦略を理解する。
具体的には、オーディオイベント検出に使用される関連する入力機能について、2つのモデルアーキテクチャを比較した。
論文 参考訳(メタデータ) (2023-04-27T08:30:07Z) - ASiT: Local-Global Audio Spectrogram vIsion Transformer for Event
Classification [42.95038619688867]
ASiTは、グループマスク付きモデル学習と自己蒸留を用いて、局所的およびグローバルな文脈情報をキャプチャする、新しい自己教師型学習フレームワークである。
我々は、音声イベント分類、キーワードスポッティング、話者識別を含む音声および音声の分類タスクにおいて、事前訓練されたモデルを評価する。
論文 参考訳(メタデータ) (2022-11-23T18:21:09Z) - Representation Learning for the Automatic Indexing of Sound Effects
Libraries [79.68916470119743]
タスク固有のがデータセットに依存しない表現は、クラス不均衡、一貫性のないクラスラベル、不十分なデータセットサイズなどのデータ問題にうまく対処できることを示す。
詳細な実験結果は、メトリック学習アプローチと異なるデータセット間の学習方法が表現効率に与える影響を示している。
論文 参考訳(メタデータ) (2022-08-18T23:46:13Z) - An Empirical Investigation of Commonsense Self-Supervision with
Knowledge Graphs [67.23285413610243]
大規模知識グラフから抽出した情報に基づく自己監督は、言語モデルの一般化を改善することが示されている。
本研究では,言語モデルに適用可能な合成データを生成するための知識サンプリング戦略とサイズの影響について検討する。
論文 参考訳(メタデータ) (2022-05-21T19:49:04Z) - Self-Supervised Learning for speech recognition with Intermediate layer
supervision [52.93758711230248]
自己教師付き学習(ILS-SSL)のための中間層スーパービジョンを提案する。
ILS-SSLは、中間層にSSL損失を追加することで、可能な限りコンテンツ情報に集中させます。
LibriSpeech の他のテストセットの実験により,本手法は HuBERT を著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2021-12-16T10:45:05Z) - General-Purpose Speech Representation Learning through a Self-Supervised
Multi-Granularity Framework [114.63823178097402]
本稿では,汎用音声表現学習のための自己教師型学習フレームワーク MGF を提案する。
具体的には、生成学習手法を用いて、小さな時間スケールできめ細かい情報を捕捉し、識別学習手法を用いて、粗い情報や意味情報を大規模に蒸留することを提案する。
論文 参考訳(メタデータ) (2021-02-03T08:13:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。