論文の概要: PHALAR: Phasors for Learned Musical Audio Representations
- arxiv url: http://arxiv.org/abs/2605.03929v1
- Date: Tue, 05 May 2026 16:19:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-06 19:35:44.027899
- Title: PHALAR: Phasors for Learned Musical Audio Representations
- Title(参考訳): PHALAR:学習音楽音声表現のためのファサード
- Authors: Davide Marincione, Michele Mancusi, Giorgio Strano, Luca Cerovaz, Donato Crisostomi, Roberto Ribuoli, Emanuele Rodolà,
- Abstract要約: PHALARは,最先端技術に対して,相対的精度を最大70%まで向上させるコントラストフレームワークである。
PHALARはピッチ同変バイアスと位相同変バイアスを強制する。
MoisesDB、Slakh、ChocoChoralesにまたがる新たな検索状態を確立し、セマンティックベースラインよりも人間のコヒーレンス判断と大きく関連している。
- 参考スコア(独自算出の注目度): 16.57010987785669
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Stem retrieval, the task of matching missing stems to a given audio submix, is a key challenge currently limited by models that discard temporal information. We introduce PHALAR, a contrastive framework achieving a relative accuracy increase of up to $\approx 70\%$ over the state-of-the-art while requiring $<50\%$ of the parameters and a 7$\times$ training speedup. By utilizing a Learned Spectral Pooling layer and a complex-valued head, PHALAR enforces pitch-equivariant and phase-equivariant biases. PHALAR establishes new retrieval state-of-the-art across MoisesDB, Slakh, and ChocoChorales, correlating significantly higher with human coherence judgment than semantic baselines. Finally, zero-shot beat tracking and linear chord probing confirm that PHALAR captures robust musical structures beyond the retrieval task.
- Abstract(参考訳): ステレオ検索は、特定の音声サブミックスに欠落した幹をマッチングするタスクであり、現在、時間情報を捨てるモデルによって制限されている重要な課題である。
我々は、パラメータの$<50\%と7$\times$のトレーニングスピードアップを必要としながら、最先端技術に対して最大$\approx 70\%の相対的精度向上を達成する対照的なフレームワークであるPHALARを紹介した。
Learned Spectral Pooling層と複雑な値を持つヘッドを利用することで、PHALARはピッチ同変と位相同変のバイアスを強制する。
PHALARは、MoisesDB、Slakh、ChocoChoralesにまたがる新たな検索状態を確立し、意味的ベースラインよりも人間のコヒーレンス判断と大きく関連している。
最後に、ゼロショットビート追跡と線形コード探索により、PHALARが検索タスクを超えて頑健な音楽構造を捕捉することを確認した。
関連論文リスト
- When Scaling Fails: Mitigating Audio Perception Decay of LALMs via Multi-Step Perception-Aware Reasoning [49.28390630057018]
構造化推論軌道のポストトレーニングモデルは、直接応答のポストトレーニングと比較して、限界あるいは負の利得をもたらす。
MPAR$2$は、動的知覚的推論を奨励し、複雑な質問を知覚に富んだサブプロブレムに分解するパラダイムである。
論文 参考訳(メタデータ) (2026-02-28T12:54:51Z) - PACE: Pretrained Audio Continual Learning [27.605574463021693]
事前学習モデル(PTM)を用いた音声連続学習(CL)のための最初の体系的ベンチマークを提案する。
さらに、スペクトルに基づく境界認識摂動を導入し、表現の重なりを緩和し、安定性を向上させる。
6つの多様なオーディオCLベンチマークの実験は、PACEが最先端のベースラインを大幅に上回っていることを示している。
論文 参考訳(メタデータ) (2026-02-03T10:28:35Z) - PDR: A Plug-and-Play Positional Decay Framework for LLM Pre-training Data Detection [30.13331191100816]
大規模言語モデル(LLM)における事前学習データを検出するトレーニングフリーでプラグアンドプレイのフレームワークであるPDRを導入する。
PDRはトークンレベルのスコアを明示的に強調し、初期位置からの異なる信号を増幅し、後の位置からのノイズを抑制する。
論文 参考訳(メタデータ) (2026-01-11T09:32:13Z) - Mixture of Noise for Pre-Trained Model-Based Class-Incremental Learning [59.635264288605946]
クラスインクリメンタルラーニング(CIL)は,旧来の知識を維持しつつ,新たなカテゴリを継続的に学習することを目的としている。
バックボーンに軽量な微調整を適用する既存のアプローチは、依然としてドリフトを誘発する。
バックボーン一般化の劣化を軽減し,新しいタスクを適応させることを目的として,Mixture of Noise (Min)を提案する。
論文 参考訳(メタデータ) (2025-09-20T16:07:20Z) - Impact of time-retarded noise on dynamical decoupling schemes for qubits [0.0]
本稿では,時間的フィードバックを伴って,幅広い現実的なノイズ源について検討する。
DDは、キュービット演算のデコヒーレンスを抑制するための最も単純かつリソース集約的な手法の1つである。
DDスキームについて、ラムゼー列の1つの量子ビットのプルースとハーンエコー(HE)列を含まない動力学についても検討した。
論文 参考訳(メタデータ) (2024-08-14T09:23:49Z) - T-CLAP: Temporal-Enhanced Contrastive Language-Audio Pretraining [38.604112878493396]
コントラスト言語-オーディオ事前学習(CLAP)は、音声と言語の表現を整合させるために開発された。
音声とテキストの特徴の時間的情報を取得するために,時間的拡張CLAPモデルであるT-CLAPを導入する。
T-CLAPは、音の事象の時間的関係を捉え、最先端のモデルよりも顕著に優れていることを示す。
論文 参考訳(メタデータ) (2024-04-27T07:05:48Z) - CLeaRForecast: Contrastive Learning of High-Purity Representations for
Time Series Forecasting [2.5816901096123863]
時系列予測(TSF)は現代社会において重要であり、多くの領域にまたがっている。
従来の表現学習に基づくTSFアルゴリズムは、典型的には、分離された傾向周期表現を特徴とする対照的な学習パラダイムを取り入れている。
CLeaRForecastは,高純度時系列表現をサンプル,特徴量,アーキテクチャ浄化手法を用いて学習するための,新しいコントラスト学習フレームワークである。
論文 参考訳(メタデータ) (2023-12-10T04:37:43Z) - RRHF: Rank Responses to Align Language Models with Human Feedback
without tears [69.68672043223249]
InstructGPTは、SFT(Supervised Fine-Tuning)、報酬モデルトレーニング、PPO(Proximal Policy Optimization)など、いくつかの段階を通じてRLHFを実装している。
本稿では,条件付き確率の対数を用いて,異なるソースからのサンプル応答をスコアするRRHFという新しい学習パラダイムを提案する。
我々は、Helpful and Harmlessデータセット上でRRHFを評価し、報酬モデルスコアと人間ラベルによるPPOと同等のアライメント性能を示す。
論文 参考訳(メタデータ) (2023-04-11T15:53:40Z) - An Experimental Study on Private Aggregation of Teacher Ensemble
Learning for End-to-End Speech Recognition [51.232523987916636]
差分プライバシー(DP)は、プライバシーデータにノイズのある歪みを課すことで、深層モデルのトレーニングに使用されるユーザー情報を保護するための1つのデータ保護手段である。
本研究では、PATE学習を動的パターン、すなわち音声を扱うように拡張し、音響データの漏洩を避けるために、ASRに関する最初の実験を行う。
論文 参考訳(メタデータ) (2022-10-11T16:55:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。