論文の概要: Preference-Based Learning in Audio Applications: A Systematic Analysis
- arxiv url: http://arxiv.org/abs/2511.13936v1
- Date: Mon, 17 Nov 2025 21:42:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-19 16:23:52.812489
- Title: Preference-Based Learning in Audio Applications: A Systematic Analysis
- Title(参考訳): オーディオアプリケーションにおける嗜好に基づく学習 : 体系的分析
- Authors: Aaron Broukhim, Yiran Shen, Prithviraj Ammanabrolu, Nadir Weibel,
- Abstract要約: 音声アプリケーションでは、嗜好学習が著しく過小評価されている。
この結果から,選好学習は音声に有望であることを示す一方で,標準化されたベンチマーク,高品質なデータセット,時間的要因が選好学習の枠組みにどう影響するかを体系的に調査する必要があることが示唆された。
- 参考スコア(独自算出の注目度): 17.826591259820873
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite the parallel challenges that audio and text domains face in evaluating generative model outputs, preference learning remains remarkably underexplored in audio applications. Through a PRISMA-guided systematic review of approximately 500 papers, we find that only 30 (6%) apply preference learning to audio tasks. Our analysis reveals a field in transition: pre-2021 works focused on emotion recognition using traditional ranking methods (rankSVM), while post-2021 studies have pivoted toward generation tasks employing modern RLHF frameworks. We identify three critical patterns: (1) the emergence of multi-dimensional evaluation strategies combining synthetic, automated, and human preferences; (2) inconsistent alignment between traditional metrics (WER, PESQ) and human judgments across different contexts; and (3) convergence on multi-stage training pipelines that combine reward signals. Our findings suggest that while preference learning shows promise for audio, particularly in capturing subjective qualities like naturalness and musicality, the field requires standardized benchmarks, higher-quality datasets, and systematic investigation of how temporal factors unique to audio impact preference learning frameworks.
- Abstract(参考訳): 生成モデル出力の評価において、音声とテキストドメインが直面する並列的な課題にもかかわらず、好みの学習は、オーディオアプリケーションにおいて明らかに過小評価されている。
PRISMAによる約500の論文の体系的レビューを通じて、音声タスクに好み学習を適用するのは30(6%)のみであることがわかった。
2021年以前の研究は従来のランク付け手法(rankSVM)を用いた感情認識に焦点を当てており、2021年以降の研究は現代のRLHFフレームワークを用いた生成タスクに転換している。
我々は,(1)合成,自動化,ヒトの嗜好を組み合わせた多次元評価戦略の出現,(2)従来の指標(WER, PESQ)と異なる文脈における人間の判断の不整合,(3)報酬信号を組み合わせた多段階訓練パイプラインの収束,の3つの重要なパターンを同定した。
以上の結果から,特に自然性や音楽性といった主観的品質の獲得において,選好学習がオーディオに有望であることを示す一方で,標準ベンチマーク,高品質なデータセット,時間的要因が選好学習の枠組みにどのように影響するかを体系的に調査する必要があることが示唆された。
関連論文リスト
- AudioJudge: Understanding What Works in Large Audio Model Based Speech Evaluation [55.607230723223346]
本研究は,Large Audio Model (LAM) をAudioJudgeの裁判官として体系的に研究し,両課題に対処する統一評価フレームワークを提供することができるかどうかを検討する。
本稿では、発音、発話速度、話者識別、音声品質、自動ベンチマークのためのシステムレベルの人間の嗜好シミュレーションなど、音声特徴検出タスクにまたがるAudioJudgeについて検討する。
本稿では,多視点アンサンブルAudioJudgeを導入し,音声評価を語彙内容,音声品質,パラ言語特徴の専門判断者に分解し,人間の嗜好と最大0.91のスピアマン相関を達成させる手法を提案する。
論文 参考訳(メタデータ) (2025-07-17T00:39:18Z) - Where are we in audio deepfake detection? A systematic analysis over generative and detection models [59.09338266364506]
SONARはAI-Audio Detection FrameworkとBenchmarkの合成である。
最先端のAI合成聴覚コンテンツを識別するための総合的な評価を提供する。
従来のモデルベース検出システムと基礎モデルベース検出システムの両方で、AIオーディオ検出を均一にベンチマークする最初のフレームワークである。
論文 参考訳(メタデータ) (2024-10-06T01:03:42Z) - Speechworthy Instruction-tuned Language Models [71.8586707840169]
提案手法は,学習の促進と嗜好の両面において,一般的な命令調整型LLMの音声適合性の向上を図っている。
我々は,各手法が生成した応答の音声適合性向上にどのように貢献するかを示すために,語彙的,構文的,定性的な分析を共有する。
論文 参考訳(メタデータ) (2024-09-23T02:34:42Z) - MLCA-AVSR: Multi-Layer Cross Attention Fusion based Audio-Visual Speech Recognition [62.89464258519723]
異なるレベルのオーディオ/視覚エンコーダに融合することで、各モードの表現を促進する多層クロスアテンション融合に基づくAVSR手法を提案する。
提案手法は第1位システムを超え,新たなSOTA cpCERの29.13%をこのデータセット上に構築する。
論文 参考訳(メタデータ) (2024-01-07T08:59:32Z) - FALL-E: A Foley Sound Synthesis Model and Strategies [0.5599792629509229]
FALL-Eモデルは、低分解能スペクトログラム生成、スペクトル超解像、ボコーダからなるカスケード方式を採用している。
我々はデータセット固有のテキストでモデルを条件付けし、テキスト入力に基づいて音質と記録環境を学習できるようにした。
論文 参考訳(メタデータ) (2023-06-16T12:44:10Z) - Transferring Voice Knowledge for Acoustic Event Detection: An Empirical
Study [11.825240267691209]
本稿では,話者データセットから抽出した高レベル音声表現を伝達して,音響イベント検出パイプラインを強化する可能性について検討する。
AEDプロセス中に音声と音響の特徴を共同学習するためのデュアルブランチニューラルネットワークアーキテクチャを開発した。
論文 参考訳(メタデータ) (2021-10-07T04:03:21Z) - Exploration of Audio Quality Assessment and Anomaly Localisation Using
Attention Models [37.60722440434528]
本稿では,双方向長期記憶とアテンション機構を併用し,音質評価のための新しいモデルを提案する。
前者は、録音から情報を学ぶ人間の聴覚知覚能力を模倣することであり、後者は、対象の特徴を強調することによって、所望の信号から干渉を更に識別することである。
提案手法を評価するため,様々な自然音を混合してTIMITデータセットを用いて拡張する。
論文 参考訳(メタデータ) (2020-05-16T17:54:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。