論文の概要: Population-Aligned Audio Reproduction With LLM-Based Equalizers
- arxiv url: http://arxiv.org/abs/2601.09448v1
- Date: Wed, 14 Jan 2026 12:51:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-15 18:59:20.401484
- Title: Population-Aligned Audio Reproduction With LLM-Based Equalizers
- Title(参考訳): LLMベースの等化器を用いた人口適応型オーディオ再生
- Authors: Ioannis Stylianou, Jon Francombe, Pablo Martinez-Nuevo, Sven Ewan Shepstone, Zheng-Hua Tan,
- Abstract要約: 我々は、自然言語のプロンプトを等化設定にマッピングするLarge Language Model (LLM)ベースの代替手法を導入する。
提案モデルでは,テキスト内学習とパラメータ効率の優れた微調整技術を用いて,個体群が優先する等化設定を確実に整合させる。
これらの結果から,LLMは「人工等化器」として機能し,よりアクセシブルでコンテキスト認識,エキスパートレベルの音声チューニング手法の開発に寄与することが示唆された。
- 参考スコア(独自算出の注目度): 12.358415132192148
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Conventional audio equalization is a static process that requires manual and cumbersome adjustments to adapt to changing listening contexts (e.g., mood, location, or social setting). In this paper, we introduce a Large Language Model (LLM)-based alternative that maps natural language text prompts to equalization settings. This enables a conversational approach to sound system control. By utilizing data collected from a controlled listening experiment, our models exploit in-context learning and parameter-efficient fine-tuning techniques to reliably align with population-preferred equalization settings. Our evaluation methods, which leverage distributional metrics that capture users' varied preferences, show statistically significant improvements in distributional alignment over random sampling and static preset baselines. These results indicate that LLMs could function as "artificial equalizers," contributing to the development of more accessible, context-aware, and expert-level audio tuning methods.
- Abstract(参考訳): 従来の音声の等化は、聴取状況の変化(例えば、気分、場所、社会的設定)に適応するために手動や面倒な調整を必要とする静的なプロセスである。
本稿では,自然言語のテキストプロンプトを等化設定にマッピングするLarge Language Model (LLM)ベースの代替手法を提案する。
これにより、音声システム制御に対する会話的アプローチが可能になる。
制御された聴取実験から収集したデータを利用して,本モデルでは,話者が優先する等化設定と確実に一致させるために,文脈内学習とパラメータ効率の高い微調整技術を利用する。
提案手法は,ユーザの嗜好を抽出する分布指標を利用して,ランダムサンプリングや静的プリセットベースラインよりも分布アライメントが統計的に有意に向上したことを示す。
これらの結果から,LLMは「人工等化器」として機能し,よりアクセシブルでコンテキスト認識,エキスパートレベルの音声チューニング手法の開発に寄与することが示唆された。
関連論文リスト
- Aligning Audio Captions with Human Preferences [7.207308857839664]
本稿では,人間フィードバックからの強化学習に基づく優先的な音声キャプションフレームワークを提案する。
我々は,人間ラベル付きペアワイズ嗜好データを用いて,CLAPに基づく報奨モデルを訓練する。
本フレームワークは,音声キャプションと人間の嗜好の整合性を実証し,地上データを用いた教師付きアプローチに匹敵する性能を実現する。
論文 参考訳(メタデータ) (2025-09-18T06:33:44Z) - From Alignment to Advancement: Bootstrapping Audio-Language Alignment with Synthetic Data [55.2480439325792]
音声対応の大規模言語モデル(ALLM)は近年,音声入力の理解と処理において大きな進歩を遂げている。
これらのモデルは典型的にはテキストベースの大規模言語モデル(LLM)に適応し、音声関連タスクのさらなるトレーニングを行う。
本研究では、現在と欠落した音を区別するALLMの能力を高めるために、コントラッシブな訓練データを生成するデータ生成フレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-26T16:08:41Z) - Improving Inference-Time Optimisation for Vocal Effects Style Transfer with a Gaussian Prior [40.05678787022442]
Style Transfer with Inference-Time optimisation (ST-ITO) は、参照音声の応用効果をオーディオトラックに転送する手法である。
パラメータ空間上のDiffVox音声プレセットデータセットから派生したガウス先行データを提案する。
結果の最適化は最大姿勢推定と等価である。
論文 参考訳(メタデータ) (2025-05-16T14:40:31Z) - Preference Alignment Improves Language Model-Based TTS [76.70693823683091]
選好アライメントアルゴリズムは、報酬モデルの嗜好に合わせてLMを調整し、生成されたコンテンツの望ましさを高める。
1.15B のパラメータ LM に基づく TTS モデルを用いて、嗜好の整合性は常に知性、話者類似性、代用主観的評価スコアを向上することを示した。
論文 参考訳(メタデータ) (2024-09-19T01:58:19Z) - C3LLM: Conditional Multimodal Content Generation Using Large Language Models [66.11184017840688]
C3LLMは,ビデオ・トゥ・オーディオ,音声・テキスト,テキスト・トゥ・オーディオの3つのタスクを組み合わせた新しいフレームワークである。
C3LLMはLarge Language Model (LLM) 構造を異なるモダリティを整列するためのブリッジとして適合させる。
本手法は,従来の音声理解,ビデオ音声生成,テキスト音声生成のタスクを1つの統一モデルに統合する。
論文 参考訳(メタデータ) (2024-05-25T09:10:12Z) - A General Framework for Learning Procedural Audio Models of
Environmental Sounds [7.478290484139404]
本稿では,手続き型自動エンコーダ(ProVE)フレームワークについて,手続き型オーディオPAモデルを学習するための一般的なアプローチとして紹介する。
本稿では, ProVE モデルが従来の PA モデルと敵対的アプローチの両方を音響忠実度で上回ることを示す。
論文 参考訳(メタデータ) (2023-03-04T12:12:26Z) - Controllable speech synthesis by learning discrete phoneme-level
prosodic representations [53.926969174260705]
直感的な離散ラベルを用いたF0と持続時間に対する音素レベル韻律制御のための新しい手法を提案する。
複数話者音声データセットから音素レベルF0と持続時間の特徴を識別するために用いられる教師なし韻律クラスタリングプロセスを提案する。
論文 参考訳(メタデータ) (2022-11-29T15:43:36Z) - Meta-TTS: Meta-Learning for Few-Shot Speaker Adaptive Text-to-Speech [62.95422526044178]
マルチスピーカTSモデルのトレーニングアルゴリズムとして,MAML(Model Agnostic Meta-Learning)を用いる。
その結果,Meta-TTSは話者適応ベースラインよりも適応ステップが少ない少数のサンプルから高い話者類似性音声を合成できることが示唆された。
論文 参考訳(メタデータ) (2021-11-07T09:53:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。