論文の概要: Calibration-Reasoning Framework for Descriptive Speech Quality Assessment
- arxiv url: http://arxiv.org/abs/2603.10175v1
- Date: Tue, 10 Mar 2026 19:14:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-12 16:22:32.66256
- Title: Calibration-Reasoning Framework for Descriptive Speech Quality Assessment
- Title(参考訳): 記述的音声品質評価のための校正推論フレームワーク
- Authors: Elizaveta Kostenok, Mathieu Salzmann, Milos Cernak,
- Abstract要約: 本稿では,多次元推論のための基礎的大規模言語モデルに適したポストトレーニング手法を提案する。
多次元のQuariSpeechベンチマークで0.71の平均PCCスコアが得られた。
我々の細かいGRPO報酬は、時間内にオーディオアーティファクトを特定・分類するモデルの能力を大幅に向上させます。
- 参考スコア(独自算出の注目度): 55.51206474234095
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Explainable speech quality assessment requires moving beyond Mean Opinion Scores (MOS) to analyze underlying perceptual dimensions. To address this, we introduce a novel post-training method that tailors the foundational Audio Large Language Model for multidimensional reasoning, detection and classification of audio artifacts. First, a calibration stage aligns the model to predict predefined perceptual dimensions. Second, a reinforcement learning stage leverages Group Relative Policy Optimization (GRPO) with dimension-specific rewards to heavily enhance accuracy of descriptions and temporal localization of quality issues. With this approach we reach state-of-the-art results of 0.71 mean PCC score on the multidimensional QualiSpeech benchmark and 13% improvement in MOS prediction driven by RL-based reasoning. Furthermore, our fine-grained GRPO rewards substantially advance the model's ability to pinpoint and classify audio artifacts in time.
- Abstract(参考訳): 説明可能な音声品質評価では、基礎となる知覚次元を分析するために、平均オピニオンスコア(MOS)を超えて移動する必要がある。
そこで本研究では,音声の多次元的推論,検出,分類のための基礎的オーディオ大言語モデルに適したポストトレーニング手法を提案する。
まず、キャリブレーション段階は、事前に定義された知覚次元を予測するためにモデルを整列する。
第二に、強化学習段階は、グループ相対政策最適化(GRPO)を利用して、説明の正確さと品質問題の時間的局所性を大幅に向上させる。
このアプローチにより、多次元のQuariSpeechベンチマークにおける0.71の平均PCCスコアと、RLに基づく推論によるMOS予測の13%の改善が得られる。
さらに,粒度の細かいGRPO報酬は,音声アーティファクトを時間内に特定・分類するモデルの能力を大幅に向上させる。
関連論文リスト
- SpeechQualityLLM: LLM-Based Multimodal Assessment of Speech Quality [2.1178416840822027]
音声品質評価は電話、VoIP、ストリーミングシステムの中心であり、大量の劣化したオーディオを大規模に監視し、最適化する必要がある。
本稿では,音声エンコーダを言語モデルに結合し,テンプレートベースの質問応答ペアを用いてNISQAコーパスで学習するマルチモーダル音声品質質問応答システムであるSpeechQualityLLMを紹介する。
本システムでは,数値予測を解析し,標準回帰とランキングの指標を用いて評価するテキスト回答を生成する。
論文 参考訳(メタデータ) (2025-12-09T04:39:50Z) - Thinking While Listening: Simple Test Time Scaling For Audio Classification [61.3564313676731]
本稿では,ニューラルネットワークが日常の音を聴きながら"考える"ことを可能にするフレームワークを提案する。
大規模言語モデルの推論能力の最近の進歩により、我々は2つの中心的な疑問に対処する: (i) 既存の音声分類パイプラインに思考を組み込んで、カテゴリ空間での推論を可能にし、パフォーマンスを向上させる方法、(ii) 思考とテストタイムのスケーリングの両方をサポートするために、新しいアーキテクチャをゼロから設計することができるか。
論文 参考訳(メタデータ) (2025-09-24T01:17:24Z) - $C^2$AV-TSE: Context and Confidence-aware Audio Visual Target Speaker Extraction [80.57232374640911]
我々はMask-And-Recover (MAR)と呼ばれるモデルに依存しない戦略を提案する。
MARは、モダリティ間およびモダリティ間コンテキスト相関を統合し、抽出モジュール内の大域的推論を可能にする。
各サンプルの難易度を向上するために, 精細信頼スコア(FCS)モデルを導入する。
論文 参考訳(メタデータ) (2025-04-01T13:01:30Z) - Beyond Scaling: Measuring and Predicting the Upper Bound of Knowledge Retention in Language Model Pre-Training [68.94373533768501]
我々は、知識保持をモデル化し、そのコーパスから事実情報を記憶するための事前学習言語モデルの能力を示し、学習前にそれを推定する原則的手法を導入する。
本稿では,知識周波数,知識特異度,モデルサイズを統合し,クローズドブック質問応答(QA)の精度を予測する情報理論予測器である,サイズ依存型相互情報(SMI)を提案する。
論文 参考訳(メタデータ) (2025-02-06T13:23:53Z) - Audio Large Language Models Can Be Descriptive Speech Quality Evaluators [46.765203628127345]
本稿では,人間格付けから生成した最初の自然言語に基づく音声評価コーパスについて紹介する。
このコーパスは、複数の次元にわたる詳細な分析を提供し、品質劣化の原因を特定する。
生音声から関連情報を抽出するために,LLM蒸留(ALLD)を用いたアライメント手法を提案する。
論文 参考訳(メタデータ) (2025-01-27T22:47:51Z) - Ontology-aware Learning and Evaluation for Audio Tagging [56.59107110017436]
平均平均精度(mAP)は、異なる種類の音をそれらの関係を考慮せずに独立したクラスとして扱う。
オントロジー認識平均平均精度(OmAP)は、評価中にAudioSetオントロジー情報を利用することで、mAPの弱点に対処する。
我々は人間の評価を行い、OmAPはmAPよりも人間の知覚と一致していることを示した。
論文 参考訳(メタデータ) (2022-11-22T11:35:14Z) - Speech Emotion: Investigating Model Representations, Multi-Task Learning
and Knowledge Distillation [6.382013662443799]
音声信号から次元感情を推定することは困難である。
事前学習した音響モデルにより、音声の価値推定を改善することができることを示す。
我々は,現在最先端の「テキストフリー」音響のみの次元感情推定について報告する。
論文 参考訳(メタデータ) (2022-07-02T17:34:44Z) - Deep Learning-based Non-Intrusive Multi-Objective Speech Assessment Model with Cross-Domain Features [31.59528815233441]
我々はMOSA-Netと呼ばれるクロスドメイン多目的音声アセスメントモデルを提案し、同時に複数の音声アセスメント指標を推定できる。
実験の結果, 音声品質(PESQ)予測の知覚評価において, MOSA-Net は線形相関係数 (LCC) を 0.026 (0.990 vs 0.964) と 0.012 (0.969 vs 0.957) で改善できることがわかった。
論文 参考訳(メタデータ) (2021-11-03T17:30:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。