論文の概要: SageLM: A Multi-aspect and Explainable Large Language Model for Speech Judgement
- arxiv url: http://arxiv.org/abs/2508.20916v1
- Date: Thu, 28 Aug 2025 15:47:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-29 18:12:02.489638
- Title: SageLM: A Multi-aspect and Explainable Large Language Model for Speech Judgement
- Title(参考訳): SageLM: 音声判断のための多視点および説明可能な大言語モデル
- Authors: Yuan Ge, Junxiang Zhang, Xiaoqian Liu, Bei Li, Xiangnan Ma, Chenglong Wang, Kaiyang Ye, Yangfan Du, Linfeng Zhang, Yuxin Huang, Tong Xiao, Zhengtao Yu, JingBo Zhu,
- Abstract要約: 音声音声合成(S2S)大規模言語モデル(LLM)は、人間とコンピュータの自然な相互作用の基礎となる。
包括的S2S LLM評価のためのエンドツーエンド・マルチアスペクト・説明可能な音声LLMである textttSageLM を提案する。
- 参考スコア(独自算出の注目度): 74.51476422119457
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Speech-to-Speech (S2S) Large Language Models (LLMs) are foundational to natural human-computer interaction, enabling end-to-end spoken dialogue systems. However, evaluating these models remains a fundamental challenge. We propose \texttt{SageLM}, an end-to-end, multi-aspect, and explainable speech LLM for comprehensive S2S LLMs evaluation. First, unlike cascaded approaches that disregard acoustic features, SageLM jointly assesses both semantic and acoustic dimensions. Second, it leverages rationale-based supervision to enhance explainability and guide model learning, achieving superior alignment with evaluation outcomes compared to rule-based reinforcement learning methods. Third, we introduce \textit{SpeechFeedback}, a synthetic preference dataset, and employ a two-stage training paradigm to mitigate the scarcity of speech preference data. Trained on both semantic and acoustic dimensions, SageLM achieves an 82.79\% agreement rate with human evaluators, outperforming cascaded and SLM-based baselines by at least 7.42\% and 26.20\%, respectively.
- Abstract(参考訳): 音声音声合成(S2S)大言語モデル(LLM)は、人間とコンピュータの自然な相互作用の基礎であり、エンドツーエンドの音声対話システムを可能にする。
しかし、これらのモデルを評価することは依然として根本的な課題である。
本稿では,S2S LLMを包括的に評価するためのエンド・ツー・エンド,マルチアスペクト,説明可能なLLMである「texttt{SageLM}」を提案する。
まず、音響的特徴を無視するカスケードアプローチとは異なり、SageLMは意味的次元と音響的次元の両方を共同で評価する。
第二に、合理性に基づく指導を活用して説明可能性を高め、モデル学習を指導し、ルールに基づく強化学習法と比較して評価結果との整合性を向上する。
第3に、合成選好データセットである‘textit{SpeechFeedback} を導入し、音声選好データの不足を軽減するために2段階の訓練パラダイムを用いる。
セマンティック次元と音響次元の両方で訓練されたSageLMは、人間の評価者と82.79 %の合意率を達成し、それぞれ7.42 %、26.20 %以上のカスケードとSLMベースのベースラインを上回っている。
関連論文リスト
- MTalk-Bench: Evaluating Speech-to-Speech Models in Multi-Turn Dialogues via Arena-style and Rubrics Protocols [25.171718066659775]
MTalk-Benchは、セマンティックインフォメーション、パラ言語情報、アンビエントサウンドの3つのコアディメンションをカバーするマルチターンS2Sベンチマークである。
両手法評価フレームワークは,相対的,絶対的評価にアリーナ式評価(ペアワイズ比較)と絶対的評価(絶対的評価)を組み合わせる。
結果は、S2S評価の現在の制限と、より堅牢で音声対応のアセスメントフレームワークの必要性を強調している。
論文 参考訳(メタデータ) (2025-08-22T12:14:17Z) - A Unified Speech LLM for Diarization and Speech Recognition in Multilingual Conversations [25.58593495281218]
本稿では、ダイアリゼーションとASRをエンドツーエンドで共同で行う統一音声LLMを提案する。
トレーニングデータフォーマットを再構成し,推論手順を変更することで,事前分類音声に固有のあいまいさに対処する。
論文 参考訳(メタデータ) (2025-06-26T01:54:02Z) - If an LLM Were a Character, Would It Know Its Own Story? Evaluating Lifelong Learning in LLMs [55.8331366739144]
大規模言語モデル(LLM)における生涯学習評価のためのベンチマークであるLIFESTATE-BENCHを紹介する。
我々の事実チェック評価は、パラメトリックと非パラメトリックの両方のアプローチで、モデルの自己認識、エピソードメモリ検索、関係追跡を探索する。
論文 参考訳(メタデータ) (2025-03-30T16:50:57Z) - Align-SLM: Textless Spoken Language Models with Reinforcement Learning from AI Feedback [50.84142264245052]
テキストレス音声言語モデル(SLM)のセマンティック理解を強化するためのAlign-SLMフレームワークを導入する。
提案手法は、与えられたプロンプトから複数の音声継続を生成し、意味的指標を用いて、直接選好最適化(DPO)のための選好データを生成する。
語彙および構文モデリングのためのZeroSpeech 2021ベンチマーク、意味的コヒーレンスのためのStoryClozeデータセットの音声バージョン、GPT4-oスコアや人間評価などの音声生成指標を用いて、フレームワークの評価を行った。
論文 参考訳(メタデータ) (2024-11-04T06:07:53Z) - Self-Supervised Learning for speech recognition with Intermediate layer
supervision [52.93758711230248]
自己教師付き学習(ILS-SSL)のための中間層スーパービジョンを提案する。
ILS-SSLは、中間層にSSL損失を追加することで、可能な限りコンテンツ情報に集中させます。
LibriSpeech の他のテストセットの実験により,本手法は HuBERT を著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2021-12-16T10:45:05Z) - SPLAT: Speech-Language Joint Pre-Training for Spoken Language
Understanding [61.02342238771685]
音声理解には、入力音響信号を解析してその言語内容を理解し、予測するモデルが必要である。
大規模無注釈音声やテキストからリッチな表現を学習するために,様々な事前学習手法が提案されている。
音声と言語モジュールを協調的に事前学習するための,新しい半教師付き学習フレームワークであるSPLATを提案する。
論文 参考訳(メタデータ) (2020-10-05T19:29:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。