論文の概要: Audio-Aware Large Language Models as Judges for Speaking Styles
- arxiv url: http://arxiv.org/abs/2506.05984v1
- Date: Fri, 06 Jun 2025 11:05:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-09 17:28:43.443659
- Title: Audio-Aware Large Language Models as Judges for Speaking Styles
- Title(参考訳): 発話スタイルの判断者としての音声認識大言語モデル
- Authors: Cheng-Han Chiang, Xiaofei Wang, Chung-Ching Lin, Kevin Lin, Linjie Li, Radu Kopetz, Yao Qian, Zhendong Wang, Zhengyuan Yang, Hung-yi Lee, Lijuan Wang,
- Abstract要約: 音声認識型大言語モデル(ALLM)を自動判断器として用いて音声の話し方を評価する。
4つの音声言語モデル(SLM)を用いて2つのタスクを完了し、人間とALMを用いてSLMの応答を判断する。
以上の結果から,現在のSLM,GPT-4o-audioでさえも,発話スタイルの制御や自然な対話生成に改善の余地があることが示唆された。
- 参考スコア(独自算出の注目度): 123.36224336701237
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Audio-aware large language models (ALLMs) can understand the textual and non-textual information in the audio input. In this paper, we explore using ALLMs as an automatic judge to assess the speaking styles of speeches. We use ALLM judges to evaluate the speeches generated by SLMs on two tasks: voice style instruction following and role-playing. The speaking style we consider includes emotion, volume, speaking pace, word emphasis, pitch control, and non-verbal elements. We use four spoken language models (SLMs) to complete the two tasks and use humans and ALLMs to judge the SLMs' responses. We compare two ALLM judges, GPT-4o-audio and Gemini-2.5-pro, with human evaluation results and show that the agreement between Gemini and human judges is comparable to the agreement between human evaluators. These promising results show that ALLMs can be used as a judge to evaluate SLMs. Our results also reveal that current SLMs, even GPT-4o-audio, still have room for improvement in controlling the speaking style and generating natural dialogues.
- Abstract(参考訳): オーディオ対応の大規模言語モデル(ALLM)は、音声入力におけるテキスト情報と非テキスト情報を理解することができる。
本稿では、ALMを自動判断器として使用して音声の話し方を評価する。
本研究では、ALM判定器を用いて、SLMが生成した音声を2つのタスク、すなわち音声スタイルの指示追従とロールプレイングで評価する。
私たちが考える話し方には、感情、ボリューム、話し方、単語強調、ピッチコントロール、非言語的要素が含まれる。
4つの音声言語モデル(SLM)を用いて2つのタスクを完了し、人間とALMを用いてSLMの応答を判断する。
GPT-4o-audio と Gemini-2.5-pro の2人の ALLM 審査員を人的評価結果と比較し, ジェミニと人的評価員の合意は人的評価員の合意に匹敵することを示した。
これらの有望な結果は、ALMsを裁判官として使用してSLMを評価することができることを示している。
また, GPT-4o-audio さえも, 発話スタイルの制御や自然な対話生成に改善の余地があることが示唆された。
関連論文リスト
- Debatable Intelligence: Benchmarking LLM Judges via Debate Speech Evaluation [17.330188045948663]
本稿では, LLM審査員の評価のための新しい, 挑戦的なベンチマークとして, ディベート音声評価を紹介する。
この課題には、以前は体系的なベンチマークにおいて限定的な注目を集めていた、ユニークな認知能力のセットが含まれる。
我々は600以上の微妙な注釈付き討論演説のデータセットを活用し、現状のLLMがこのタスクにおける人間の判断とどのように比較されるかの詳細な分析を初めて提示する。
論文 参考訳(メタデータ) (2025-06-05T14:06:51Z) - Benchmarking Open-ended Audio Dialogue Understanding for Large Audio-Language Models [58.43486430996411]
LALM(Large Audio-Language Models)は、LALMと人間間の音声言語を直接交換する音声対話機能を持つ。
GPT-4oのような最近の進歩により、LALMは人との前後の音声対話を可能にしている。
オープンエンド音声対話理解におけるLALMの性能を評価するための音声対話理解ベンチマーク(ADU-Bench)を提案する。
論文 参考訳(メタデータ) (2024-12-06T16:34:15Z) - Can LLMs Understand the Implication of Emphasized Sentences in Dialogue? [64.72966061510375]
強調は人間のコミュニケーションにおいて重要な要素であり、対話における純粋テキストを超えて話者の意図と含意を示す。
本稿では,強調の意味を抽出した強調注釈付き対話サンプルを用いたベンチマークであるEmphasized-Talkを紹介する。
オープンソースと商用の両方で様々な大規模言語モデル(LLM)を評価し,その性能を重要視して評価する。
論文 参考訳(メタデータ) (2024-06-16T20:41:44Z) - Advancing Large Language Models to Capture Varied Speaking Styles and Respond Properly in Spoken Conversations [65.29513437838457]
現在の2つの旋回が同じ文であっても、異なるスタイルで話されるときの応答は相変わらず異なる。
本稿では,言語内容と発話スタイルをモデル化できるSpken-LLMフレームワークを提案する。
StyleTalkデータセットを使用してSpoken-LLMをトレーニングし、Spoken-LLMが話し方を学ぶのに役立つ2段階のトレーニングパイプラインを作成します。
論文 参考訳(メタデータ) (2024-02-20T07:51:43Z) - BotChat: Evaluating LLMs' Capabilities of Having Multi-Turn Dialogues [72.65163468440434]
本報告では,人間型マルチターンチャットのための既存大規模言語モデルの予備的評価を行う。
そこで我々は,ChatSEEDに基づくマルチターン対話を発話によって生成する大規模言語モデル(LLM)を提案する。
GPT-4は優れた品質の人型多元対話を生成できるが、その性能は著しく上回っている。
論文 参考訳(メタデータ) (2023-10-20T16:53:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。