論文の概要: Character Beyond Speech: Leveraging Role-Playing Evaluation in Audio Large Language Models via Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2604.13804v1
- Date: Wed, 15 Apr 2026 12:39:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-16 20:38:32.535864
- Title: Character Beyond Speech: Leveraging Role-Playing Evaluation in Audio Large Language Models via Reinforcement Learning
- Title(参考訳): 音声以外のキャラクタ:強化学習による大規模音声モデルのロールプレイング評価の活用
- Authors: Dongjie Fu, Fangming Feng, Xize Cheng, Linjun Li, Zhou Zhao, Tao Jin,
- Abstract要約: RoleJudgeは、音声大言語モデルを利用して、音声と文字のアライメントを評価する評価フレームワークである。
連鎖推論アノテーションを付加した最初の音声ロールプレイング評価データセットであるRoleChatを紹介する。
- 参考スコア(独自算出の注目度): 57.22705949022221
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The rapid evolution of multimodal large models has revolutionized the simulation of diverse characters in speech dialogue systems, enabling a novel interactive paradigm. Character attributes are manifested not only in textual responses but also through vocal features, as speech conveys rich paralinguistic information that is challenging to quantify. This poses significant difficulties in evaluating the character alignment of role-playing agents. To address these challenges, we present RoleJudge, an evaluation framework that leverages audio large language models to systematically assess the alignment between speech and character across multiple modalities and dimensions. Furthermore, we introduce RoleChat, the first voice role-playing evaluation dataset enriched with chain-of-thought reasoning annotations, comprising a diverse set of authentic and LLM-generated speech samples. Utilizing this dataset, we implement a multi-stage training paradigm and incorporate Standard Alignment in reinforcement learning to mitigate reward misalignment during optimization. Experimental results in terms of accuracy and subjective assessment demonstrate that RoleJudge outperforms various baseline models, validating the effectiveness of our multidimensional evaluation framework.
- Abstract(参考訳): マルチモーダル大モデルの急速な進化は、音声対話システムにおける多様な文字のシミュレーションに革命をもたらし、新しい対話的パラダイムを可能にした。
文字属性は、テキスト応答だけでなく、音声の特徴によっても表され、音声は定量化が難しい豊富なパラ言語情報を伝達する。
これはロールプレイングエージェントのキャラクタアライメントを評価する上で大きな困難を生じさせる。
これらの課題に対処するため,複数のモーダルと次元をまたいだ音声とキャラクタのアライメントを体系的に評価するために,音声大言語モデルを活用した評価フレームワークであるRoleJudgeを提案する。
さらに,連鎖推論アノテーションを付加した最初の音声ロールプレイング評価データセットであるRoleChatを紹介する。
このデータセットを利用して、多段階トレーニングパラダイムを実装し、強化学習にStandard Alignmentを導入し、最適化中の報酬の不一致を軽減する。
精度と主観評価の両面での実験結果から,RoleJudgeは様々なベースラインモデルよりも優れており,多次元評価フレームワークの有効性が検証されている。
関連論文リスト
- SpeechRole: A Large-Scale Dataset and Benchmark for Evaluating Speech Role-Playing Agents [72.79816494079833]
ロールプレイングエージェントは、パーソナライズされた相互作用と感情共鳴を達成するための有望なパラダイムとして登場した。
既存の研究は主にテキストのモダリティに焦点を当て、現実的な対話的なシナリオにおける音声の重要な次元を無視している。
我々は,98の多様な役割と112kの音声ベースの1ターン・マルチターン会話からなる大規模かつ高品質なデータセットであるSpeechRole-Dataを構築した。
論文 参考訳(メタデータ) (2025-08-04T03:18:36Z) - Aligning Spoken Dialogue Models from User Interactions [55.192134724622235]
本稿では,ユーザの対話からリアルタイム会話における音声対話モデルを改善するための新しい嗜好アライメントフレームワークを提案する。
AIフィードバックを付加した生のマルチターン音声会話から15万以上の好みペアのデータセットを作成する。
本研究は, 自然なリアルタイム音声対話システムにおいて重要な, 様々な力学におけるバランスの整合性の重要性を浮き彫りにした。
論文 参考訳(メタデータ) (2025-06-26T16:45:20Z) - SPECTRUM: Speaker-Enhanced Pre-Training for Long Dialogue Summarization [48.284512017469524]
マルチターン対話は、その長さとターンテイクな会話の存在によって特徴づけられる。
伝統的な言語モデルは、しばしばそれらの対話の特徴を通常のテキストとして扱うことによって見落としている。
長文対話要約のための話者強化事前学習手法を提案する。
論文 参考訳(メタデータ) (2024-01-31T04:50:00Z) - Learning Disentangled Speech Representations [0.412484724941528]
SynSpeechは、非絡み合った音声表現の研究を可能にするために設計された、新しい大規模合成音声データセットである。
本稿では, 線形探索と教師付きアンタングル化指標を併用して, アンタングル化表現学習手法を評価する枠組みを提案する。
SynSpeechは、さまざまな要因のベンチマークを促進し、ジェンダーや話し方のようなより単純な機能の切り離しを期待できると同時に、話者アイデンティティのような複雑な属性を分離する際の課題を強調します。
論文 参考訳(メタデータ) (2023-11-04T04:54:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。