論文の概要: AudioRole: An Audio Dataset for Character Role-Playing in Large Language Models
- arxiv url: http://arxiv.org/abs/2509.23435v1
- Date: Sat, 27 Sep 2025 18:08:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:19.224543
- Title: AudioRole: An Audio Dataset for Character Role-Playing in Large Language Models
- Title(参考訳): AudioRole:大規模言語モデルにおけるキャラクタロールプレイングのためのオーディオデータセット
- Authors: Wenyu Li, Xiaoqi Jiao, Yi Chang, Guangyan Zhang, Yiwen Guo,
- Abstract要約: AudioRoleは、13のテレビシリーズから1K以上の時間と1M以上の文字による対話を正確に収集したデータセットだ。
話者識別とコンテキストメタデータを付加した同期オーディオテキストペアを提供する。
データセットの有効性を示すために,デュアルアスペクト評価フレームワークであるARP-Evalを導入した。
- 参考スコア(独自算出の注目度): 37.08066082275261
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The creation of high-quality multimodal datasets remains fundamental for advancing role-playing capabilities in large language models (LLMs). While existing works predominantly focus on text-based persona simulation, Audio Role-Playing (ARP) presents unique challenges due to the need for synchronized alignment of semantic content and vocal characteristics. To address this gap, we propose AudioRole, a meticulously curated dataset from 13 TV series spanning 1K+ hours with 1M+ character-grounded dialogues, providing synchronized audio-text pairs annotated with speaker identities and contextual metadata. In addition, to demonstrate the effectiveness of the dataset, we introduced ARP-Eval, a dual-aspect evaluation framework that assesses both response quality and role fidelity. Empirical validation showing GLM-4-Voice trained on AudioRole (which we called ARP-Model) achieve an average Acoustic Personalization score of 0.31, significantly outperforming the original GLM-4-voice and the more powerful model MiniCPM-O-2.6, which specifically supports role-playing in one-shot scenarios. The ARP-Model also achieves a Content Personalization score of 0.36, surpassing the untrained original model by about 38% and maintaining the same level as MiniCPM-O-2.6. AudioRole features dialogues from over 115 main characters, 6 trained ARP-Models that role-play different characters, and evaluation protocols. Together, they provide an essential resource for advancing audio-grounded role-playing research.
- Abstract(参考訳): 高品質なマルチモーダルデータセットの作成は、大規模言語モデル(LLM)におけるロールプレイング能力の進歩に依然として基礎的である。
既存の作業は主にテキストベースのペルソナシミュレーションに重点を置いているが、音声ロールプレイング(ARP)は、セマンティックコンテンツと発声特性の同時アライメントを必要とするため、ユニークな課題を提示する。
このギャップに対処するために,AudioRoleを提案する。これは1K以上の時間にまたがる13のテレビシリーズと1M以上の文字地上対話を巧妙にキュレートしたデータセットで,話者のアイデンティティとコンテキストメタデータを付加した同期音声テキストペアを提供する。
さらに、データセットの有効性を示すために、応答品質と役割の忠実度の両方を評価する二重アスペクト評価フレームワークであるARP-Evalを紹介した。
ARP-Modelと呼ばれる)AudioRoleで訓練されたGLM-4-Voiceが平均音響パーソナライゼーションスコア0.31を達成し、元のGLM-4-voiceとより強力なMiniCPM-O-2.6を著しく上回った。
ARP-Modelはコンテンツパーソナライゼーションスコアも0.36で達成し、トレーニングされていないオリジナルのモデルを約38%上回り、MiniCPM-O-2.6と同じレベルを維持している。
AudioRoleは115以上のメインキャラクタからの対話、異なるキャラクタをロールプレイする6つのトレーニングされたARPモデル、評価プロトコルを備えている。
共に、オーディオグラウンドドロールプレイング研究の進展に欠かせない資源を提供する。
関連論文リスト
- Competitive Audio-Language Models with Data-Efficient Single-Stage Training on Public Data [4.736913024290765]
Falcon3-Audio-7Bは、MMAUベンチマークで報告されたオープンウェイトモデルの中で最高のパフォーマンスである。
我々の最小の1Bモデルは、2Bから13Bのパラメータを含むより大きなオープンモデルと競合し続けている。
論文 参考訳(メタデータ) (2025-09-09T09:01:01Z) - VoxRole: A Comprehensive Benchmark for Evaluating Speech-Based Role-Playing Agents [25.2769510663867]
我々は、音声ベースのRPCAsの評価に特化して設計された最初の総合ベンチマークであるVoxRoleを紹介する。
ベンチマークは13335のマルチターンダイアログで構成され、261本の映画に1228のユニークなキャラクターから65.6時間のスピーチがある。
論文 参考訳(メタデータ) (2025-09-04T07:03:46Z) - AHELM: A Holistic Evaluation of Audio-Language Models [78.20477815156484]
マルチモーダルオーディオ言語モデル(ALM)は、インターリーブされた音声とテキストを入力および出力テキストとして取り込む。
AHELMは、PARADEとCoRe-Benchと呼ばれる2つの新しい合成オーディオテキストデータセットを含む、さまざまなデータセットを集約するベンチマークである。
また、モデル間の等価比較を確保するために、プロンプト、推論パラメータ、評価指標を標準化する。
論文 参考訳(メタデータ) (2025-08-29T07:40:39Z) - SpeechRole: A Large-Scale Dataset and Benchmark for Evaluating Speech Role-Playing Agents [72.79816494079833]
ロールプレイングエージェントは、パーソナライズされた相互作用と感情共鳴を達成するための有望なパラダイムとして登場した。
既存の研究は主にテキストのモダリティに焦点を当て、現実的な対話的なシナリオにおける音声の重要な次元を無視している。
我々は,98の多様な役割と112kの音声ベースの1ターン・マルチターン会話からなる大規模かつ高品質なデータセットであるSpeechRole-Dataを構築した。
論文 参考訳(メタデータ) (2025-08-04T03:18:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。