論文の概要: MENASpeechBank: A Reference Voice Bank with Persona-Conditioned Multi-Turn Conversations for AudioLLMs
- arxiv url: http://arxiv.org/abs/2602.07036v1
- Date: Tue, 03 Feb 2026 10:22:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:24.386971
- Title: MENASpeechBank: A Reference Voice Bank with Persona-Conditioned Multi-Turn Conversations for AudioLLMs
- Title(参考訳): MENASpeechBank: a Reference Voice Bank with Persona-Conditioned Multi-Turn Conversations for AudioLLMs
- Authors: Zien Sheikh Ali, Hunzalah Hassan Bhatti, Rabindra Nath Nandi, Shammur Absar Chowdhury, Firoj Alam,
- Abstract要約: 我々は,複数のMENA諸国にまたがる124人の話者から約18Kの高品質発話からなる参照音声バンクMENASpeechBankを紹介した。
i)世界価値にインスパイアされた属性に富んだペルソナプロファイルを構築し、(ii)約5Kの会話シナリオの分類を定義し、(iii)意味的類似性を通じてペルソナとシナリオをマッチングし、(iv)約417Kのロールプレイ会話を生成する。
- 参考スコア(独自算出の注目度): 13.58291341556655
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Audio large language models (AudioLLMs) enable instruction-following over speech and general audio, but progress is increasingly limited by the lack of diverse, conversational, instruction-aligned speech-text data. This bottleneck is especially acute for persona-grounded interactions and dialectal coverage, where collecting and releasing real multi-speaker recordings is costly and slow. We introduce MENASpeechBank, a reference speech bank comprising about 18K high-quality utterances from 124 speakers spanning multiple MENA countries, covering English, Modern Standard Arabic (MSA), and regional Arabic varieties. Building on this resource, we develop a controllable synthetic data pipeline that: (i) constructs persona profiles enriched with World Values Survey-inspired attributes, (ii) defines a taxonomy of about 5K conversational scenarios, (iii) matches personas to scenarios via semantic similarity, (iv) generates about 417K role-play conversations with an LLM where the user speaks as the persona and the assistant behaves as a helpful agent, and (v) synthesizes the user turns by conditioning on reference speaker audio to preserve speaker identity and diversity. We evaluate both synthetic and human-recorded conversations and provide detailed analysis. We will release MENASpeechBank and the generated conversations publicly for the community.
- Abstract(参考訳): 音声大言語モデル(AudioLLMs)は、音声と一般的な音声の命令追従を可能にするが、多種多様な、会話型の音声テキストデータの欠如により、進歩はますます制限されている。
このボトルネックは、実際のマルチスピーカー記録の収集とリリースが高価で遅いペルソナ・グラウンドの対話や方言のカバレッジにとって特に深刻である。
我々は、複数のMENA諸国にまたがる124人の話者の約18Kの高品質な発話からなる参照音声バンクであるMENASpeechBankを紹介し、英語、現代標準アラビア語(MSA)、地域アラビア語の諸品種について紹介する。
このリソースを基盤として、制御可能な合成データパイプラインを開発します。
(i)世界価値調査にインスパイアされた属性に富んだペルソナプロファイルを構築する。
(ii)約5Kの対話シナリオの分類を定義する。
(三)意味的類似性により人格とシナリオを一致させる。
(iv)LLMと約417Kのロールプレイ会話を生成し、ユーザはペルソナとして話し、アシスタントは有用なエージェントとして振る舞う。
(v) 話者のアイデンティティと多様性を維持するため、参照話者音声を条件付けしてユーザの旋回を合成する。
合成会話と人間記録会話の両方を評価し,詳細な分析を行った。
私たちはMENASpeechBankと生成された会話をコミュニティ向けに公開します。
関連論文リスト
- VoiceAgentBench: Are Voice Assistants ready for agentic tasks? [5.639970295197759]
本稿では,現実的な音声エージェント設定におけるSpeechLMの評価ベンチマークであるVoiceAgentBenchを紹介する。
インドの文脈に根ざした5,500以上の合成音声クエリで構成されている。
ツール選択の正確性、構造的整合性、ツールの実行の正しさを測定する。
論文 参考訳(メタデータ) (2025-10-09T09:11:38Z) - Towards Human-like Multimodal Conversational Agent by Generating Engaging Speech [10.576716279533404]
本研究では,会話のムードと応答型情報に基づいて,音声応答を生成するヒューマンライクなエージェントを提案する。
エージェントが自然言語を生成できるようにするために,音声に着目した新しいマルチセンサ会話データセットを構築した。
実験結果から,会話における視覚的・音声的モダリティの両面を利用した係り受け音声生成の有効性が示された。
論文 参考訳(メタデータ) (2025-09-18T05:14:10Z) - What Makes a Good Speech Tokenizer for LLM-Centric Speech Generation? A Systematic Study [58.55905182336196]
音声言語モデル(SLM)は、音声とテキストの理解と生成を統一するための有望な経路を提供する。
LLM中心のSLMにおける音声トークン化設計の役割について検討し,音声ヘッドと話者モデルを用いて検討した。
SLMにマルチトークン予測(MTP)を導入し、各隠れ状態が複数の音声トークンを復号化できるようにする。
論文 参考訳(メタデータ) (2025-06-14T15:26:31Z) - Multimodal Conversation Structure Understanding [12.29827265137757]
大きな言語モデルでは、きめ細かい会話構造を理解する能力は未解明のままである。
我々は,話者と回答関係のための4,398の注釈付きデータセット,5,755人のアドレナリ,3,142人のサイド参加者を提示する。
音声-視覚的LLMと視覚言語モデルの評価をデータセット上で行い, 実験結果から, マルチモーダル対話構造理解は依然として困難であることが示唆された。
論文 参考訳(メタデータ) (2025-05-23T06:41:54Z) - Benchmarking Open-ended Audio Dialogue Understanding for Large Audio-Language Models [58.43486430996411]
LALM(Large Audio-Language Models)は、最近、人間との直接の音声交換を可能にする音声対話機能をアンロックした。
オープンエンド音声対話理解におけるLALMの性能を評価するための音声対話理解ベンチマーク(ADU-Bench)を提案する。
ADU-Benchには、LALMの評価のための2万以上のオープンエンドオーディオダイアログが含まれている。
論文 参考訳(メタデータ) (2024-12-06T16:34:15Z) - ERNIE-SAT: Speech and Text Joint Pretraining for Cross-Lingual
Multi-Speaker Text-to-Speech [58.93395189153713]
言語間複数話者音声合成タスクの事前学習法を拡張した。
本稿では,スペクトルと音素をランダムにマスキングする,音声・テキスト共同事前学習フレームワークを提案する。
本モデルは,話者埋め込み型マルチスピーカTS法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-11-07T13:35:16Z) - End-to-end Spoken Conversational Question Answering: Task, Dataset and
Model [92.18621726802726]
音声による質問応答では、システムは関連する音声書き起こしの中に連続したテキストスパンからの質問に答えるように設計されている。
本稿では,複雑な対話フローをモデル化することを目的とした音声対話型質問応答タスク(SCQA)を提案する。
本研究の目的は,音声記録に基づく対話型質問に対処するシステムを構築することであり,情報収集システムによる様々なモダリティからより多くの手がかりを提供する可能性を探ることである。
論文 参考訳(メタデータ) (2022-04-29T17:56:59Z) - Spoken Style Learning with Multi-modal Hierarchical Context Encoding for
Conversational Text-to-Speech Synthesis [59.27994987902646]
歴史的会話から話し言葉のスタイルを学習する研究は、まだ初期段階にある。
歴史的会話の書き起こしのみが考慮され、歴史的スピーチの話し方を無視している。
マルチモーダル階層型コンテキスト符号化を用いた音声スタイル学習手法を提案する。
論文 参考訳(メタデータ) (2021-06-11T08:33:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。