論文の概要: Synthesizing the Virtual Advocate: A Multi-Persona Speech Generation Framework for Diverse Linguistic Jurisdictions in Indic Languages
- arxiv url: http://arxiv.org/abs/2602.11172v1
- Date: Mon, 19 Jan 2026 12:55:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-15 14:54:53.72265
- Title: Synthesizing the Virtual Advocate: A Multi-Persona Speech Generation Framework for Diverse Linguistic Jurisdictions in Indic Languages
- Title(参考訳): 仮想アドボケートを合成する:多言語多言語音声生成フレームワーク
- Authors: Aniket Deroy,
- Abstract要約: 法的な擁護には、権威的な声調、強調のためのリズミカルなポーズ、感情的なインテリジェンスという独特な組み合わせが必要である。
本研究では,5つのIndic言語にまたがる音声合成におけるGemini 2.5 Flash TTSとGemini 2.5 Pro TTSモデルの性能について検討した。
- 参考スコア(独自算出の注目度): 0.33842793760651557
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Legal advocacy requires a unique combination of authoritative tone, rhythmic pausing for emphasis, and emotional intelligence. This study investigates the performance of the Gemini 2.5 Flash TTS and Gemini 2.5 Pro TTS models in generating synthetic courtroom speeches across five Indic languages: Tamil, Telugu, Bengali, Hindi, and Gujarati. We propose a prompting framework that utilizes Gemini 2.5s native support for 5 languages and its context-aware pacing to produce distinct advocate personas. The evolution of Large Language Models (LLMs) has shifted the focus of TexttoSpeech (TTS) technology from basic intelligibility to context-aware, expressive synthesis. In the legal domain, synthetic speech must convey authority and a specific professional persona a task that becomes significantly more complex in the linguistically diverse landscape of India. The models exhibit a "monotone authority," excelling at procedural information delivery but struggling with the dynamic vocal modulation and emotive gravitas required for persuasive advocacy. Performance dips in Bengali and Gujarati further highlight phonological frontiers for future refinement. This research underscores the readiness of multilingual TTS for procedural legal tasks while identifying the remaining challenges in replicating the persuasive artistry of human legal discourse. The code is available at-https://github.com/naturenurtureelite/Synthesizing-the-Virtual-Advocate/tree/main
- Abstract(参考訳): 法的な擁護には、権威的な声調、強調のためのリズミカルなポーズ、感情的なインテリジェンスという独特な組み合わせが必要である。
本研究では, タミル語, テルグ語, ベンガル語, ヒンディー語, グジャラート語にまたがる合成法廷音声生成におけるGemini 2.5 Flash TTSとGemini 2.5 Pro TTSモデルの性能について検討した。
本稿では,5言語に対するGemini 2.5sネイティブサポートと,そのコンテキスト認識によるペアリングを利用して,異なるプロモートペルソナを生成するプロンプトフレームワークを提案する。
LLM(Large Language Models)の進化により、TexttoSpeech(TTS)技術は基本的な知性から文脈認識、表現的合成へと焦点を移した。
法的領域において、合成音声は、インドの言語学的に多様な風景において、はるかに複雑になるタスクとして、権威と特定の専門家のペルソナを伝達しなければならない。
モデルは「単調な権威」を示し、手続き的な情報提供に長けているが、説得的擁護に必要なダイナミックな声調変調と感情的なグラヴィタに苦慮している。
ベンガル語とグジャラート語のパフォーマンス低下は、将来の洗練のための音韻学的フロンティアをさらに強調している。
本研究は,人間の法的言論の説得的芸術性を再現する上での課題を特定しつつ,手続き的法的課題に対する多言語TSの即応性を明らかにするものである。
コードは、-https://github.com/naturenurtureelite/Synthesizing-the-Virtual-Advocate/tree/mainで入手できる。
関連論文リスト
- GOAT-SLM: A Spoken Language Model with Paralinguistic and Speaker Characteristic Awareness [43.67571101152883]
本稿では,パラ言語的・話者的特徴認識を備えた新しい言語モデルGOAT-SLMを紹介する。
GOAT-SLMは、言語モデリングを音響的実現から切り離すデュアルモダリティヘッドアーキテクチャを採用している。
GOAT-SLMはセマンティックタスクと非セマンティックタスクの両方でバランスよく動作し、既存のオープンソースモデルよりも感情や方言の変化、年齢に敏感なインタラクションを処理できることを示す。
論文 参考訳(メタデータ) (2025-07-24T06:10:29Z) - Kinship in Speech: Leveraging Linguistic Relatedness for Zero-Shot TTS in Indian Languages [6.74683227658822]
インドには1369の言語があり、22の公用語が13のスクリプトを使用している。
我々の研究はゼロショット合成に焦点を当てており、特にスクリプトとフォノタクティクスが異なる家系の言語を対象としている。
サンスクリット語、マハーラーシュトリアン語、カナラ・コンカニ語、マイティリ語、クルフ語のために、知的で自然なスピーチが作られた。
論文 参考訳(メタデータ) (2025-06-04T12:22:24Z) - RASMALAI: Resources for Adaptive Speech Modeling in Indian Languages with Accents and Intonations [15.198945496921914]
本稿では,リッチテキスト記述を伴う大規模音声データセットであるRASMALAIを紹介する。
IndicParlerTTSは,インド語に対する初のオープンソースのテキスト記述誘導型TTSである。
論文 参考訳(メタデータ) (2025-05-24T09:16:14Z) - CosyVoice 3: Towards In-the-wild Speech Generation via Scaling-up and Post-training [70.31925012315064]
野生におけるゼロショット多言語音声合成のための改良モデルであるCosyVoice 3を提案する。
CosyVoice 3の主な特徴は、韻律自然性を改善する新しい音声トークンである。
データは1万時間から100万時間に拡張され、9つの言語と18の中国語方言を含んでいる。
論文 参考訳(メタデータ) (2025-05-23T07:55:21Z) - EMOVA: Empowering Language Models to See, Hear and Speak with Vivid Emotions [152.41217651729738]
EMOVA (EMotionally Omni-present Voice Assistant) を提案する。
セマンティック・アコースティック・ディコンタングルド・音声トークンーザでは、オムニモーダルアライメントが視覚言語や音声能力をさらに向上させることに驚く。
EMOVAは、視覚言語と音声のベンチマークの両方で最先端のパフォーマンスを初めて達成した。
論文 参考訳(メタデータ) (2024-09-26T16:44:02Z) - ERNIE-SAT: Speech and Text Joint Pretraining for Cross-Lingual
Multi-Speaker Text-to-Speech [58.93395189153713]
言語間複数話者音声合成タスクの事前学習法を拡張した。
本稿では,スペクトルと音素をランダムにマスキングする,音声・テキスト共同事前学習フレームワークを提案する。
本モデルは,話者埋め込み型マルチスピーカTS法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-11-07T13:35:16Z) - Limited Data Emotional Voice Conversion Leveraging Text-to-Speech:
Two-stage Sequence-to-Sequence Training [91.95855310211176]
感情的音声変換は、言語内容と話者のアイデンティティを保ちながら、発話の感情状態を変えることを目的としている。
本研究では,感情音声データ量の少ない連続音声変換のための新しい2段階学習戦略を提案する。
提案フレームワークはスペクトル変換と韻律変換の両方が可能であり、客観的評価と主観評価の両方において最先端のベースラインを大幅に改善する。
論文 参考訳(メタデータ) (2021-03-31T04:56:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。