論文の概要: PodAgent: A Comprehensive Framework for Podcast Generation
- arxiv url: http://arxiv.org/abs/2503.00455v1
- Date: Sat, 01 Mar 2025 11:35:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-05 19:13:44.480904
- Title: PodAgent: A Comprehensive Framework for Podcast Generation
- Title(参考訳): PodAgent: Podcast生成のための総合的なフレームワーク
- Authors: Yujia Xiao, Lei He, Haohan Guo, Fenglong Xie, Tan Lee,
- Abstract要約: PodAgentはポッドキャストのようなオーディオプログラムを作成するためのフレームワークである。
ホスト-ゲスト-ライター・マルチエージェント協調システムの設計により、情報的トピック・ディスカッションコンテンツを生成する。
適切な音声ロールマッチングのための音声プールを構築し、LLM強化音声合成法を用いて、表現力のある会話音声を生成する。
- 参考スコア(独自算出の注目度): 27.525007982804425
- License:
- Abstract: Existing Existing automatic audio generation methods struggle to generate podcast-like audio programs effectively. The key challenges lie in in-depth content generation, appropriate and expressive voice production. This paper proposed PodAgent, a comprehensive framework for creating audio programs. PodAgent 1) generates informative topic-discussion content by designing a Host-Guest-Writer multi-agent collaboration system, 2) builds a voice pool for suitable voice-role matching and 3) utilizes LLM-enhanced speech synthesis method to generate expressive conversational speech. Given the absence of standardized evaluation criteria for podcast-like audio generation, we developed comprehensive assessment guidelines to effectively evaluate the model's performance. Experimental results demonstrate PodAgent's effectiveness, significantly surpassing direct GPT-4 generation in topic-discussion dialogue content, achieving an 87.4% voice-matching accuracy, and producing more expressive speech through LLM-guided synthesis. Demo page: https://podcast-agent.github.io/demo/. Source code: https://github.com/yujxx/PodAgent.
- Abstract(参考訳): 既存の音声自動生成手法では,ポッドキャストのような音声プログラムを効果的に生成することが困難である。
重要な課題は、詳細なコンテンツ生成、適切な、表現力のある音声生成である。
本稿では,音声プログラム作成のための総合的なフレームワークであるPodAgentを提案する。
PodAgent
1)ホスト・ゲスト・ライター・マルチエージェント・コラボレーション・システムの設計により,情報的トピック・ディスカッション・コンテンツを生成する。
2)適切な音声ロールマッチングと音声プールを構築する。
3) LLM強調音声合成法を用いて, 表現型会話音声を生成する。
ポッドキャストのような音声生成のための標準評価基準が欠如していることを踏まえ,モデルの性能を効果的に評価するための包括的評価ガイドラインを開発した。
実験により、PodAgentの有効性が示され、トピック・ディスカッション・ダイアログの直接GPT-4生成を著しく上回り、87.4%の音声マッチング精度を実現し、LLM誘導合成によりより表現力の高い音声を生成する。
デモページ: https://podcast-agent.github.io/demo/。
ソースコード:https://github.com/yujxx/PodAgent.com
関連論文リスト
- Audio-Agent: Leveraging LLMs For Audio Generation, Editing and Composition [72.22243595269389]
本稿では,テキストやビデオの入力に基づく音声生成,編集,合成のためのフレームワークであるAudio-Agentを紹介する。
提案手法では,事前学習したTTA拡散ネットワークを音声生成エージェントとして利用し,GPT-4でタンデムで動作させる。
VTA(Video-to-audio)タスクでは、既存のほとんどのメソッドは、生成されたオーディオとビデオイベントを同期させるタイムスタンプ検出器のトレーニングを必要とする。
論文 参考訳(メタデータ) (2024-10-04T11:40:53Z) - Look, Listen and Recognise: Character-Aware Audio-Visual Subtitling [62.25533750469467]
そこで本稿では,正確な音声タイムスタンプと話者識別機能を備えた,対話の完全な書き起こしを生成する音声-視覚的手法を提案する。
本手法は,Seinfeld,Fraiser,Scrubsなど,様々なテレビシットコムに対して評価を行った。
このシステムは,最新のストリーミングサービスで利用可能なビデオのアクセシビリティを向上させるために,字幕の自動生成に有用であると考えられる。
論文 参考訳(メタデータ) (2024-01-22T15:26:01Z) - LauraGPT: Listen, Attend, Understand, and Regenerate Audio with GPT [65.69648099999439]
Generative Pre-trained Transformer (GPT) モデルは、様々な自然言語処理タスクにおいて顕著なパフォーマンスを実現している。
音声認識, 理解, 生成のための新しい音声・テキストGPTベースのLLMであるLauraGPTを提案する。
論文 参考訳(メタデータ) (2023-10-07T03:17:59Z) - VoiceLDM: Text-to-Speech with Environmental Context [22.29992463094861]
VoiceLDMは、2つの異なる自然言語のプロンプトを正確に追従するオーディオを生成するために設計されたモデルである。
事前訓練されたコントラスト言語事前訓練(CLAP)とWhisperを利用することで、VoiceLDMは手動の注釈や書き起こしなしに大量の現実世界のオーディオで訓練される。
我々は,VoiceLDMが両入力条件に整合した可塑性音声を生成することができることを示す。
論文 参考訳(メタデータ) (2023-09-24T15:20:59Z) - WavJourney: Compositional Audio Creation with Large Language Models [38.39551216587242]
We present WavJourney, a novel framework that leverages Large Language Models to connect various audio model for audio creation。
WavJourneyを使えば、ユーザーはテキストによる説明だけで様々なオーディオ要素でストーリーテリングオーディオコンテンツを作成できる。
We show that WavJourney are capable to synthesize real audio aligned with textual-description semantic, spatial and temporal conditions。
論文 参考訳(メタデータ) (2023-07-26T17:54:04Z) - AudioPaLM: A Large Language Model That Can Speak and Listen [79.44757696533709]
本稿では,音声理解・生成のための大規模言語モデルであるAudioPaLMを紹介する。
AudioPaLMはテキストベースの言語モデルと音声ベースの言語モデルを融合する。
音声認識や音声音声翻訳などの応用により、テキストと音声を処理および生成することができる。
論文 参考訳(メタデータ) (2023-06-22T14:37:54Z) - SpeechUT: Bridging Speech and Text with Hidden-Unit for Encoder-Decoder
Based Speech-Text Pre-training [106.34112664893622]
本稿では,音声エンコーダとテキストデコーダの表現を共有単位エンコーダに接続する,統一モーダル音声単位テキスト事前学習モデルであるSpeechUTを提案する。
提案するSpeechUTは,自動音声認識(ASR)と音声翻訳(ST)タスクに基づいて微調整および評価を行う。
論文 参考訳(メタデータ) (2022-10-07T17:57:45Z) - Zero-Shot Text-to-Speech for Text-Based Insertion in Audio Narration [62.75234183218897]
話者の訓練データなしで自然かつ一貫性のあるターゲット音声を生成する一段階の文脈認識フレームワークを提案する。
変換器をベースとしたデコーダを用いて,編集音声のメルスペクトルを生成する。
これは最近のゼロショット TTS エンジンを大きなマージンで上回っている。
論文 参考訳(メタデータ) (2021-09-12T04:17:53Z) - PodSumm -- Podcast Audio Summarization [0.0]
テキストドメインからのガイダンスを用いて,ポッドキャストの要約を自動的に作成する手法を提案する。
このタスクにはデータセットが不足しているため、内部データセットをキュレートし、データ拡張の効果的なスキームを見つけ、アノテータから要約を集めるためのプロトコルを設計する。
本手法は, ROUGE-F(1/2/L) スコア0.63/0.53/0.63をデータセット上で達成する。
論文 参考訳(メタデータ) (2020-09-22T04:49:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。