論文の概要: PodEval: A Multimodal Evaluation Framework for Podcast Audio Generation
- arxiv url: http://arxiv.org/abs/2510.00485v1
- Date: Wed, 01 Oct 2025 04:08:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 14:32:17.192183
- Title: PodEval: A Multimodal Evaluation Framework for Podcast Audio Generation
- Title(参考訳): PodEval: Podcastオーディオ生成のためのマルチモーダル評価フレームワーク
- Authors: Yujia Xiao, Liumeng Xue, Lei He, Xinyi Chen, Aemon Yat Fei Chiu, Wenjie Tian, Shaofei Zhang, Qiuqiang Kong, Xinfa Zhu, Wei Xue, Tan Lee,
- Abstract要約: ポッドキャストのようなオーディオ生成を出発点として,オープンソース評価フレームワークのPodEvalを提案する。
本研究では,人間レベルの創造的品質の基準として,多種多様なトピックにまたがる実世界のポッドキャストデータセットを構築した。
その結果、ポッドキャスト生成に関する詳細な分析と洞察を提供し、PodEvalの有効性を実証した。
- 参考スコア(独自算出の注目度): 32.72155456223403
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, an increasing number of multimodal (text and audio) benchmarks have emerged, primarily focusing on evaluating models' understanding capability. However, exploration into assessing generative capabilities remains limited, especially for open-ended long-form content generation. Significant challenges lie in no reference standard answer, no unified evaluation metrics and uncontrollable human judgments. In this work, we take podcast-like audio generation as a starting point and propose PodEval, a comprehensive and well-designed open-source evaluation framework. In this framework: 1) We construct a real-world podcast dataset spanning diverse topics, serving as a reference for human-level creative quality. 2) We introduce a multimodal evaluation strategy and decompose the complex task into three dimensions: text, speech and audio, with different evaluation emphasis on "Content" and "Format". 3) For each modality, we design corresponding evaluation methods, involving both objective metrics and subjective listening test. We leverage representative podcast generation systems (including open-source, close-source, and human-made) in our experiments. The results offer in-depth analysis and insights into podcast generation, demonstrating the effectiveness of PodEval in evaluating open-ended long-form audio. This project is open-source to facilitate public use: https://github.com/yujxx/PodEval.
- Abstract(参考訳): 近年,主にモデルの理解能力を評価することに焦点を当てたマルチモーダル(テキストとオーディオ)ベンチマークが増えている。
しかし、特にオープンエンドの長文コンテンツ生成において、生成能力の評価は限定的である。
重要な課題は、参照標準回答も、統一された評価指標も、制御不能な人間の判断も存在しないことである。
本研究では,ポッドキャストのような音声生成を出発点として,総合的でよく設計されたオープンソース評価フレームワークであるPodEvalを提案する。
このフレームワークでは、
1) 多様なトピックにまたがる実世界のポッドキャストデータセットを構築し,人間レベルの創造的品質の基準として機能する。
2) マルチモーダルな評価戦略を導入し, 複雑なタスクをテキスト, 音声, 音声の3次元に分解する。
3) 主観的尺度と主観的聴力テストの両方を含む評価手法を設計する。
実験では,代表的ポッドキャスト生成システム(オープンソース,オープンソース,ヒューマンメイドなど)を活用している。
その結果、ポッドキャスト生成に関する詳細な分析と洞察が提供され、オープンエンドロングフォームオーディオの評価におけるPodEvalの有効性が実証された。
このプロジェクトは、 https://github.com/yujxx/PodEval.com/ でパブリック利用を促進するためにオープンソースである。
関連論文リスト
- AHELM: A Holistic Evaluation of Audio-Language Models [78.20477815156484]
マルチモーダルオーディオ言語モデル(ALM)は、インターリーブされた音声とテキストを入力および出力テキストとして取り込む。
AHELMは、PARADEとCoRe-Benchと呼ばれる2つの新しい合成オーディオテキストデータセットを含む、さまざまなデータセットを集約するベンチマークである。
また、モデル間の等価比較を確保するために、プロンプト、推論パラメータ、評価指標を標準化する。
論文 参考訳(メタデータ) (2025-08-29T07:40:39Z) - Rhapsody: A Dataset for Highlight Detection in Podcasts [49.576469262265455]
Rhapsodyは13Kポッドキャストのエピソードで、セグメントレベルのハイライトと組み合わせています。
ポッドキャストハイライト検出をセグメントレベルのバイナリ分類タスクとして設定する。
様々なベースライン言語モデルと軽量な微調整言語モデルについて検討する。
論文 参考訳(メタデータ) (2025-05-26T02:39:34Z) - PodAgent: A Comprehensive Framework for Podcast Generation [27.525007982804425]
PodAgentはポッドキャストのようなオーディオプログラムを作成するためのフレームワークである。
ホスト-ゲスト-ライター・マルチエージェント協調システムの設計により、情報的トピック・ディスカッションコンテンツを生成する。
適切な音声ロールマッチングのための音声プールを構築し、LLM強化音声合成法を用いて、表現力のある会話音声を生成する。
論文 参考訳(メタデータ) (2025-03-01T11:35:17Z) - Mapping the Podcast Ecosystem with the Structured Podcast Research Corpus [23.70786221902932]
私たちは2020年5月から6月にかけて、公開RSSフィードを通じて利用可能な110万以上のポッドキャストの大規模なデータセットを紹介します。
このデータはテキストに限らず、オーディオ機能や370Kエピソードのサブセットのスピーカー・ターンも含んでいる。
このデータを用いて、このポピュラーなインパクトのある媒体の内容、構造、応答性に関する基礎的な調査を行う。
論文 参考訳(メタデータ) (2024-11-12T15:56:48Z) - AIR-Bench: Benchmarking Large Audio-Language Models via Generative Comprehension [95.8442896569132]
AIR-Benchは,Large Audio-Language Models (LALM) の様々な種類の音声信号を理解し,テキスト形式で人間と対話する能力を評価する最初のベンチマークである。
その結果, GPT-4による評価と人間による評価との間には高い一貫性が認められた。
論文 参考訳(メタデータ) (2024-02-12T15:41:22Z) - Topic Modeling on Podcast Short-Text Metadata [0.9539495585692009]
短いテキストのモデリング技術を用いて,ポッドキャストのメタデータやタイトル,記述から関連トピックを発見できる可能性を評価する。
非負行列因子化モデリングフレームワークにおいて、しばしばポッドキャストメタデータに現れる名前付きエンティティ(NE)に対する新しい戦略を提案する。
SpotifyとiTunesとDeezerの既存の2つのデータセットに対する実験により、提案したドキュメント表現であるNEiCEがベースラインの一貫性を改善していることが示された。
論文 参考訳(メタデータ) (2022-01-12T11:07:05Z) - A Two-Phase Approach for Abstractive Podcast Summarization [18.35061145103997]
ポッドキャストの要約は他のデータフォーマットの要約とは異なる。
文選択とSeq2seq学習という2段階の手法を提案する。
提案手法は,ROUGEに基づく測定と人的評価の両面で有望な結果をもたらす。
論文 参考訳(メタデータ) (2020-11-16T21:31:28Z) - PodSumm -- Podcast Audio Summarization [0.0]
テキストドメインからのガイダンスを用いて,ポッドキャストの要約を自動的に作成する手法を提案する。
このタスクにはデータセットが不足しているため、内部データセットをキュレートし、データ拡張の効果的なスキームを見つけ、アノテータから要約を集めるためのプロトコルを設計する。
本手法は, ROUGE-F(1/2/L) スコア0.63/0.53/0.63をデータセット上で達成する。
論文 参考訳(メタデータ) (2020-09-22T04:49:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。