論文の概要: PodBench: A Comprehensive Benchmark for Instruction-Aware Audio-Oriented Podcast Script Generation
- arxiv url: http://arxiv.org/abs/2601.14903v1
- Date: Wed, 21 Jan 2026 11:41:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-22 21:27:50.346122
- Title: PodBench: A Comprehensive Benchmark for Instruction-Aware Audio-Oriented Podcast Script Generation
- Title(参考訳): PodBench: インストラクションを意識したPodcastスクリプト生成のための総合ベンチマーク
- Authors: Chenning Xu, Mao Zheng, Mingyu Zheng, Mingyang Song,
- Abstract要約: PodBenchは、最大21Kトークンと複雑なマルチスピーカー命令を備えた800のサンプルからなるベンチマークである。
明示的な推論を備えたオープンソースモデルは、長いコンテキストを扱う際に優れた堅牢性を示す。
分析の結果,高次命令が高内容の物質を保証しない持続的分岐が明らかになった。
- 参考スコア(独自算出の注目度): 18.44419057748292
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Podcast script generation requires LLMs to synthesize structured, context-grounded dialogue from diverse inputs, yet systematic evaluation resources for this task remain limited. To bridge this gap, we introduce PodBench, a benchmark comprising 800 samples with inputs up to 21K tokens and complex multi-speaker instructions. We propose a multifaceted evaluation framework that integrates quantitative constraints with LLM-based quality assessment. Extensive experiments reveal that while proprietary models generally excel, open-source models equipped with explicit reasoning demonstrate superior robustness in handling long contexts and multi-speaker coordination compared to standard baselines. However, our analysis uncovers a persistent divergence where high instruction following does not guarantee high content substance. PodBench offers a reproducible testbed to address these challenges in long-form, audio-centric generation.
- Abstract(参考訳): Podcastスクリプト生成には、様々な入力から構造化されたコンテキスト基底対話を合成する必要があるが、このタスクの体系的な評価資源は限られている。
このギャップを埋めるために、最大21Kトークンと複雑なマルチスピーカー命令を含む800個のサンプルからなるベンチマークであるPodBenchを導入する。
LLMに基づく品質評価と定量的制約を統合する多面的評価フレームワークを提案する。
大規模な実験により、プロプライエタリなモデルは概ね優れているが、明示的な推論を備えたオープンソースモデルは、標準ベースラインよりも長いコンテキストやマルチスピーカーコーディネートに優れたロバスト性を示すことが明らかになった。
しかし,本分析では,高次命令が高内容の物質を保証しない持続的分岐が明らかとなった。
PodBenchは、これらの課題に長めのオーディオ中心の世代で対処するための再現可能なテストベッドを提供する。
関連論文リスト
- VCB Bench: An Evaluation Benchmark for Audio-Grounded Large Language Model Conversational Agents [53.33704332801441]
大規模音声言語モデル (LALM) は多モード対話システムを大幅に強化した。
既存のベンチマークは主に英語中心であり、合成音声に依存しており、包括的で差別的な評価を欠いている。
我々はVoice Chat Bot Bench(VCB Bench)を紹介します。
論文 参考訳(メタデータ) (2025-10-13T07:45:52Z) - MAGNET: A Multi-agent Framework for Finding Audio-Visual Needles by Reasoning over Multi-Video Haystacks [67.31276358668424]
AV-HaystacksQAという新しいタスクを導入し、クエリに応答して、異なるビデオにまたがる有能なセグメントを識別し、それらをリンクして最も有意義な回答を生成する。
AVHaystacksは、マルチビデオ検索および時間的グラウンドタスクにおけるLMMの能力を評価するために設計された3100の注釈付きQAペアからなるオーディオビジュアルベンチマークである。
提案するAVHaystackのQAタスクにおけるBLEU@4およびGPT評価スコアの基準値よりも89%と65%の相対的な改善を実現し、モデルに依存しないマルチエージェントフレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-08T06:34:29Z) - AVTrustBench: Assessing and Enhancing Reliability and Robustness in Audio-Visual LLMs [70.4578433679737]
我々は9つの細工されたタスクにまたがる600万のサンプルからなるAudio-Visual Trustworthiness Assessment Benchmark (AVTrustBench)を紹介する。
ベンチマークを用いて、13の最先端AVLLMを広範囲に評価した。
その結果、既存のモデルのほとんどは、人間のような理解を達成できないことが判明した。
論文 参考訳(メタデータ) (2025-01-03T23:03:24Z) - ELITR-Bench: A Meeting Assistant Benchmark for Long-Context Language Models [25.74741863885925]
本稿では,現実的な会議支援シナリオに着目した長文LLMのための新しいベンチマークを提案する。
当社のベンチマークであるELITR-Benchは、既存のERLITRコーパスを拡張し、271の質問を手作業で行うことで、真真正な回答を与えています。
ELITR-Bench上の12個の長文LLMによる実験により、プロプライエタリモデルとオープンモデルの両方の世代間で進行が確認された。
論文 参考訳(メタデータ) (2024-03-29T16:13:31Z) - Dynamic-SUPERB: Towards A Dynamic, Collaborative, and Comprehensive Instruction-Tuning Benchmark for Speech [107.81472531864195]
テキスト言語モデルは、よく整形された命令が与えられたときに、目に見えないタスクに一般化する際、顕著なゼロショット能力を示している。
ゼロショット方式で複数のタスクを実行するための命令チューニングを活用できるユニバーサル音声モデルを構築するためのベンチマークであるDynamic-SUPERBを提案する。
論文 参考訳(メタデータ) (2023-09-18T06:43:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。