論文の概要: UniPPTBench: A Unified Benchmark for Presentation Generation Across Diverse Input Settings
- arxiv url: http://arxiv.org/abs/2605.17356v1
- Date: Sun, 17 May 2026 09:50:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 17:57:47.917642
- Title: UniPPTBench: A Unified Benchmark for Presentation Generation Across Diverse Input Settings
- Title(参考訳): UniPPTBench: 複数入力設定間のプレゼンテーション生成のための統一ベンチマーク
- Authors: Bo Zhao, Maosheng Pang, Chen Zhang, Huan Yang, Yixin Cao, Wei Ji,
- Abstract要約: 既存の作業は通常、独立した入力設定下でのプレゼンテーション生成に重点を置いている。
現実世界のユースケースは、曖昧なユーザプロンプト、長いドキュメント、マルチモーダル素材、複数の異種ソースなど、さまざまなシナリオにまたがっています。
提案するUniPPTBenchは,4つの代表的な入力設定にまたがって,プレゼンテーション生成のための統一ベンチマークである。
- 参考スコア(独自算出の注目度): 23.076274859522883
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing works typically focus on presentation generation under isolated input settings, whereas real-world use cases span diverse scenarios, including vague user prompts, long documents, multimodal materials, and multiple heterogeneous sources. Moreover, current evaluations are often insufficiently scenario-specific. They mainly rely on generic presentation-quality criteria, such as visual appeal, layout quality, and overall coherence, but fail to assess the core capabilities required by different input settings, including grounded compression, visual-text alignment, and cross-source synthesis. Consequently, the field lacks a unified benchmark and a scenario-aware evaluation framework for faithfully diagnosing presentation-generation systems across diverse real-world settings. We present UniPPTBench, a unified benchmark for presentation generation across four representative input settings: vague-prompt, long-document, multimodal-document, and multi-source generation. We further introduce UniPPTEval, a scenario-aware evaluation protocol that combines shared metrics for cross-setting comparison with scenario-specific metrics tailored to the core requirements of each setting. We also provide transparent reference baselines to support reproducible comparison. Experiments on UniPPTBench reveal substantial performance variation across settings and recurring failure modes in content grounding, multimodal integration, and cross-source synthesis. In particular, strong performance on generic presentation-quality metrics does not necessarily imply strong task fulfillment in grounded scenarios. Together, UniPPTBench and UniPPTEval provide a faithful and diagnostic foundation for evaluating presentation generation across diverse real-world scenarios. Code and data will be publicly available.
- Abstract(参考訳): 既存の作業は、独立した入力設定下でのプレゼンテーション生成に重点を置いているのに対し、実際のユースケースは、曖昧なユーザプロンプト、長いドキュメント、マルチモーダル素材、複数の異種ソースなど、さまざまなシナリオにまたがっている。
さらに、現在の評価は、しばしばシナリオ固有である。
それらは主に、視覚的魅力、レイアウト品質、全体的なコヒーレンスといった一般的なプレゼンテーション品質基準に依存しているが、基底圧縮、ビジュアルテキストアライメント、クロスソース合成など、異なる入力設定で必要とされるコア機能の評価には失敗した。
その結果、フィールドには統一されたベンチマークと、様々な実世界の環境にまたがるプレゼンテーション生成システムを忠実に診断するためのシナリオ対応評価フレームワークが欠如している。
提案するUniPPTBenchは、あいまいなプロンプト、長いドキュメント、マルチモーダルドキュメント、マルチソース生成という4つの代表的な入力設定にまたがる、プレゼンテーション生成のための統一ベンチマークである。
さらに、シナリオ対応評価プロトコルUniPPTEvalを導入し、各設定のコア要件に合わせたシナリオ固有のメトリクスとクロスセット比較のための共有メトリクスを組み合わせる。
また、再現可能な比較をサポートするために、透過的な参照ベースラインも提供します。
UniPPTBenchの実験では、コンテントグラウンディング、マルチモーダル統合、クロスソース合成において、設定と繰り返し発生する障害モードの大幅なパフォーマンス変化が示されている。
特に、汎用的なプレゼンテーション品質のメトリクスに対する強いパフォーマンスは、基礎的なシナリオにおいて、必ずしも強いタスク充足を暗示するわけではない。
UniPPTBenchとUniPPTEvalは共に、さまざまな実世界のシナリオにおけるプレゼンテーション生成を評価するための忠実で診断的な基盤を提供する。
コードとデータは公開されます。
関連論文リスト
- UniDial-EvalKit: A Unified Toolkit for Evaluating Multi-Faceted Conversational Abilities [70.79422099851506]
対話型AIシステム評価のための統合評価ツールキットUniDial-EvalKit(UDE)を提案する。
UDEは異種データフォーマットを普遍的なスキーマに標準化し、モジュールアーキテクチャを通じて複雑な評価パイプラインを合理化し、一貫したスコアリングインターフェースの下でメートル法計算を調整する。
論文 参考訳(メタデータ) (2026-03-24T13:01:31Z) - Beyond Global Similarity: Towards Fine-Grained, Multi-Condition Multimodal Retrieval [27.493644447594367]
MCMR (Multi-Conditional Multimodal Retrieval) は、自然言語クエリによる細粒度・多条件クロスモーダル検索を評価するために設計された大規模ベンチマークである。
製品ドメインは、上着と下着、宝石、靴、家具の5つ。
MLLMベースのマルチモーダルレトリバーと視覚言語リランカの多種多様なスイートをベンチマークし,その条件認識推論能力を評価する。
論文 参考訳(メタデータ) (2026-03-01T12:53:47Z) - Federated Prompt-Tuning with Heterogeneous and Incomplete Multimodal Client Data [22.933465523798475]
本稿では,フェデレートラーニングとマルチモーダル・プロンプトチューニングのギャップを埋める。
この設定における重要な課題は、プロンプトインストラクション間のセマンティックアライメントの欠如から生じる。
我々のフレームワークは、プロンプトチューニング命令を同時に最適化し、調整し、集約する特別なクライアントチューニングとサーバアグリゲーションの設計を導入している。
論文 参考訳(メタデータ) (2026-02-06T03:53:35Z) - Soft Contextualized Encoder For User Defined Text Classification [2.6107088019301252]
User-Defined Text Classification (UDTC) は、入力テキストをユーザ指定の未確認クラスに分類することの難しさを考察している。
本稿では,各候補ラベルをラベルセットで文脈化し,入力クエリの静的なソフトプロンプト表現を行うUDTC用ソフトコンテクスト化エンコーダアーキテクチャを提案する。
論文 参考訳(メタデータ) (2026-01-06T22:34:50Z) - UniREditBench: A Unified Reasoning-based Image Editing Benchmark [52.54256348710893]
この研究は、推論に基づく画像編集評価のための統一ベンチマークUniREditBenchを提案する。
精巧にキュレートされた2,700個のサンプルからなり、8つの一次次元と18のサブ次元にわたる実世界シナリオとゲーム世界のシナリオをカバーしている。
このデータセットにBagelを微調整し、UniREdit-Bagelを開発した。
論文 参考訳(メタデータ) (2025-11-03T07:24:57Z) - UNIDOC-BENCH: A Unified Benchmark for Document-Centric Multimodal RAG [82.84014669683863]
マルチモーダル検索拡張生成(MM-RAG)は,大規模言語モデルを現実世界の知識ベースに適用するための重要なアプローチである。
UniDoc-Benchは、70万の現実世界のPDFページから構築されたMM-RAGのための最初の大規模で現実的なベンチマークである。
実験により,マルチモーダルテキスト画像融合RAGシステムは,非モーダルおよび共同マルチモーダル埋め込みに基づく検索において一貫して優れていた。
論文 参考訳(メタデータ) (2025-10-04T04:30:13Z) - MMESGBench: Pioneering Multimodal Understanding and Complex Reasoning Benchmark for ESG Tasks [56.350173737493215]
環境・社会・ガバナンス(ESG)報告は、持続可能性の実践の評価、規制コンプライアンスの確保、財務透明性の促進に不可欠である。
MMESGBenchは、マルチモーダル理解と複雑な推論を、構造的に多種多様なマルチソースESG文書間で評価するための、最初のベンチマークデータセットである。
MMESGBenchは、45のESG文書から得られた933の検証済みQAペアで構成され、7つの異なるドキュメントタイプと3つの主要なESGソースカテゴリにまたがる。
論文 参考訳(メタデータ) (2025-07-25T03:58:07Z) - Distribution Aware Metrics for Conditional Natural Language Generation [3.6350564275444173]
既存のメトリクスは、視覚的記述や、基底真理が意味論的に多様であるような要約のような領域には適さないと論じる。
条件付き言語生成モデルのマルチ候補評価のための新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2022-09-15T17:58:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。