論文の概要: DECKBench: Benchmarking Multi-Agent Frameworks for Academic Slide Generation and Editing
- arxiv url: http://arxiv.org/abs/2602.13318v1
- Date: Tue, 10 Feb 2026 19:49:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-17 14:17:27.91034
- Title: DECKBench: Benchmarking Multi-Agent Frameworks for Academic Slide Generation and Editing
- Title(参考訳): DECKBench: 学術的なスライド生成と編集のためのマルチエージェントフレームワークのベンチマーク
- Authors: Daesik Jang, Morgan Lindsay Heisler, Linzi Xing, Yifei Li, Edward Wang, Ying Xiong, Yong Zhang, Zhenan Fan,
- Abstract要約: マルチエージェントスライド生成および編集のための評価フレームワークであるDeck Edits and Compliance Benchmark (DECKBench)を紹介する。
評価プロトコルは,スライドレベルとデッキレベルの忠実度,コヒーレンス,レイアウト品質,マルチターン命令を体系的に評価する。
さらに,スライド生成と編集タスクをペーパー解析,要約,スライド計画,HTML作成,反復編集に分解するモジュール型マルチエージェントベースラインシステムを実装した。
- 参考スコア(独自算出の注目度): 11.47669592304878
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Automatically generating and iteratively editing academic slide decks requires more than document summarization. It demands faithful content selection, coherent slide organization, layout-aware rendering, and robust multi-turn instruction following. However, existing benchmarks and evaluation protocols do not adequately measure these challenges. To address this gap, we introduce the Deck Edits and Compliance Kit Benchmark (DECKBench), an evaluation framework for multi-agent slide generation and editing. DECKBench is built on a curated dataset of paper to slide pairs augmented with realistic, simulated editing instructions. Our evaluation protocol systematically assesses slide-level and deck-level fidelity, coherence, layout quality, and multi-turn instruction following. We further implement a modular multi-agent baseline system that decomposes the slide generation and editing task into paper parsing and summarization, slide planning, HTML creation, and iterative editing. Experimental results demonstrate that the proposed benchmark highlights strengths, exposes failure modes, and provides actionable insights for improving multi-agent slide generation and editing systems. Overall, this work establishes a standardized foundation for reproducible and comparable evaluation of academic presentation generation and editing. Code and data are publicly available at https://github.com/morgan-heisler/DeckBench .
- Abstract(参考訳): 学術スライドを自動生成し、反復的に編集するには、ドキュメントの要約以上のものが必要である。
忠実なコンテンツ選択、一貫性のあるスライド構成、レイアウト対応レンダリング、堅牢なマルチターン命令が要求される。
しかし、既存のベンチマークや評価プロトコルはこれらの課題を十分に評価していない。
このギャップに対処するために、マルチエージェントスライド生成および編集のための評価フレームワークであるDeck Edits and Compliance Kit Benchmark (DECKBench)を導入する。
DECKBenchは、リアルでシミュレートされた編集命令で強化されたペアをスライドするために、紙のキュレートされたデータセット上に構築されている。
評価プロトコルは,スライドレベルとデッキレベルの忠実度,コヒーレンス,レイアウト品質,マルチターン命令を体系的に評価する。
さらに,スライド生成と編集タスクをペーパー解析,要約,スライド計画,HTML作成,反復編集に分解するモジュール型マルチエージェントベースラインシステムを実装した。
実験の結果,提案ベンチマークは強みを強調し,故障モードを露呈し,マルチエージェントのスライド生成と編集システムを改善するための実用的な洞察を提供することがわかった。
本研究は,学術的なプレゼンテーション生成と編集の再現性と同等の評価のための標準化された基盤を確立する。
コードとデータはhttps://github.com/morgan-heisler/DeckBench で公開されている。
関連論文リスト
- MiLDEdit: Reasoning-Based Multi-Layer Design Document Editing [67.28337411397062]
マルチレイヤ文書編集エージェント(MiLDEAgent)について紹介する。
MiLDEAgentは、レイヤワイドな理解のためのRLトレーニングされたマルチモーダル推論と、ターゲットとする修正のためのイメージエディタを組み合わせた推論ベースのフレームワークである。
MiLDEAgentは強力なレイヤ認識推論と正確な編集を実現し、すべてのオープンソースベースラインを著しく上回り、クローズドソースモデルに匹敵するパフォーマンスを達成する。
論文 参考訳(メタデータ) (2026-01-08T04:38:07Z) - SlideGen: Collaborative Multimodal Agents for Scientific Slide Generation [26.4357968329723]
SlideGenは、科学論文をスライド生成するためのループフレームワークにおいて、エージェント的でモジュール的でビジュアルである。
ドキュメントの構造とセマンティクスを協調的に操作する視覚言語エージェントのグループを編成し、論理フローと魅力的なビジュアルプレゼンテーションを備えた編集可能なXスライドを生成する。
論文 参考訳(メタデータ) (2025-12-04T07:22:16Z) - PPTArena: A Benchmark for Agentic PowerPoint Editing [57.55409966131844]
我々はPowerPoint編集のベンチマークを導入し、自然言語による実際のスライドに対する信頼性のある修正を計測する。
PPTArenaは100のデッキ、2125のスライド、テキスト、チャート、テーブル、アニメーション、マスターレベルのスタイルを対象とする800以上の編集に焦点を当てている。
本稿では,意味的な編集シーケンス,ハイレベルなプログラムツール間の経路,そして正確な制御のための決定論的XML操作を計画する構造対応スライド編集エージェントを提案する。
論文 参考訳(メタデータ) (2025-12-02T18:59:50Z) - ComplexBench-Edit: Benchmarking Complex Instruction-Driven Image Editing via Compositional Dependencies [13.525744033075785]
実世界のシナリオは複雑なマルチステップ命令、特に操作が相互依存しているチェーンの命令を含むことが多い。
現在のモデルではこれらの複雑なディレクティブに苦労しており、既存のベンチマークではそのような機能の評価が不十分である。
複雑・マルチインストラクション・チェーンに依存した画像編集タスクにおいて,モデル性能を体系的に評価する新しいベンチマークであるcomplexBench-Editを導入する。
論文 参考訳(メタデータ) (2025-06-15T12:22:55Z) - Image Editing As Programs with Diffusion Models [69.05164729625052]
本稿では,Diffusion Transformer (DiT) アーキテクチャ上に構築された統合画像編集フレームワークである IEAP (Image Editing As Programs) を紹介する。
IEAPは、複雑な編集命令を原子操作のシーケンスに分解して、リダミストレンズによる命令編集にアプローチする。
我々のフレームワークは、特に複雑なマルチステップ命令に対して、より優れた精度とセマンティック忠実度を提供する。
論文 参考訳(メタデータ) (2025-06-04T16:57:24Z) - CompBench: Benchmarking Complex Instruction-guided Image Editing [63.347846732450364]
CompBenchは複雑な命令誘導画像編集のための大規模なベンチマークである。
本稿では,タスクパイプラインを調整したMLLM-ヒューマン協調フレームワークを提案する。
編集意図を4つの重要な次元に分割する命令分離戦略を提案する。
論文 参考訳(メタデータ) (2025-05-18T02:30:52Z) - EditEval: An Instruction-Based Benchmark for Text Improvements [73.5918084416016]
編集機能の自動評価のためのインストラクションベース、ベンチマーク、評価スイートであるEditEvalを提示する。
InstructGPTとPEERが最良であることを示す事前学習モデルをいくつか評価するが,ほとんどのベースラインは教師付きSOTA以下である。
我々の分析は、タスクの編集によく使われるメトリクスが必ずしも相関しているとは限らないことを示し、最高の性能を持つプロンプトに対する最適化は、必ずしも異なるモデルに対して強い堅牢性を持つとは限らないことを示唆している。
論文 参考訳(メタデータ) (2022-09-27T12:26:05Z) - DOC2PPT: Automatic Presentation Slides Generation from Scientific
Documents [76.19748112897177]
文書・スライド生成のための新しい課題とアプローチを提案する。
エンドツーエンドでタスクに取り組むための階層的なシーケンス・ツー・シーケンスアプローチを提案する。
提案手法では,文書やスライド内の固有構造を利用して,パラフレーズとレイアウト予測モジュールを組み込んでスライドを生成する。
論文 参考訳(メタデータ) (2021-01-28T03:21:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。