論文の概要: Automatic Slide Updating with User-Defined Dynamic Templates and Natural Language Instructions
- arxiv url: http://arxiv.org/abs/2604.17894v1
- Date: Mon, 20 Apr 2026 07:11:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-21 21:52:52.743618
- Title: Automatic Slide Updating with User-Defined Dynamic Templates and Natural Language Instructions
- Title(参考訳): ユーザ定義動的テンプレートと自然言語命令による自動スライド更新
- Authors: Kun Zhou, Jiakai He, Wenmian Yang, Zhensheng Wang, Yiquan Zhang, Weijia Jia,
- Abstract要約: 既存の自動化方法は、主に固定されたテンプレートフィリングに従っており、多様なユーザによるスライドデッキの動的更新をサポートできない。
我々は,2,036個の実世界の命令実行トリプル(ソーススライド,ユーザ命令,ターゲットスライド)を共有外部データベースに格納した大規模ベンチマークであるDynaSlideを紹介した。
SlideAgentはマルチモーダルなスライド解析、自然言語命令のグラウンド化、テーブル、チャート、テキストの結論に対するツール拡張推論を組み合わせたエージェントベースのフレームワークである。
- 参考スコア(独自算出の注目度): 22.596430902964272
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Presentation slides are a primary medium for data-driven reporting, yet keeping complex, analytics-style decks up to date remains labor-intensive. Existing automation methods mostly follow fixed template filling and cannot support dynamic updates for diverse, user-authored slide decks. We therefore define "Dynamic Slide Update via Natural Language Instructions on User-provided Templates" and introduce DynaSlide, a large-scale benchmark with 20,036 real-world instruction-execution triples (source slide, user instruction, target slide) grounded in a shared external database and built from business reporting slides under bring-your-own-template (BYO-template) conditions. To tackle this task, we propose SlideAgent, an agent-based framework that combines multimodal slide parsing, natural language instruction grounding, and tool-augmented reasoning for tables, charts, and textual conclusions. SlideAgent updates content while preserving layout and style, providing a strong reference baseline on DynaSlide. We further design end-to-end and component-level evaluation protocols that reveal key challenges and opportunities for future research. The dataset and code are available at https://github.com/XiaoZhou2024/SlideAgent.
- Abstract(参考訳): プレゼンテーションスライドは、データ駆動レポートの主要な媒体であるが、複雑な分析スタイルのデッキを最新に維持することは、労働集約的だ。
既存の自動化方法は、主に固定されたテンプレートフィリングに従っており、多様なユーザによるスライドデッキの動的更新をサポートできない。
そこで我々は、“ユーザ提供テンプレートの自然言語命令による動的スライド更新”を定義し,20,036個の実世界の命令実行トリプル(ソーススライド,ユーザ命令,ターゲットスライド)を備えた大規模ベンチマークであるDynaSlideを紹介した。
この課題に対処するためにSlideAgentというエージェントベースのフレームワークを提案する。これはマルチモーダルなスライド解析、自然言語命令の接地、テーブル、チャート、テキストの結論に対するツール拡張推論を組み合わせたフレームワークである。
SlideAgentはレイアウトとスタイルを維持しながらコンテンツを更新し、DynaSlideの強力なリファレンスベースラインを提供する。
今後の研究の鍵となる課題と機会を明らかにするため、エンド・ツー・エンドおよびコンポーネントレベルの評価プロトコルをさらに設計する。
データセットとコードはhttps://github.com/XiaoZhou2024/SlideAgent.comで公開されている。
関連論文リスト
- DECKBench: Benchmarking Multi-Agent Frameworks for Academic Slide Generation and Editing [11.47669592304878]
マルチエージェントスライド生成および編集のための評価フレームワークであるDeck Edits and Compliance Benchmark (DECKBench)を紹介する。
評価プロトコルは,スライドレベルとデッキレベルの忠実度,コヒーレンス,レイアウト品質,マルチターン命令を体系的に評価する。
さらに,スライド生成と編集タスクをペーパー解析,要約,スライド計画,HTML作成,反復編集に分解するモジュール型マルチエージェントベースラインシステムを実装した。
論文 参考訳(メタデータ) (2026-02-10T19:49:06Z) - Affordance Representation and Recognition for Autonomous Agents [64.39018305018904]
本稿では,構造化データを用いた世界モデリングのためのパターン言語を提案する。
DOMトランスダクションパターンは、Webページの複雑さの課題に対処する。
Hypermedia Affordances Recognition Patternは、エージェントがその世界モデルを動的に強化することを可能にする。
論文 参考訳(メタデータ) (2025-10-28T14:27:28Z) - DynamicBench: Evaluating Real-Time Report Generation in Large Language Models [88.33301034147546]
提案するDynamicBenchは,大規模言語モデルのデータの保存と処理能力を評価するためのベンチマークである。
外部文書の提供または保持のシナリオでモデルを評価することで、DynamicBenchは、最新の情報を独立して処理したり、コンテキスト拡張を利用する能力を効果的に測定する。
GPT4oを7.0%,GPT4oを5.8%,GPT4oを7.0%,GPT4oを5.8%で上回り,本手法の有効性を確認した。
論文 参考訳(メタデータ) (2025-06-26T14:53:44Z) - Talk to Your Slides: Language-Driven Agents for Efficient Slide Editing [28.792459459465515]
本研究では、スライドを%のアクティブPowerPointセッションで編集するエージェントであるTalk-to-Your-Slidesを提案する。
我々のシステムでは、34.02%の高速処理、34.76%の命令忠実度、87.42%の動作がベースラインよりも安価である。
論文 参考訳(メタデータ) (2025-05-16T18:12:26Z) - Textual-to-Visual Iterative Self-Verification for Slide Generation [46.99825956909532]
欠落したプレゼンテーションスライドを生成するタスクを,コンテンツ生成とレイアウト生成という2つの重要なコンポーネントに分解する。
提案手法は,アライメント,論理フロー,視覚的魅力,可読性の観点から,ベースライン手法を著しく上回っている。
論文 参考訳(メタデータ) (2025-02-21T12:21:09Z) - AutoPresent: Designing Structured Visuals from Scratch [99.766901203884]
エンド・ツー・エンドの画像生成とプログラム生成を様々なモデルでベンチマークする。
スライド生成用のコードと7kペアの命令でトレーニングされた8B LlamaベースのモデルであるAutoPresentを開発した。
論文 参考訳(メタデータ) (2025-01-01T18:09:32Z) - DOC2PPT: Automatic Presentation Slides Generation from Scientific
Documents [76.19748112897177]
文書・スライド生成のための新しい課題とアプローチを提案する。
エンドツーエンドでタスクに取り組むための階層的なシーケンス・ツー・シーケンスアプローチを提案する。
提案手法では,文書やスライド内の固有構造を利用して,パラフレーズとレイアウト予測モジュールを組み込んでスライドを生成する。
論文 参考訳(メタデータ) (2021-01-28T03:21:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。