論文の概要: PPTArena: A Benchmark for Agentic PowerPoint Editing
- arxiv url: http://arxiv.org/abs/2512.03042v1
- Date: Tue, 02 Dec 2025 18:59:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-03 21:04:46.024426
- Title: PPTArena: A Benchmark for Agentic PowerPoint Editing
- Title(参考訳): PPTArena: エージェントPowerPoint編集のためのベンチマーク
- Authors: Michael Ofengenden, Yunze Man, Ziqi Pang, Yu-Xiong Wang,
- Abstract要約: 我々はPowerPoint編集のベンチマークを導入し、自然言語による実際のスライドに対する信頼性のある修正を計測する。
PPTArenaは100のデッキ、2125のスライド、テキスト、チャート、テーブル、アニメーション、マスターレベルのスタイルを対象とする800以上の編集に焦点を当てている。
本稿では,意味的な編集シーケンス,ハイレベルなプログラムツール間の経路,そして正確な制御のための決定論的XML操作を計画する構造対応スライド編集エージェントを提案する。
- 参考スコア(独自算出の注目度): 57.55409966131844
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce PPTArena, a benchmark for PowerPoint editing that measures reliable modifications to real slides under natural-language instructions. In contrast to image-PDF renderings or text-to-slide generation, PPTArena focuses on in-place editing across 100 decks, 2125 slides, and over 800 targeted edits covering text, charts, tables, animations, and master-level styles. Each case includes a ground-truth deck, a fully specified target outcome, and a dual VLM-as-judge pipeline that separately scores instruction following and visual quality using both structural diffs and slide images. Building on this setting, we propose PPTPilot, a structure-aware slide-editing agent that plans semantic edit sequences, routes between high-level programmatic tools and deterministic XML operations for precise control, and verifies outputs through an iterative plan-edit-check loop against task-specific constraints. In our experiments, PPTPilot outperforms strong proprietary agents and frontier VLM systems by over 10 percentage points on compound, layout-sensitive, and cross-slide edits, with particularly large gains in visual fidelity and deck-wide consistency. Despite these improvements, existing agents still underperform on long-horizon, document-scale tasks in PPTArena, highlighting the remaining challenges in reliable PPT editing.
- Abstract(参考訳): 本稿では,PowerPoint 編集のためのベンチマーク PPTArena を紹介する。
画像-PDFレンダリングやテキスト・ツー・スライダー生成とは対照的に、PPTArenaは100のデッキ、2125のスライド、800以上のテキスト、チャート、テーブル、アニメーション、マスターレベルのスタイルをカバーするターゲット編集に焦点を当てている。
それぞれのケースには、グラウンド・トゥルース・デッキ、完全に指定された目標結果、構造差とスライド画像の両方を用いて命令追従と視覚的品質を別々にスコアする2つのVLM-as-judgeパイプラインが含まれる。
この設定に基づいて,意味的な編集シーケンス,ハイレベルなプログラムツール間の経路,高精度な制御のための決定論的XML操作を計画する構造対応スライド編集エージェントであるPTPilotを提案し,タスク固有の制約に対して反復的な計画編集チェックループを通じて出力を検証する。
我々の実験では、PPTPilotは、高機能なプロプライエタリなエージェントやフロンティアなVLMシステムよりも10%以上優れており、特に視覚的忠実度やデッキ全体の整合性が大きく向上している。
これらの改善にもかかわらず、既存のエージェントはPPTArenaの長期のドキュメントスケールタスクでは依然としてパフォーマンスが低く、信頼性の高いPTT編集における残りの課題を浮き彫りにした。
関連論文リスト
- SliderEdit: Continuous Image Editing with Fine-Grained Instruction Control [50.76070785417023]
スライダ編集(SliderEdit)は、細粒度で解釈可能な命令制御による連続的な画像編集のためのフレームワークである。
複数部分の編集命令が与えられたSliderEditは、個々の命令をアンタングルして、グローバルにトレーニングされたスライダとして公開する。
本結果は,連続的,構成的制御による対話的,命令駆動型画像操作の道を開くものである。
論文 参考訳(メタデータ) (2025-11-12T20:21:37Z) - VLM-SlideEval: Evaluating VLMs on Structured Comprehension and Perturbation Sensitivity in PPT [0.0]
視覚言語モデル(VLM)は、プレゼンテーションスライドを含むマルチモーダルコンテンツの評価にますます利用されているが、スライド固有の理解はいまだ探索されていない。
VLM-SlideEvalは,(1)真実に整合したスライド画像からの要素レベル抽出,(2)幾何学,スタイル,テキストの摂動制御,(3)シャッフルスライドからデッキの物語順を復元するなど,3つの軸に沿ってVLMを探索する評価フレームワークである。
論文 参考訳(メタデータ) (2025-10-24T22:06:56Z) - Image Editing As Programs with Diffusion Models [69.05164729625052]
本稿では,Diffusion Transformer (DiT) アーキテクチャ上に構築された統合画像編集フレームワークである IEAP (Image Editing As Programs) を紹介する。
IEAPは、複雑な編集命令を原子操作のシーケンスに分解して、リダミストレンズによる命令編集にアプローチする。
我々のフレームワークは、特に複雑なマルチステップ命令に対して、より優れた精度とセマンティック忠実度を提供する。
論文 参考訳(メタデータ) (2025-06-04T16:57:24Z) - Talk to Your Slides: Language-Driven Agents for Efficient Slide Editing [28.792459459465515]
本研究では、スライドを%のアクティブPowerPointセッションで編集するエージェントであるTalk-to-Your-Slidesを提案する。
我々のシステムでは、34.02%の高速処理、34.76%の命令忠実度、87.42%の動作がベースラインよりも安価である。
論文 参考訳(メタデータ) (2025-05-16T18:12:26Z) - PPTAgent: Generating and Evaluating Presentations Beyond Text-to-Slides [51.88536367177796]
そこで本研究では,人案に触発された2段階の編集手法を提案し,プレゼンテーションを自動的に生成する。
PWTAgentはまず参照を分析し、スライドレベルの関数型とコンテンツスキーマを抽出し、選択した参照スライドに基づいて編集アクションを生成する。
PWTAgentは、既存の3次元のプレゼンテーション生成方法よりも大幅に優れています。
論文 参考訳(メタデータ) (2025-01-07T16:53:01Z) - Task-Oriented Diffusion Inversion for High-Fidelity Text-based Editing [60.730661748555214]
textbfTask-textbfOriented textbfDiffusion textbfInversion (textbfTODInv) は、特定の編集タスクに適した実際の画像を反転して編集する新しいフレームワークである。
ToDInvは相互最適化によってインバージョンと編集をシームレスに統合し、高い忠実さと正確な編集性を保証する。
論文 参考訳(メタデータ) (2024-08-23T22:16:34Z) - Optimisation-Based Multi-Modal Semantic Image Editing [58.496064583110694]
本稿では,複数の編集命令型に対応するために,推論時編集の最適化を提案する。
各損失関数の影響を調整することで、ユーザの好みに合わせてフレキシブルな編集ソリューションを構築することができる。
本手法は,テキスト,ポーズ,スクリブルといった編集条件を用いて評価し,複雑な編集を行う能力を強調した。
論文 参考訳(メタデータ) (2023-11-28T15:31:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。