論文の概要: DeepPresenter: Environment-Grounded Reflection for Agentic Presentation Generation
- arxiv url: http://arxiv.org/abs/2602.22839v1
- Date: Thu, 26 Feb 2026 10:26:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-27 18:41:22.6452
- Title: DeepPresenter: Environment-Grounded Reflection for Agentic Presentation Generation
- Title(参考訳): DeepPresenter: エージェントプレゼンテーション生成のための環境を考慮したリフレクション
- Authors: Hao Zheng, Guozhao Mo, Xinru Yan, Qianhao Yuan, Wenkai Zhang, Xuanang Chen, Yaojie Lu, Hongyu Lin, Xianpei Han, Le Sun,
- Abstract要約: DeepPresenterは多様なユーザ意図に適応するエージェントフレームワークである。
DeepPresenterは、中間のスライドアーティファクトを自律的に計画し、レンダリングし、修正する。
- 参考スコア(独自算出の注目度): 75.7505732466149
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Presentation generation requires deep content research, coherent visual design, and iterative refinement based on observation. However, existing presentation agents often rely on predefined workflows and fixed templates. To address this, we present DeepPresenter, an agentic framework that adapts to diverse user intents, enables effective feedback-driven refinement, and generalizes beyond a scripted pipeline. Specifically, DeepPresenter autonomously plans, renders, and revises intermediate slide artifacts to support long-horizon refinement with environmental observations. Furthermore, rather than relying on self-reflection over internal signals (e.g., reasoning traces), our environment-grounded reflection conditions the generation process on perceptual artifact states (e.g., rendered slides), enabling the system to identify and correct presentation-specific issues during execution. Results on the evaluation set covering diverse presentation-generation scenarios show that DeepPresenter achieves state-of-the-art performance, and the fine-tuned 9B model remains highly competitive at substantially lower cost. Our project is available at: https://github.com/icip-cas/PPTAgent
- Abstract(参考訳): プレゼンテーション生成には、深いコンテンツ研究、コヒーレントなビジュアルデザイン、観察に基づく反復的な洗練が必要である。
しかしながら、既存のプレゼンテーションエージェントは、事前に定義されたワークフローと固定されたテンプレートに依存することが多い。
この問題を解決するために,多様なユーザ意図に適応し,効果的なフィードバック駆動型洗練を実現し,スクリプトパイプラインを超えて一般化するエージェントフレームワークであるDeepPresenterを提案する。
具体的には、DeepPresenterは、環境観測による長距離改良をサポートするために、中間のスライドアーティファクトを自律的に計画し、レンダリングし、修正する。
さらに、内部信号(例えば、推論トレース)を自己反射に頼らず、環境下でのリフレクション条件は、知覚的アーティファクト状態(例えば、レンダリングスライド)の生成プロセスであり、実行中のプレゼンテーション固有の問題を特定し、修正することを可能にする。
各種プレゼンテーション生成シナリオを対象とした評価結果から,DeepPresenterは最先端性能を達成し,微調整された9Bモデルは低コストで高い競争力を維持していることが明らかとなった。
私たちのプロジェクトは、https://github.com/icip-cas/PPTAgentで利用可能です。
関連論文リスト
- EPRBench: A High-Quality Benchmark Dataset for Event Stream Based Visual Place Recognition [54.55914886780534]
イベントストリームに基づく視覚的位置認識(VPR)は、従来の可視光カメラの不安定性に対して、低照度、過剰露光、高速モーションといった困難な条件下で魅力的な解決策を提供する、新たな研究方向である。
イベントストリームベースのVPR用に特別に設計された高品質なベンチマークであるEPRBenchを紹介する。
EPRBenchは10Kのイベントシーケンスと65Kのイベントフレームで構成され、ハンドヘルドと車載のセットアップを使用して収集され、さまざまな視点、気象条件、照明シナリオで現実世界の課題を包括的にキャプチャする。
論文 参考訳(メタデータ) (2026-02-13T13:25:05Z) - PPTAgent: Generating and Evaluating Presentations Beyond Text-to-Slides [51.88536367177796]
そこで本研究では,人案に触発された2段階の編集手法を提案し,プレゼンテーションを自動的に生成する。
PWTAgentはまず参照を分析し、スライドレベルの関数型とコンテンツスキーマを抽出し、選択した参照スライドに基づいて編集アクションを生成する。
PWTAgentは、既存の3次元のプレゼンテーション生成方法よりも大幅に優れています。
論文 参考訳(メタデータ) (2025-01-07T16:53:01Z) - DiffPrompter: Differentiable Implicit Visual Prompts for Semantic-Segmentation in Adverse Conditions [14.52296033767276]
DiffPrompterは、視覚的かつ潜時的な新しいプロンプト機構である。
提案した$nabla$HFC画像処理ブロックは,特に悪天候条件下では優れている。
論文 参考訳(メタデータ) (2023-10-06T11:53:04Z) - Generative Counterfactuals for Neural Networks via Attribute-Informed
Perturbation [51.29486247405601]
AIP(Attribute-Informed Perturbation)の提案により,生データインスタンスの反事実を生成するフレームワークを設計する。
異なる属性を条件とした生成モデルを利用することで、所望のラベルとの反事実を効果的かつ効率的に得ることができる。
実世界のテキストや画像に対する実験結果から, 設計したフレームワークの有効性, サンプル品質, および効率が示された。
論文 参考訳(メタデータ) (2021-01-18T08:37:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。