Fugu-MT 論文翻訳(概要): DeepPresenter: Environment-Grounded Reflection for Agentic Presentation Generation

論文の概要: DeepPresenter: Environment-Grounded Reflection for Agentic Presentation Generation

arxiv url: http://arxiv.org/abs/2602.22839v1
Date: Thu, 26 Feb 2026 10:26:48 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-27 18:41:22.6452
Title: DeepPresenter: Environment-Grounded Reflection for Agentic Presentation Generation
Title（参考訳）: DeepPresenter: エージェントプレゼンテーション生成のための環境を考慮したリフレクション
Authors: Hao Zheng, Guozhao Mo, Xinru Yan, Qianhao Yuan, Wenkai Zhang, Xuanang Chen, Yaojie Lu, Hongyu Lin, Xianpei Han, Le Sun,
Abstract要約: DeepPresenterは多様なユーザ意図に適応するエージェントフレームワークである。 DeepPresenterは、中間のスライドアーティファクトを自律的に計画し、レンダリングし、修正する。
参考スコア（独自算出の注目度）: 75.7505732466149
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Presentation generation requires deep content research, coherent visual design, and iterative refinement based on observation. However, existing presentation agents often rely on predefined workflows and fixed templates. To address this, we present DeepPresenter, an agentic framework that adapts to diverse user intents, enables effective feedback-driven refinement, and generalizes beyond a scripted pipeline. Specifically, DeepPresenter autonomously plans, renders, and revises intermediate slide artifacts to support long-horizon refinement with environmental observations. Furthermore, rather than relying on self-reflection over internal signals (e.g., reasoning traces), our environment-grounded reflection conditions the generation process on perceptual artifact states (e.g., rendered slides), enabling the system to identify and correct presentation-specific issues during execution. Results on the evaluation set covering diverse presentation-generation scenarios show that DeepPresenter achieves state-of-the-art performance, and the fine-tuned 9B model remains highly competitive at substantially lower cost. Our project is available at: https://github.com/icip-cas/PPTAgent
Abstract（参考訳）: プレゼンテーション生成には、深いコンテンツ研究、コヒーレントなビジュアルデザイン、観察に基づく反復的な洗練が必要である。しかしながら、既存のプレゼンテーションエージェントは、事前に定義されたワークフローと固定されたテンプレートに依存することが多い。この問題を解決するために,多様なユーザ意図に適応し,効果的なフィードバック駆動型洗練を実現し,スクリプトパイプラインを超えて一般化するエージェントフレームワークであるDeepPresenterを提案する。具体的には、DeepPresenterは、環境観測による長距離改良をサポートするために、中間のスライドアーティファクトを自律的に計画し、レンダリングし、修正する。さらに、内部信号(例えば、推論トレース)を自己反射に頼らず、環境下でのリフレクション条件は、知覚的アーティファクト状態(例えば、レンダリングスライド)の生成プロセスであり、実行中のプレゼンテーション固有の問題を特定し、修正することを可能にする。各種プレゼンテーション生成シナリオを対象とした評価結果から,DeepPresenterは最先端性能を達成し,微調整された9Bモデルは低コストで高い競争力を維持していることが明らかとなった。私たちのプロジェクトは、https://github.com/icip-cas/PPTAgentで利用可能です。

関連論文リスト

EPRBench: A High-Quality Benchmark Dataset for Event Stream Based Visual Place Recognition [54.55914886780534]
イベントストリームに基づく視覚的位置認識(VPR)は、従来の可視光カメラの不安定性に対して、低照度、過剰露光、高速モーションといった困難な条件下で魅力的な解決策を提供する、新たな研究方向である。イベントストリームベースのVPR用に特別に設計された高品質なベンチマークであるEPRBenchを紹介する。 EPRBenchは10Kのイベントシーケンスと65Kのイベントフレームで構成され、ハンドヘルドと車載のセットアップを使用して収集され、さまざまな視点、気象条件、照明シナリオで現実世界の課題を包括的にキャプチャする。
論文参考訳（メタデータ） (2026-02-13T13:25:05Z)
GEBench: Benchmarking Image Generation Models as GUI Environments [49.513441724802135]
GUI生成における動的相互作用と時間的コヒーレンスを評価するためのベンチマークであるGEBenchを紹介する。 GE-Scoreは、ゴール達成、インタラクションロジック、コンテンツ一貫性、UIの可視性、視覚品質を評価する新しい5次元メトリックである。そこで本研究では,アイコンの解釈,テキストレンダリング,局所化精度を重要なボトルネックとして認識した。
論文参考訳（メタデータ） (2026-02-09T18:52:02Z)
From Prediction to Explanation: Multimodal, Explainable, and Interactive Deepfake Detection Framework for Non-Expert Users [21.627851460651968]
DF-P2E(Deepfake: Prediction to Explanation)は、視覚的、意味的、物語的な説明層を統合して、ディープフェイク検出を解釈し、アクセス可能にする新しいフレームワークである。現在最も多様なディープフェイクデータセットであるDF40ベンチマークで、フレームワークをインスタンス化し、評価しています。実験により,Grad-CAMアクティベーションに適合した高品質な説明を提供しながら,競合検出性能を実証した。
論文参考訳（メタデータ） (2025-08-11T03:55:47Z)
PPTAgent: Generating and Evaluating Presentations Beyond Text-to-Slides [51.88536367177796]
そこで本研究では,人案に触発された2段階の編集手法を提案し,プレゼンテーションを自動的に生成する。 PWTAgentはまず参照を分析し、スライドレベルの関数型とコンテンツスキーマを抽出し、選択した参照スライドに基づいて編集アクションを生成する。 PWTAgentは、既存の3次元のプレゼンテーション生成方法よりも大幅に優れています。
論文参考訳（メタデータ） (2025-01-07T16:53:01Z)
DiffPrompter: Differentiable Implicit Visual Prompts for Semantic-Segmentation in Adverse Conditions [14.52296033767276]
DiffPrompterは、視覚的かつ潜時的な新しいプロンプト機構である。提案した$nabla$HFC画像処理ブロックは,特に悪天候条件下では優れている。
論文参考訳（メタデータ） (2023-10-06T11:53:04Z)
A Threefold Review on Deep Semantic Segmentation: Efficiency-oriented, Temporal and Depth-aware design [77.34726150561087]
我々は、自動運転車のビジョンの文脈において、Deep Semanticの最も関連性があり最近の進歩について調査を行う。私たちの主な目的は、それぞれの視点で直面している主要な方法、利点、制限、結果、課題に関する包括的な議論を提供することです。
論文参考訳（メタデータ） (2023-03-08T01:29:55Z)
Differentiable Outlier Detection Enable Robust Deep Multimodal Analysis [20.316056261749946]
本稿では,明示的な知識グラフを取り入れたエンドツーエンドのビジョンと言語モデルを提案する。また,暗黙的ネットワーク演算子を用いた対話型アウト・オブ・ディストリビューション・レイヤを導入する。実際に,視覚的質問応答,視覚的推論,画像テキスト検索など,複数の視覚および言語下流タスクにモデルを適用した。
論文参考訳（メタデータ） (2023-02-11T05:46:21Z)
Generative Counterfactuals for Neural Networks via Attribute-Informed Perturbation [51.29486247405601]
AIP(Attribute-Informed Perturbation)の提案により,生データインスタンスの反事実を生成するフレームワークを設計する。異なる属性を条件とした生成モデルを利用することで、所望のラベルとの反事実を効果的かつ効率的に得ることができる。実世界のテキストや画像に対する実験結果から, 設計したフレームワークの有効性, サンプル品質, および効率が示された。
論文参考訳（メタデータ） (2021-01-18T08:37:13Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。