Fugu-MT 論文翻訳(概要): PPTAgent: Generating and Evaluating Presentations Beyond Text-to-Slides

論文の概要: PPTAgent: Generating and Evaluating Presentations Beyond Text-to-Slides

arxiv url: http://arxiv.org/abs/2501.03936v2
Date: Tue, 18 Feb 2025 06:18:53 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-19 17:59:03.30416
Title: PPTAgent: Generating and Evaluating Presentations Beyond Text-to-Slides
Title（参考訳）: PPTAgent: テキストからスライドまでのプレゼンテーションの生成と評価
Authors: Hao Zheng, Xinyan Guan, Hao Kong, Jia Zheng, Weixiang Zhou, Hongyu Lin, Yaojie Lu, Ben He, Xianpei Han, Le Sun,
Abstract要約: そこで本研究では,人案に触発された2段階の編集手法を提案し,プレゼンテーションを自動的に生成する。 PWTAgentはまず参照を分析し、スライドレベルの関数型とコンテンツスキーマを抽出し、選択した参照スライドに基づいて編集アクションを生成する。 PWTAgentは、既存の3次元のプレゼンテーション生成方法よりも大幅に優れています。
参考スコア（独自算出の注目度）: 51.88536367177796
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Automatically generating presentations from documents is a challenging task that requires accommodating content quality, visual appeal, and structural coherence. Existing methods primarily focus on improving and evaluating the content quality in isolation, overlooking visual appeal and structural coherence, which limits their practical applicability. To address these limitations, we propose PPTAgent, which comprehensively improves presentation generation through a two-stage, edit-based approach inspired by human workflows. PPTAgent first analyzes reference presentations to extract slide-level functional types and content schemas, then drafts an outline and iteratively generates editing actions based on selected reference slides to create new slides. To comprehensively evaluate the quality of generated presentations, we further introduce PPTEval, an evaluation framework that assesses presentations across three dimensions: Content, Design, and Coherence. Results demonstrate that PPTAgent significantly outperforms existing automatic presentation generation methods across all three dimensions.
Abstract（参考訳）: 文書から自動的にプレゼンテーションを生成することは、コンテンツ品質、視覚的魅力、構造的一貫性の調整を必要とする課題である。既存の手法は主に、視覚的魅力と構造的一貫性を見越して、コンテンツ品質を分離して改善し、評価することに焦点を当てている。これらの制約に対処するため,人間ワークフローにインスパイアされた2段階の編集ベースのアプローチにより,プレゼンテーション生成を包括的に改善するPPTAgentを提案する。 PPTAgentはまず、参照プレゼンテーションを分析してスライドレベルの関数型とコンテンツスキーマを抽出し、アウトラインをドラフトし、選択した参照スライドに基づいて編集アクションを反復的に生成し、新しいスライドを作成する。生成したプレゼンテーションの品質を包括的に評価するために,コンテンツ,デザイン,コヒーレンスという3次元にわたるプレゼンテーションを評価する評価フレームワークであるPPTEvalを導入する。その結果,PPTAgentは既存の3次元のプレゼンテーション生成方法よりも優れていた。

関連論文リスト

DeepPresenter: Environment-Grounded Reflection for Agentic Presentation Generation [75.7505732466149]
DeepPresenterは多様なユーザ意図に適応するエージェントフレームワークである。 DeepPresenterは、中間のスライドアーティファクトを自律的に計画し、レンダリングし、修正する。
論文参考訳（メタデータ） (2026-02-26T10:26:48Z)
AttriPrompt: Dynamic Prompt Composition Learning for CLIP [41.37140060183439]
AttriPromptは、テキストの意味表現を強化し洗練する新しいフレームワークである。本稿では,提案するテキスト特徴量と非プロンプトテキスト特徴量の間に明示的な正規化制約を適用することで,自己正規化機構を導入する。実験では、AttriPromptが最先端の手法よりも優れており、ベース・ツー・ノーベル・セッティングにおいて最大7.37%の改善が達成されている。
論文参考訳（メタデータ） (2025-09-07T07:07:59Z)
Multi-Agent Synergy-Driven Iterative Visual Narrative Synthesis [2.846897538377738]
高品質なメディアプレゼンテーションを自動生成するための新しいフレームワークRCPSを紹介する。また、コンテンツ、コヒーレンス、デザインのプレゼンテーション品質を評価するための嗜好に基づく評価フレームワークであるPreVALを提案する。 PreVALは人間の判断と強い相関を示し、プレゼンテーション品質を評価するための信頼性の高い自動化ツールとして検証する。
論文参考訳（メタデータ） (2025-07-17T16:50:07Z)
PresentAgent: Multimodal Agent for Presentation Video Generation [30.274831875701217]
長文文書をナレーション付きプレゼンテーションビデオに変換するマルチモーダルエージェントであるPresentAgentを提案する。この統合を実現するために、PresentAgentでは、インプットドキュメントのセグメント化、計画、スライドスタイルのビジュアルフレームのレンダリングを行うモジュールパイプラインを採用している。このようなマルチモーダルなアウトプットの評価の複雑さを考慮し,ビジョンランゲージモデルを用いた統合評価フレームワークであるPresentEvalを紹介する。
論文参考訳（メタデータ） (2025-07-05T13:24:15Z)
PreGenie: An Agentic Framework for High-quality Visual Presentation Generation [25.673526096069548]
PreGenieは、マルチモーダルな大規模言語モデル(MLLM)を利用して高品質なビジュアルプレゼンテーションを生成するエージェント型でモジュール型のフレームワークである。 1)マルチモーダル入力を要約して初期コードを生成する解析と初期生成,(2)中間コードを反復的にレビューし,スライドを描画して最終品質の高いプレゼンテーションを生成するレビューと再生成の2段階で動作する。
論文参考訳（メタデータ） (2025-05-27T18:36:19Z)
Taming LLMs with Negative Samples: A Reference-Free Framework to Evaluate Presentation Content with Actionable Feedback [15.90651992769166]
本稿では、文書を効果的に要約し、幅広い聴衆に概念を伝えることができるプレゼンテーションスライドにおけるマルチモーダルコンテンツの評価に焦点をあてる。我々は、さまざまなトピックにまたがる人為的な高品質なプレゼンテーションからなるベンチマークデータセットRefSlidesを紹介した。次に、プレゼンテーションの内容の固有の特性を特徴付けるためのメトリクスセットと、これらのメトリクスのスコアと動作可能なフィードバックを生成する評価手法であるREFLEXを提案する。
論文参考訳（メタデータ） (2025-05-23T14:27:57Z)
Visual Consensus Prompting for Co-Salient Object Detection [26.820772908765083]
共分散オブジェクト検出タスクに対して,対話効率とパラメータ効率のよい簡潔なアーキテクチャを提案する。パラメータ効率の良いプロンプトチューニングのパラダイムと,タスク固有のビジュアルコンセンサス・プロンプト(VCP)を定式化するためのプロンプトへのコンセンサスをシームレスに埋め込む OurVCPは、最先端のフル微調整モデル13を上回り、新しい最先端の技術を達成している(最も困難なCoCAデータセット上でのF_mメトリクスが6.8%改善されている)。
論文参考訳（メタデータ） (2025-04-19T10:12:39Z)
Generative Compositor for Few-Shot Visual Information Extraction [60.663887314625164]
生成空間モデルとして生成空間モデル(Generative Generative Spacetor)を提案する。ジェネレーティブジェネレーター(Generative Generative Spacetor)は、ソーステキストから単語を検索することでコンポジタの操作をエミュレートするハイブリッドポインタージェネレータネットワークである。提案手法は,1ショット,5ショット,10ショットの設定において,ベースラインを上回りながら,フルサンプルトレーニングにおいて高い競争力を発揮する。
論文参考訳（メタデータ） (2025-03-21T04:56:24Z)
Textual-to-Visual Iterative Self-Verification for Slide Generation [46.99825956909532]
欠落したプレゼンテーションスライドを生成するタスクを,コンテンツ生成とレイアウト生成という2つの重要なコンポーネントに分解する。提案手法は,アライメント,論理フロー,視覚的魅力,可読性の観点から,ベースライン手法を著しく上回っている。
論文参考訳（メタデータ） (2025-02-21T12:21:09Z)
HIP: Hierarchical Point Modeling and Pre-training for Visual Information Extraction [24.46493675079128]
OCRに依存した手法はオフラインのOCRエンジンに依存し、OCRに依存しない手法は解釈性に欠ける出力や幻覚的内容を含む出力を生成する。我々は, 階層的視点をモデルとしたHIPを提案し, エンドツーエンドのVIEタスクの階層的性質をよりよく適合させる。具体的には、このような階層的な点は柔軟に符号化され、その後所望のテキスト書き起こし、地域の中心、エンティティのカテゴリにデコードされる。
論文参考訳（メタデータ） (2024-11-02T05:00:13Z)
IntCoOp: Interpretability-Aware Vision-Language Prompt Tuning [94.52149969720712]
IntCoOpは、プロンプトチューニング中に属性レベルの帰納バイアスとクラス埋め込みを共同で調整することを学ぶ。 IntCoOpは10種類のデータセットの平均パフォーマンスを7.35%改善した。
論文参考訳（メタデータ） (2024-06-19T16:37:31Z)
Pointer-Guided Pre-Training: Infusing Large Language Models with Paragraph-Level Contextual Awareness [3.2925222641796554]
ポインター誘導セグメントオーダリング(SO)は,段落レベルのテキスト表現の文脈的理解を高めることを目的とした,新しい事前学習手法である。実験の結果,ポインタ誘導型事前学習は複雑な文書構造を理解する能力を大幅に向上させることがわかった。
論文参考訳（メタデータ） (2024-06-06T15:17:51Z)
LLM-based Hierarchical Concept Decomposition for Interpretable Fine-Grained Image Classification [5.8754760054410955]
構造化概念解析によるモデル解釈可能性の向上を目的とした新しいフレームワークである textttHi-CoDecomposition を紹介する。われわれのアプローチは、最先端のモデルの性能だけでなく、意思決定プロセスに対する明確な洞察を提供することで透明性を向上する。
論文参考訳（メタデータ） (2024-05-29T00:36:56Z)
Point-In-Context: Understanding Point Cloud via In-Context Learning [67.20277182808992]
In-context Learningによる3Dポイントクラウド理解のための新しいフレームワークであるPoint-In-Context(PIC)を紹介した。マスク付き点モデリングを3次元点群に効果的に拡張するという技術的課題に,Joint Smplingモジュールを導入して対処する。 In-Context LabelingとIn-Context Enhancingという2つの新しいトレーニング戦略を提案し、PICの拡張版であるPoint-In-Context-Segmenter(PIC-S)を作成している。
論文参考訳（メタデータ） (2024-04-18T17:32:32Z)
CFPL-FAS: Class Free Prompt Learning for Generalizable Face Anti-spoofing [66.6712018832575]
ドメイン一般化 (DG) ベースの Face Anti-Spoofing (FAS) は、目に見えないドメインにおけるモデルの性能を改善することを目的としている。私たちはCLIPのような大規模VLMを利用し、テキスト機能を利用して分類器の重みを動的に調整し、一般化可能な視覚的特徴を探索する。
論文参考訳（メタデータ） (2024-03-21T11:58:50Z)
MetricPrompt: Prompting Model as a Relevance Metric for Few-shot Text Classification [65.51149771074944]
MetricPromptは、数発のテキスト分類タスクをテキストペア関連性推定タスクに書き換えることで、言語設計の難易度を緩和する。広範に使われている3つのテキスト分類データセットを4つのショット・セッティングで実験する。結果から,MetricPromptは,手動弁証法や自動弁証法よりも優れた性能を示した。
論文参考訳（メタデータ） (2023-06-15T06:51:35Z)
TaCo: Textual Attribute Recognition via Contrastive Learning [9.042957048594825]
TaCoは、最も一般的な文書シーンに適したテキスト属性認識のための対照的なフレームワークである。 1)属性ビューの生成,2)微妙だが重要な詳細の抽出,3)学習のための価値あるビューペアの利用,の3つの視点から学習パラダイムを設計する。実験によると、TaCoは監督対象を超越し、複数の属性認識タスクにおいて最先端の技術を著しく向上している。
論文参考訳（メタデータ） (2022-08-22T09:45:34Z)
Weakly Supervised Concept Map Generation through Task-Guided Graph Translation [9.203403318435486]
GT-D2Gは、一般化されたNLPパイプラインを利用して意味豊かな初期グラフを導出する自動概念マップ生成フレームワークである。このような概念マップの品質と解釈性は,3つの実世界のコーパスの人間による評価によって検証される。
論文参考訳（メタデータ） (2021-10-08T20:17:10Z)
Summary Explorer: Visualizing the State of the Art in Text Summarization [23.45323725326221]
本稿では,テキスト要約システムの手動検査を支援する新しいツールであるSlide Explorerを紹介する。ツールの基本設計は、カスタマイズされた視覚化に基づくガイド付きアセスメントでカプセル化された、よく知られた3つの要約品質基準(カバレッジ、忠実さ、位置バイアス)を考慮する。
論文参考訳（メタデータ） (2021-08-04T07:11:19Z)
Improving Generation and Evaluation of Visual Stories via Semantic Consistency [72.00815192668193]
一連の自然言語キャプションが与えられた場合、エージェントはキャプションに対応する一連の画像を生成する必要がある。それまでの作業では、このタスクで合成テキスト・画像モデルより優れた繰り返し生成モデルを導入してきた。従来のモデリング手法には、デュアルラーニングフレームワークの追加など、いくつかの改善点を提示する。
論文参考訳（メタデータ） (2021-05-20T20:42:42Z)
DOC2PPT: Automatic Presentation Slides Generation from Scientific Documents [76.19748112897177]
文書・スライド生成のための新しい課題とアプローチを提案する。エンドツーエンドでタスクに取り組むための階層的なシーケンス・ツー・シーケンスアプローチを提案する。提案手法では,文書やスライド内の固有構造を利用して,パラフレーズとレイアウト予測モジュールを組み込んでスライドを生成する。
論文参考訳（メタデータ） (2021-01-28T03:21:17Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。