論文の概要: PPTAgent: Generating and Evaluating Presentations Beyond Text-to-Slides
- arxiv url: http://arxiv.org/abs/2501.03936v3
- Date: Fri, 21 Feb 2025 07:52:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-24 17:08:05.711894
- Title: PPTAgent: Generating and Evaluating Presentations Beyond Text-to-Slides
- Title(参考訳): PPTAgent: テキストからスライドまでのプレゼンテーションの生成と評価
- Authors: Hao Zheng, Xinyan Guan, Hao Kong, Jia Zheng, Weixiang Zhou, Hongyu Lin, Yaojie Lu, Ben He, Xianpei Han, Le Sun,
- Abstract要約: そこで本研究では,人案に触発された2段階の編集手法を提案し,プレゼンテーションを自動的に生成する。
PWTAgentはまず参照を分析し、スライドレベルの関数型とコンテンツスキーマを抽出し、選択した参照スライドに基づいて編集アクションを生成する。
PWTAgentは、既存の3次元のプレゼンテーション生成方法よりも大幅に優れています。
- 参考スコア(独自算出の注目度): 51.88536367177796
- License:
- Abstract: Automatically generating presentations from documents is a challenging task that requires accommodating content quality, visual appeal, and structural coherence. Existing methods primarily focus on improving and evaluating the content quality in isolation, overlooking visual appeal and structural coherence, which limits their practical applicability. To address these limitations, we propose PPTAgent, which comprehensively improves presentation generation through a two-stage, edit-based approach inspired by human workflows. PPTAgent first analyzes reference presentations to extract slide-level functional types and content schemas, then drafts an outline and iteratively generates editing actions based on selected reference slides to create new slides. To comprehensively evaluate the quality of generated presentations, we further introduce PPTEval, an evaluation framework that assesses presentations across three dimensions: Content, Design, and Coherence. Results demonstrate that PPTAgent significantly outperforms existing automatic presentation generation methods across all three dimensions.
- Abstract(参考訳): 文書から自動的にプレゼンテーションを生成することは、コンテンツ品質、視覚的魅力、構造的一貫性の調整を必要とする課題である。
既存の手法は主に、視覚的魅力と構造的一貫性を見越して、コンテンツ品質を分離して改善し、評価することに焦点を当てている。
これらの制約に対処するため,人間ワークフローにインスパイアされた2段階の編集ベースのアプローチにより,プレゼンテーション生成を包括的に改善するPPTAgentを提案する。
PPTAgentはまず、参照プレゼンテーションを分析してスライドレベルの関数型とコンテンツスキーマを抽出し、アウトラインをドラフトし、選択した参照スライドに基づいて編集アクションを反復的に生成し、新しいスライドを作成する。
生成したプレゼンテーションの品質を包括的に評価するために,コンテンツ,デザイン,コヒーレンスという3次元にわたるプレゼンテーションを評価する評価フレームワークであるPPTEvalを導入する。
その結果,PPTAgentは既存の3次元のプレゼンテーション生成方法よりも優れていた。
関連論文リスト
- HIP: Hierarchical Point Modeling and Pre-training for Visual Information Extraction [24.46493675079128]
OCRに依存した手法はオフラインのOCRエンジンに依存し、OCRに依存しない手法は解釈性に欠ける出力や幻覚的内容を含む出力を生成する。
我々は, 階層的視点をモデルとしたHIPを提案し, エンドツーエンドのVIEタスクの階層的性質をよりよく適合させる。
具体的には、このような階層的な点は柔軟に符号化され、その後所望のテキスト書き起こし、地域の中心、エンティティのカテゴリにデコードされる。
論文 参考訳(メタデータ) (2024-11-02T05:00:13Z) - IntCoOp: Interpretability-Aware Vision-Language Prompt Tuning [94.52149969720712]
IntCoOpは、プロンプトチューニング中に属性レベルの帰納バイアスとクラス埋め込みを共同で調整することを学ぶ。
IntCoOpは10種類のデータセットの平均パフォーマンスを7.35%改善した。
論文 参考訳(メタデータ) (2024-06-19T16:37:31Z) - Pointer-Guided Pre-Training: Infusing Large Language Models with Paragraph-Level Contextual Awareness [3.2925222641796554]
ポインター誘導セグメントオーダリング(SO)は,段落レベルのテキスト表現の文脈的理解を高めることを目的とした,新しい事前学習手法である。
実験の結果,ポインタ誘導型事前学習は複雑な文書構造を理解する能力を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2024-06-06T15:17:51Z) - MetricPrompt: Prompting Model as a Relevance Metric for Few-shot Text
Classification [65.51149771074944]
MetricPromptは、数発のテキスト分類タスクをテキストペア関連性推定タスクに書き換えることで、言語設計の難易度を緩和する。
広範に使われている3つのテキスト分類データセットを4つのショット・セッティングで実験する。
結果から,MetricPromptは,手動弁証法や自動弁証法よりも優れた性能を示した。
論文 参考訳(メタデータ) (2023-06-15T06:51:35Z) - Patch-Prompt Aligned Bayesian Prompt Tuning for Vision-Language Models [48.77653835765705]
そこでは,まず下位分布から潜在ベクトルをサンプリングし,次に軽量な生成モデルを用いてラベル固有のプロンプトを階層的に生成する。
提案手法の有効性は,少数ショット画像認識,ベース・ツー・ニュージェネリゼーション,データセット転送学習,ドメインシフトの4つのタスクで評価する。
論文 参考訳(メタデータ) (2023-03-16T06:09:15Z) - Long Document Summarization with Top-down and Bottom-up Inference [113.29319668246407]
本稿では、2つの側面の要約モデルを改善するための原則的推論フレームワークを提案する。
我々のフレームワークは、トップレベルが長距離依存性をキャプチャするドキュメントの階層的な潜在構造を前提としています。
本稿では,様々な要約データセットに対して提案手法の有効性を示す。
論文 参考訳(メタデータ) (2022-03-15T01:24:51Z) - Summary Explorer: Visualizing the State of the Art in Text Summarization [23.45323725326221]
本稿では,テキスト要約システムの手動検査を支援する新しいツールであるSlide Explorerを紹介する。
ツールの基本設計は、カスタマイズされた視覚化に基づくガイド付きアセスメントでカプセル化された、よく知られた3つの要約品質基準(カバレッジ、忠実さ、位置バイアス)を考慮する。
論文 参考訳(メタデータ) (2021-08-04T07:11:19Z) - DOC2PPT: Automatic Presentation Slides Generation from Scientific
Documents [76.19748112897177]
文書・スライド生成のための新しい課題とアプローチを提案する。
エンドツーエンドでタスクに取り組むための階層的なシーケンス・ツー・シーケンスアプローチを提案する。
提案手法では,文書やスライド内の固有構造を利用して,パラフレーズとレイアウト予測モジュールを組み込んでスライドを生成する。
論文 参考訳(メタデータ) (2021-01-28T03:21:17Z) - The Devil is in the Details: Evaluating Limitations of Transformer-based
Methods for Granular Tasks [19.099852869845495]
トランスフォーマーベースのニューラルネットワークモデルから派生したコンテキスト埋め込みは、様々なタスクに対して最先端のパフォーマンスを示している。
本稿では,文書の粒度の一致と抽象レベルという2つの観点から,テキストの類似性の問題に焦点をあてる。
異なるドメインからの2つのデータセットに対して、期待されるように抽象的なドキュメントマッチングのパフォーマンスが高いにもかかわらず、コンテキスト埋め込みは、よりきめ細かいタスクのためにTF-IDFのような単純なベースラインによって一貫して(そして非常に)パフォーマンスが向上していることを実証的に実証した。
論文 参考訳(メタデータ) (2020-11-02T18:41:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。