論文の概要: PPTAgent: Generating and Evaluating Presentations Beyond Text-to-Slides
- arxiv url: http://arxiv.org/abs/2501.03936v2
- Date: Tue, 18 Feb 2025 06:18:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-19 14:04:31.986541
- Title: PPTAgent: Generating and Evaluating Presentations Beyond Text-to-Slides
- Title(参考訳): PPTAgent: テキストからスライドまでのプレゼンテーションの生成と評価
- Authors: Hao Zheng, Xinyan Guan, Hao Kong, Jia Zheng, Weixiang Zhou, Hongyu Lin, Yaojie Lu, Ben He, Xianpei Han, Le Sun,
- Abstract要約: そこで本研究では,人案に触発された2段階の編集手法を提案し,プレゼンテーションを自動的に生成する。
PWTAgentはまず参照を分析し、スライドレベルの関数型とコンテンツスキーマを抽出し、選択した参照スライドに基づいて編集アクションを生成する。
PWTAgentは、既存の3次元のプレゼンテーション生成方法よりも大幅に優れています。
- 参考スコア(独自算出の注目度): 51.88536367177796
- License:
- Abstract: Automatically generating presentations from documents is a challenging task that requires accommodating content quality, visual appeal, and structural coherence. Existing methods primarily focus on improving and evaluating the content quality in isolation, overlooking visual appeal and structural coherence, which limits their practical applicability. To address these limitations, we propose PPTAgent, which comprehensively improves presentation generation through a two-stage, edit-based approach inspired by human workflows. PPTAgent first analyzes reference presentations to extract slide-level functional types and content schemas, then drafts an outline and iteratively generates editing actions based on selected reference slides to create new slides. To comprehensively evaluate the quality of generated presentations, we further introduce PPTEval, an evaluation framework that assesses presentations across three dimensions: Content, Design, and Coherence. Results demonstrate that PPTAgent significantly outperforms existing automatic presentation generation methods across all three dimensions.
- Abstract(参考訳): 文書から自動的にプレゼンテーションを生成することは、コンテンツ品質、視覚的魅力、構造的一貫性の調整を必要とする課題である。
既存の手法は主に、視覚的魅力と構造的一貫性を見越して、コンテンツ品質を分離して改善し、評価することに焦点を当てている。
これらの制約に対処するため,人間ワークフローにインスパイアされた2段階の編集ベースのアプローチにより,プレゼンテーション生成を包括的に改善するPPTAgentを提案する。
PPTAgentはまず、参照プレゼンテーションを分析してスライドレベルの関数型とコンテンツスキーマを抽出し、アウトラインをドラフトし、選択した参照スライドに基づいて編集アクションを反復的に生成し、新しいスライドを作成する。
生成したプレゼンテーションの品質を包括的に評価するために,コンテンツ,デザイン,コヒーレンスという3次元にわたるプレゼンテーションを評価する評価フレームワークであるPPTEvalを導入する。
その結果,PPTAgentは既存の3次元のプレゼンテーション生成方法よりも優れていた。
関連論文リスト
- HIP: Hierarchical Point Modeling and Pre-training for Visual Information Extraction [24.46493675079128]
OCRに依存した手法はオフラインのOCRエンジンに依存し、OCRに依存しない手法は解釈性に欠ける出力や幻覚的内容を含む出力を生成する。
我々は, 階層的視点をモデルとしたHIPを提案し, エンドツーエンドのVIEタスクの階層的性質をよりよく適合させる。
具体的には、このような階層的な点は柔軟に符号化され、その後所望のテキスト書き起こし、地域の中心、エンティティのカテゴリにデコードされる。
論文 参考訳(メタデータ) (2024-11-02T05:00:13Z) - IntCoOp: Interpretability-Aware Vision-Language Prompt Tuning [94.52149969720712]
IntCoOpは、プロンプトチューニング中に属性レベルの帰納バイアスとクラス埋め込みを共同で調整することを学ぶ。
IntCoOpは10種類のデータセットの平均パフォーマンスを7.35%改善した。
論文 参考訳(メタデータ) (2024-06-19T16:37:31Z) - Pointer-Guided Pre-Training: Infusing Large Language Models with Paragraph-Level Contextual Awareness [3.2925222641796554]
ポインター誘導セグメントオーダリング(SO)は,段落レベルのテキスト表現の文脈的理解を高めることを目的とした,新しい事前学習手法である。
実験の結果,ポインタ誘導型事前学習は複雑な文書構造を理解する能力を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2024-06-06T15:17:51Z) - LLM-based Hierarchical Concept Decomposition for Interpretable Fine-Grained Image Classification [5.8754760054410955]
構造化概念解析によるモデル解釈可能性の向上を目的とした新しいフレームワークである textttHi-CoDecomposition を紹介する。
われわれのアプローチは、最先端のモデルの性能だけでなく、意思決定プロセスに対する明確な洞察を提供することで透明性を向上する。
論文 参考訳(メタデータ) (2024-05-29T00:36:56Z) - Point-In-Context: Understanding Point Cloud via In-Context Learning [67.20277182808992]
In-context Learningによる3Dポイントクラウド理解のための新しいフレームワークであるPoint-In-Context(PIC)を紹介した。
マスク付き点モデリングを3次元点群に効果的に拡張するという技術的課題に,Joint Smplingモジュールを導入して対処する。
In-Context LabelingとIn-Context Enhancingという2つの新しいトレーニング戦略を提案し、PICの拡張版であるPoint-In-Context-Segmenter(PIC-S)を作成している。
論文 参考訳(メタデータ) (2024-04-18T17:32:32Z) - CFPL-FAS: Class Free Prompt Learning for Generalizable Face Anti-spoofing [66.6712018832575]
ドメイン一般化 (DG) ベースの Face Anti-Spoofing (FAS) は、目に見えないドメインにおけるモデルの性能を改善することを目的としている。
私たちはCLIPのような大規模VLMを利用し、テキスト機能を利用して分類器の重みを動的に調整し、一般化可能な視覚的特徴を探索する。
論文 参考訳(メタデータ) (2024-03-21T11:58:50Z) - TaCo: Textual Attribute Recognition via Contrastive Learning [9.042957048594825]
TaCoは、最も一般的な文書シーンに適したテキスト属性認識のための対照的なフレームワークである。
1)属性ビューの生成,2)微妙だが重要な詳細の抽出,3)学習のための価値あるビューペアの利用,の3つの視点から学習パラダイムを設計する。
実験によると、TaCoは監督対象を超越し、複数の属性認識タスクにおいて最先端の技術を著しく向上している。
論文 参考訳(メタデータ) (2022-08-22T09:45:34Z) - Weakly Supervised Concept Map Generation through Task-Guided Graph
Translation [9.203403318435486]
GT-D2Gは、一般化されたNLPパイプラインを利用して意味豊かな初期グラフを導出する自動概念マップ生成フレームワークである。
このような概念マップの品質と解釈性は,3つの実世界のコーパスの人間による評価によって検証される。
論文 参考訳(メタデータ) (2021-10-08T20:17:10Z) - Improving Generation and Evaluation of Visual Stories via Semantic
Consistency [72.00815192668193]
一連の自然言語キャプションが与えられた場合、エージェントはキャプションに対応する一連の画像を生成する必要がある。
それまでの作業では、このタスクで合成テキスト・画像モデルより優れた繰り返し生成モデルを導入してきた。
従来のモデリング手法には、デュアルラーニングフレームワークの追加など、いくつかの改善点を提示する。
論文 参考訳(メタデータ) (2021-05-20T20:42:42Z) - DOC2PPT: Automatic Presentation Slides Generation from Scientific
Documents [76.19748112897177]
文書・スライド生成のための新しい課題とアプローチを提案する。
エンドツーエンドでタスクに取り組むための階層的なシーケンス・ツー・シーケンスアプローチを提案する。
提案手法では,文書やスライド内の固有構造を利用して,パラフレーズとレイアウト予測モジュールを組み込んでスライドを生成する。
論文 参考訳(メタデータ) (2021-01-28T03:21:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。