論文の概要: PPTAgent: Generating and Evaluating Presentations Beyond Text-to-Slides
- arxiv url: http://arxiv.org/abs/2501.03936v1
- Date: Tue, 07 Jan 2025 16:53:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-08 15:50:42.224966
- Title: PPTAgent: Generating and Evaluating Presentations Beyond Text-to-Slides
- Title(参考訳): PPTAgent: テキストからスライドまでのプレゼンテーションの生成と評価
- Authors: Hao Zheng, Xinyan Guan, Hao Kong, Jia Zheng, Hongyu Lin, Yaojie Lu, Ben He, Xianpei Han, Le Sun,
- Abstract要約: プレゼンテーションを自動生成する2段階の編集手法を提案する。
PPTAgentはまずプレゼンテーションを分析して,その構造パターンやコンテントスキーマを理解します。
実験の結果,PPTAgentは従来の3次元のプレゼンテーション生成方法よりも大幅に優れていた。
- 参考スコア(独自算出の注目度): 53.17641835701013
- License:
- Abstract: Automatically generating presentations from documents is a challenging task that requires balancing content quality, visual design, and structural coherence. Existing methods primarily focus on improving and evaluating the content quality in isolation, often overlooking visual design and structural coherence, which limits their practical applicability. To address these limitations, we propose PPTAgent, which comprehensively improves presentation generation through a two-stage, edit-based approach inspired by human workflows. PPTAgent first analyzes reference presentations to understand their structural patterns and content schemas, then drafts outlines and generates slides through code actions to ensure consistency and alignment. To comprehensively evaluate the quality of generated presentations, we further introduce PPTEval, an evaluation framework that assesses presentations across three dimensions: Content, Design, and Coherence. Experiments show that PPTAgent significantly outperforms traditional automatic presentation generation methods across all three dimensions. The code and data are available at https://github.com/icip-cas/PPTAgent.
- Abstract(参考訳): ドキュメントからプレゼンテーションを自動的に生成することは、コンテンツ品質、ビジュアルデザイン、構造的一貫性のバランスを必要とする難しいタスクです。
既存の手法は主に、視覚的デザインと構造的一貫性を見越して、コンテンツ品質を分離して改善し、評価することに焦点を当てている。
これらの制約に対処するため,人間ワークフローにインスパイアされた2段階の編集ベースのアプローチにより,プレゼンテーション生成を包括的に改善するPPTAgentを提案する。
PPTAgentはまずリファレンスプレゼンテーションを分析して,その構造パターンやコンテントスキーマを理解します。
生成したプレゼンテーションの品質を包括的に評価するために,コンテンツ,デザイン,コヒーレンスという3次元にわたるプレゼンテーションを評価する評価フレームワークであるPPTEvalを導入する。
実験の結果,PPTAgentは従来の3次元のプレゼンテーション生成方法よりも大幅に優れていた。
コードとデータはhttps://github.com/icip-cas/PPTAgent.comで公開されている。
関連論文リスト
- HIP: Hierarchical Point Modeling and Pre-training for Visual Information Extraction [24.46493675079128]
OCRに依存した手法はオフラインのOCRエンジンに依存し、OCRに依存しない手法は解釈性に欠ける出力や幻覚的内容を含む出力を生成する。
我々は, 階層的視点をモデルとしたHIPを提案し, エンドツーエンドのVIEタスクの階層的性質をよりよく適合させる。
具体的には、このような階層的な点は柔軟に符号化され、その後所望のテキスト書き起こし、地域の中心、エンティティのカテゴリにデコードされる。
論文 参考訳(メタデータ) (2024-11-02T05:00:13Z) - IntCoOp: Interpretability-Aware Vision-Language Prompt Tuning [94.52149969720712]
IntCoOpは、プロンプトチューニング中に属性レベルの帰納バイアスとクラス埋め込みを共同で調整することを学ぶ。
IntCoOpは10種類のデータセットの平均パフォーマンスを7.35%改善した。
論文 参考訳(メタデータ) (2024-06-19T16:37:31Z) - Pointer-Guided Pre-Training: Infusing Large Language Models with Paragraph-Level Contextual Awareness [3.2925222641796554]
ポインター誘導セグメントオーダリング(SO)は,段落レベルのテキスト表現の文脈的理解を高めることを目的とした,新しい事前学習手法である。
実験の結果,ポインタ誘導型事前学習は複雑な文書構造を理解する能力を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2024-06-06T15:17:51Z) - LLM-based Hierarchical Concept Decomposition for Interpretable Fine-Grained Image Classification [5.8754760054410955]
構造化概念解析によるモデル解釈可能性の向上を目的とした新しいフレームワークである textttHi-CoDecomposition を紹介する。
われわれのアプローチは、最先端のモデルの性能だけでなく、意思決定プロセスに対する明確な洞察を提供することで透明性を向上する。
論文 参考訳(メタデータ) (2024-05-29T00:36:56Z) - Point-In-Context: Understanding Point Cloud via In-Context Learning [67.20277182808992]
In-context Learningによる3Dポイントクラウド理解のための新しいフレームワークであるPoint-In-Context(PIC)を紹介した。
マスク付き点モデリングを3次元点群に効果的に拡張するという技術的課題に,Joint Smplingモジュールを導入して対処する。
In-Context LabelingとIn-Context Enhancingという2つの新しいトレーニング戦略を提案し、PICの拡張版であるPoint-In-Context-Segmenter(PIC-S)を作成している。
論文 参考訳(メタデータ) (2024-04-18T17:32:32Z) - CFPL-FAS: Class Free Prompt Learning for Generalizable Face Anti-spoofing [66.6712018832575]
ドメイン一般化 (DG) ベースの Face Anti-Spoofing (FAS) は、目に見えないドメインにおけるモデルの性能を改善することを目的としている。
私たちはCLIPのような大規模VLMを利用し、テキスト機能を利用して分類器の重みを動的に調整し、一般化可能な視覚的特徴を探索する。
論文 参考訳(メタデータ) (2024-03-21T11:58:50Z) - TaCo: Textual Attribute Recognition via Contrastive Learning [9.042957048594825]
TaCoは、最も一般的な文書シーンに適したテキスト属性認識のための対照的なフレームワークである。
1)属性ビューの生成,2)微妙だが重要な詳細の抽出,3)学習のための価値あるビューペアの利用,の3つの視点から学習パラダイムを設計する。
実験によると、TaCoは監督対象を超越し、複数の属性認識タスクにおいて最先端の技術を著しく向上している。
論文 参考訳(メタデータ) (2022-08-22T09:45:34Z) - Weakly Supervised Concept Map Generation through Task-Guided Graph
Translation [9.203403318435486]
GT-D2Gは、一般化されたNLPパイプラインを利用して意味豊かな初期グラフを導出する自動概念マップ生成フレームワークである。
このような概念マップの品質と解釈性は,3つの実世界のコーパスの人間による評価によって検証される。
論文 参考訳(メタデータ) (2021-10-08T20:17:10Z) - Improving Generation and Evaluation of Visual Stories via Semantic
Consistency [72.00815192668193]
一連の自然言語キャプションが与えられた場合、エージェントはキャプションに対応する一連の画像を生成する必要がある。
それまでの作業では、このタスクで合成テキスト・画像モデルより優れた繰り返し生成モデルを導入してきた。
従来のモデリング手法には、デュアルラーニングフレームワークの追加など、いくつかの改善点を提示する。
論文 参考訳(メタデータ) (2021-05-20T20:42:42Z) - DOC2PPT: Automatic Presentation Slides Generation from Scientific
Documents [76.19748112897177]
文書・スライド生成のための新しい課題とアプローチを提案する。
エンドツーエンドでタスクに取り組むための階層的なシーケンス・ツー・シーケンスアプローチを提案する。
提案手法では,文書やスライド内の固有構造を利用して,パラフレーズとレイアウト予測モジュールを組み込んでスライドを生成する。
論文 参考訳(メタデータ) (2021-01-28T03:21:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。