論文の概要: PASS: Presentation Automation for Slide Generation and Speech
- arxiv url: http://arxiv.org/abs/2501.06497v1
- Date: Sat, 11 Jan 2025 10:22:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-14 14:29:02.830353
- Title: PASS: Presentation Automation for Slide Generation and Speech
- Title(参考訳): PASS:スライド生成と音声のプレゼンテーション自動化
- Authors: Tushar Aggarwal, Aarohi Bhand,
- Abstract要約: PASSは一般的なWord文書からスライドを生成するパイプラインである。
また、生成されたスライドのオーラル配信を自動化する。
Passはユーザ文書を分析して、AI生成音声による動的で魅力的なプレゼンテーションを生成する。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: In today's fast-paced world, effective presentations have become an essential tool for communication in both online and offline meetings. The crafting of a compelling presentation requires significant time and effort, from gathering key insights to designing slides that convey information clearly and concisely. However, despite the wealth of resources available, people often find themselves manually extracting crucial points, analyzing data, and organizing content in a way that ensures clarity and impact. Furthermore, a successful presentation goes beyond just the slides; it demands rehearsal and the ability to weave a captivating narrative to fully engage the audience. Although there has been some exploration of automating document-to-slide generation, existing research is largely centered on converting research papers. In addition, automation of the delivery of these presentations has yet to be addressed. We introduce PASS, a pipeline used to generate slides from general Word documents, going beyond just research papers, which also automates the oral delivery of the generated slides. PASS analyzes user documents to create a dynamic, engaging presentation with an AI-generated voice. Additionally, we developed an LLM-based evaluation metric to assess our pipeline across three critical dimensions of presentations: relevance, coherence, and redundancy. The data and codes are available at https://github.com/AggarwalTushar/PASS.
- Abstract(参考訳): 今日のペースの速い世界では、効果的なプレゼンテーションはオンラインミーティングとオフラインミーティングの両方でコミュニケーションするための重要なツールになっています。
魅力的なプレゼンテーションを作るには、重要な洞察を集めることから、情報を明確に簡潔に伝達するスライドの設計まで、かなりの時間と労力が必要です。
しかし、利用可能なリソースが豊富にあるにも関わらず、人々は手動で重要なポイントを抽出し、データを分析し、コンテンツを明瞭さと影響を保証する方法で整理することが多い。
さらに、成功するプレゼンテーションは単なるスライド以上のもので、リハーサルと、観客を完全にエンゲージするために魅惑的な物語を織ることを要求する。
ドキュメント・ツー・スライディング・ジェネレーションの自動化に関する調査がいくつか行われているが、既存の研究は主に研究論文の変換に焦点が当てられている。
さらに、これらのプレゼンテーションのデリバリの自動化は、まだ解決されていない。
我々は,一般的なWord文書からスライドを生成するパイプラインであるPASSを紹介した。
PASSはユーザ文書を分析して、AI生成音声による動的で魅力的なプレゼンテーションを生成する。
さらに,LLMに基づく評価尺度を開発し,その妥当性,コヒーレンス,冗長性の3つの重要な側面にまたがるパイプラインの評価を行った。
データとコードはhttps://github.com/AggarwalTushar/PASSで公開されている。
関連論文リスト
- Enhancing Presentation Slide Generation by LLMs with a Multi-Staged End-to-End Approach [21.8104104944488]
ドキュメントからリッチなプレゼンテーションを生成するための既存のアプローチは、しばしば半自動的であるか、良い物語の重要性を無視してスライドに平らな要約を配置するだけである。
LLMとVLMを組み合わせた多段階のエンドツーエンドモデルを提案する。
我々は,LLMを最先端のプロンプトで直接適用するよりも,自動計測と人的評価の点で,提案した多段階ソリューションの方が優れていることを実験的に示した。
論文 参考訳(メタデータ) (2024-06-01T07:49:31Z) - Presentations are not always linear! GNN meets LLM for Document-to-Presentation Transformation with Attribution [21.473482276335194]
このような非線形なコンテンツマッピングをスライドに組み込むことは困難であり、その内容が文書に忠実であることを保証することは困難である。
入力文書からグラフを学習し,グラフニューラルネットワークとLLMを組み合わせてプレゼンテーションを生成する,新しいグラフベースソリューションを提案する。
論文 参考訳(メタデータ) (2024-05-21T13:52:33Z) - Open-Vocabulary Camouflaged Object Segmentation [66.94945066779988]
OVCOS(Open-vocabulary camouflaged Object segmentation)を導入した。
我々は11,483個の手選択画像とそれに対応するオブジェクトクラスを含む大規模複合シーンデータセット(textbfOVCamo)を構築した。
クラスセマンティック知識の指導とエッジ情報と深度情報からの視覚構造的手がかりの補足を統合することにより、提案手法は効率よくカモフラージュされたオブジェクトを捕捉できる。
論文 参考訳(メタデータ) (2023-11-19T06:00:39Z) - Using Large Language Models to Generate Engaging Captions for Data
Visualizations [51.98253121636079]
大規模言語モデル(LLM)は、高度なディープラーニング技術を用いて人間のような散文を生成する。
主な課題は、プロンプトエンジニアリングと呼ばれるLLMの最も効果的なプロンプトを設計することである。
我々は,LLM GPT-3を用いた最初の実験について報告し,いくつかの有望な結果を得た。
論文 参考訳(メタデータ) (2022-12-27T23:56:57Z) - NECE: Narrative Event Chain Extraction Toolkit [64.89332212585404]
NECEはオープンアクセス型文書レベルのツールキットで,その発生の時間順に物語のイベントを自動的に抽出・アライメントする。
NECEツールキットの高品質さを示し、性別に関するナラティブバイアスを分析するために、その下流の応用を実証する。
また、現状のアプローチの欠点と、今後の研究で生成モデルを活用する可能性についてもオープンに論じる。
論文 参考訳(メタデータ) (2022-08-17T04:30:58Z) - Unified Pretraining Framework for Document Understanding [52.224359498792836]
文書理解のための統合事前学習フレームワークであるUDocを紹介する。
UDocは、ほとんどのドキュメント理解タスクをサポートするように設計されており、Transformerを拡張してマルチモーダル埋め込みを入力とする。
UDocの重要な特徴は、3つの自己管理的損失を利用して汎用的な表現を学ぶことである。
論文 参考訳(メタデータ) (2022-04-22T21:47:04Z) - AI based Presentation Creator With Customized Audio Content Delivery [0.0]
本稿では,機械学習(ML)アルゴリズムと自然言語処理(NLP)モジュールを用いて,文書からスライドベースのプレゼンテーションを作成するプロセスを自動化することを目的とする。
次に、最先端の音声クローンモデルを使用して、希望する著者の声にコンテンツを配信します。
論文 参考訳(メタデータ) (2021-06-27T12:17:11Z) - D2S: Document-to-Slide Generation Via Query-Based Text Summarization [27.576875048631265]
我々は、最近のNLPおよびMLカンファレンスの論文とそれに対応するスライドデッキからなる新しいデータセット、SciDuetをコントリビュートする。
第2に,文書からスライドまでのタスクに2段階のアプローチで取り組む新しいシステムD2Sを提案する。
私たちの評価は、長期形式のQAは、自動化されたROUGEメトリクスと定性的な人間評価の両方の最先端の要約ベースラインを上回ることを示唆しています。
論文 参考訳(メタデータ) (2021-05-08T10:29:41Z) - DOC2PPT: Automatic Presentation Slides Generation from Scientific
Documents [76.19748112897177]
文書・スライド生成のための新しい課題とアプローチを提案する。
エンドツーエンドでタスクに取り組むための階層的なシーケンス・ツー・シーケンスアプローチを提案する。
提案手法では,文書やスライド内の固有構造を利用して,パラフレーズとレイアウト予測モジュールを組み込んでスライドを生成する。
論文 参考訳(メタデータ) (2021-01-28T03:21:17Z) - Learning to Emphasize: Dataset and Shared Task Models for Selecting
Emphasis in Presentation Slides [31.540208729354354]
プレゼンテーションスライドで強力なリードワードを強調することで、聴衆はスライド全体を読むのではなく、特定の焦点に目を向けることができる。
この要求に動機づけられて、プレゼンテーションスライドにおける強調選択(ES)の問題を研究します。
クラウドソーシングされた設定で強調語で注釈付けされた、さまざまなトピックを備えたプレゼンテーションスライドを含む新しいデータセットを紹介します。
論文 参考訳(メタデータ) (2021-01-02T06:54:55Z) - From Standard Summarization to New Tasks and Beyond: Summarization with
Manifold Information [77.89755281215079]
テキスト要約は、原文書の短く凝縮した版を作成することを目的とした研究分野である。
現実世界のアプリケーションでは、ほとんどのデータは平易なテキスト形式ではない。
本稿では,現実のアプリケーションにおけるこれらの新しい要約タスクとアプローチについて調査する。
論文 参考訳(メタデータ) (2020-05-10T14:59:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。