Fugu-MT 論文翻訳(概要): DOC2PPT: Automatic Presentation Slides Generation from Scientific Documents

論文の概要: DOC2PPT: Automatic Presentation Slides Generation from Scientific Documents

arxiv url: http://arxiv.org/abs/2101.11796v1
Date: Thu, 28 Jan 2021 03:21:17 GMT
ステータス: 翻訳完了
システム内更新日: 2021-01-31 18:17:11.001046
Title: DOC2PPT: Automatic Presentation Slides Generation from Scientific Documents
Title（参考訳）: doc2ppt: 科学文書からの自動プレゼンテーションスライド生成
Authors: Tsu-Jui Fu, William Yang Wang, Daniel McDuff, Yale Song
Abstract要約: 文書・スライド生成のための新しい課題とアプローチを提案する。エンドツーエンドでタスクに取り組むための階層的なシーケンス・ツー・シーケンスアプローチを提案する。提案手法では,文書やスライド内の固有構造を利用して,パラフレーズとレイアウト予測モジュールを組み込んでスライドを生成する。
参考スコア（独自算出の注目度）: 76.19748112897177
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Creating presentation materials requires complex multimodal reasoning skills to summarize key concepts and arrange them in a logical and visually pleasing manner. Can machines learn to emulate this laborious process? We present a novel task and approach for document-to-slide generation. Solving this involves document summarization, image and text retrieval, slide structure, and layout prediction to arrange key elements in a form suitable for presentation. We propose a hierarchical sequence-to-sequence approach to tackle our task in an end-to-end manner. Our approach exploits the inherent structures within documents and slides and incorporates paraphrasing and layout prediction modules to generate slides. To help accelerate research in this domain, we release a dataset about 6K paired documents and slide decks used in our experiments. We show that our approach outperforms strong baselines and produces slides with rich content and aligned imagery.
Abstract（参考訳）: プレゼンテーション資料の作成には,重要な概念を要約し,論理的かつ視覚的に整理するための複雑なマルチモーダル推論技術が必要である。機械はこの面倒なプロセスをエミュレートできるか? 文書からスライド生成のための新しいタスクとアプローチを紹介します。これを解決するには、文書の要約、画像とテキストの検索、スライド構造、レイアウト予測を伴い、キー要素をプレゼンテーションに適した形式で配置する。エンドツーエンドでタスクに取り組むための階層的シーケンス・ツー・シーケンスアプローチを提案する。提案手法では,文書やスライド内の固有構造を利用して,パラフレーズとレイアウト予測モジュールを組み込んでスライドを生成する。この領域の研究を加速するために、実験で使用される6Kペアドドキュメントとスライドデッキに関するデータセットをリリースします。提案手法は,強いベースラインを上回り,リッチコンテンツとアライメントされた画像のスライドを生成する。

関連論文リスト

Training-Free Acceleration for Document Parsing Vision-Language Model with Hierarchical Speculative Decoding [102.88996030431662]
本稿では,文書解析タスクの学習自由かつ高効率な高速化手法を提案する。投機的復号化にインスパイアされた私たちは、将来のトークンのバッチを予測するために、ドラフトモデルとして軽量な文書解析パイプラインを使用します。汎用OmniDocBenchに対するアプローチの有効性を示す。
論文参考訳（メタデータ） (2026-02-13T14:22:10Z)
SlideGen: Collaborative Multimodal Agents for Scientific Slide Generation [26.4357968329723]
SlideGenは、科学論文をスライド生成するためのループフレームワークにおいて、エージェント的でモジュール的でビジュアルである。ドキュメントの構造とセマンティクスを協調的に操作する視覚言語エージェントのグループを編成し、論理フローと魅力的なビジュアルプレゼンテーションを備えた編集可能なXスライドを生成する。
論文参考訳（メタデータ） (2025-12-04T07:22:16Z)
Generative Compositor for Few-Shot Visual Information Extraction [60.663887314625164]
生成空間モデルとして生成空間モデル(Generative Generative Spacetor)を提案する。ジェネレーティブジェネレーター(Generative Generative Spacetor)は、ソーステキストから単語を検索することでコンポジタの操作をエミュレートするハイブリッドポインタージェネレータネットワークである。提案手法は,1ショット,5ショット,10ショットの設定において,ベースラインを上回りながら,フルサンプルトレーニングにおいて高い競争力を発揮する。
論文参考訳（メタデータ） (2025-03-21T04:56:24Z)
SlideSpawn: An Automatic Slides Generation System for Research Publications [0.0]
本稿では,研究資料のPDFを入力とし,質の高いプレゼンテーションを生成する新しいシステムであるSlideSpwanを提案する。 PS5KデータセットとAminer 9.5K Insightsデータセットに基づいてトレーニングされた機械学習モデルを使用して、論文の各文のサリエンスを予測する。 650対の論文とスライドによるテストセットの実験により,本システムがより良い品質のプレゼンテーションを生成することを示す。
論文参考訳（メタデータ） (2024-11-20T18:16:16Z)
Visually Guided Generative Text-Layout Pre-training for Document Intelligence [51.09853181377696]
視覚誘導型生成テキスト事前学習(ViTLP)を提案する。文書画像が与えられた場合、モデルは階層言語とレイアウトモデリングの目的を最適化し、インターリーブされたテキストとレイアウトシーケンスを生成する。 ViTLPは、文書画像のテキストをローカライズし、認識するためのネイティブなOCRモデルとして機能する。
論文参考訳（メタデータ） (2024-03-25T08:00:43Z)
LayoutLLM: Large Language Model Instruction Tuning for Visually Rich Document Understanding [0.0]
本稿では,より柔軟な画像文書解析手法であるLayoutLLMを提案する。画像,テキスト,レイアウト構造を事前学習することで,文書の理解を高める手法が開発されている。本実験は,文書解析タスクにおけるベースラインモデルの改善を実証する。
論文参考訳（メタデータ） (2024-03-21T09:25:24Z)
Hierarchical Multimodal Pre-training for Visually Rich Webpage Understanding [22.00873805952277]
WebLMは、WebページにおけるHTMLの構造的モダリティとテキストのみをモデリングする制限に対処するために設計されたマルチモーダル事前学習ネットワークである。本稿では,テキスト,構造,画像モダリティ間の相互作用を効果的にモデル化するための事前学習タスクを提案する。実験の結果、事前学習されたWebLMは、いくつかのWebページ理解タスクにおいて、従来の最先端の事前学習モデルを大幅に上回っていることが示された。
論文参考訳（メタデータ） (2024-02-28T11:50:36Z)
Enhancing Visually-Rich Document Understanding via Layout Structure Modeling [91.07963806829237]
レイアウトの知識をモデルに注入する新しい文書理解モデルであるGraphLMを提案する。我々は、FUNSD、XFUND、CORDなど様々なベンチマークでモデルを評価し、最先端の結果を得た。
論文参考訳（メタデータ） (2023-08-15T13:53:52Z)
ERNIE-Layout: Layout Knowledge Enhanced Pre-training for Visually-rich Document Understanding [52.3895498789521]
レイアウト知識を向上した新しい文書事前学習ソリューションであるERNIEを提案する。まず、直列化段階で入力シーケンスを並べ替え、相関的な事前学習タスクを示し、順序予測を行い、文書の適切な読み順序を学習する。実験の結果、ERNIEは様々な下流タスクにおいて優れた性能を示し、キー情報に新たな最先端設定、文書質問応答を実現している。
論文参考訳（メタデータ） (2022-10-12T12:59:24Z)
TRIE++: Towards End-to-End Information Extraction from Visually Rich Documents [51.744527199305445]
本稿では,視覚的にリッチな文書からエンド・ツー・エンドの情報抽出フレームワークを提案する。テキスト読み出しと情報抽出は、よく設計されたマルチモーダルコンテキストブロックを介して互いに強化することができる。フレームワークはエンドツーエンドのトレーニング可能な方法でトレーニングでき、グローバルな最適化が達成できる。
論文参考訳（メタデータ） (2022-07-14T08:52:07Z)
Unified Pretraining Framework for Document Understanding [52.224359498792836]
文書理解のための統合事前学習フレームワークであるUDocを紹介する。 UDocは、ほとんどのドキュメント理解タスクをサポートするように設計されており、Transformerを拡張してマルチモーダル埋め込みを入力とする。 UDocの重要な特徴は、3つの自己管理的損失を利用して汎用的な表現を学ぶことである。
論文参考訳（メタデータ） (2022-04-22T21:47:04Z)
Synthetic Document Generator for Annotation-free Layout Recognition [15.657295650492948]
本稿では,空間的位置,範囲,レイアウト要素のカテゴリを示すラベル付きリアル文書を自動生成する合成文書生成装置について述べる。合成文書上で純粋に訓練された深層レイアウト検出モデルが,実文書を用いたモデルの性能と一致することを実証的に示す。
論文参考訳（メタデータ） (2021-11-11T01:58:44Z)
SelfDoc: Self-Supervised Document Representation Learning [46.22910270334824]
SelfDocは、文書イメージ理解のためのタスクに依存しない事前トレーニングフレームワークである。本フレームワークは,文書中の意味的に意味のあるすべてのコンポーネントの位置情報,テキスト情報,視覚情報を利用する。複数のダウンストリームタスクにおいて,事前学習段階で使用する文書イメージが従来よりも大幅に少なく,優れたパフォーマンスを実現している。
論文参考訳（メタデータ） (2021-06-07T04:19:49Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。