論文の概要: SlideSpawn: An Automatic Slides Generation System for Research Publications
- arxiv url: http://arxiv.org/abs/2411.17719v1
- Date: Wed, 20 Nov 2024 18:16:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-01 04:14:37.928375
- Title: SlideSpawn: An Automatic Slides Generation System for Research Publications
- Title(参考訳): SlideSpawn: 研究出版のための自動スライド生成システム
- Authors: Keshav Kumar, Ravindranath Chowdary,
- Abstract要約: 本稿では,研究資料のPDFを入力とし,質の高いプレゼンテーションを生成する新しいシステムであるSlideSpwanを提案する。
PS5KデータセットとAminer 9.5K Insightsデータセットに基づいてトレーニングされた機械学習モデルを使用して、論文の各文のサリエンスを予測する。
650対の論文とスライドによるテストセットの実験により,本システムがより良い品質のプレゼンテーションを生成することを示す。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Research papers are well structured documents. They have text, figures, equations, tables etc., to covey their ideas and findings. They are divided into sections like Introduction, Model, Experiments etc., which deal with different aspects of research. Characteristics like these set research papers apart from ordinary documents and allows us to significantly improve their summarization. In this paper, we propose a novel system, SlideSpwan, that takes PDF of a research document as an input and generates a quality presentation providing it's summary in a visual and concise fashion. The system first converts the PDF of the paper to an XML document that has the structural information about various elements. Then a machine learning model, trained on PS5K dataset and Aminer 9.5K Insights dataset (that we introduce), is used to predict salience of each sentence in the paper. Sentences for slides are selected using ILP and clustered based on their similarity with each cluster being given a suitable title. Finally a slide is generated by placing any graphical element referenced in the selected sentences next to them. Experiments on a test set of 650 pairs of papers and slides demonstrate that our system generates presentations with better quality.
- Abstract(参考訳): 研究論文はよく構造化された文書である。
テキスト、図形、方程式、表などを持ち、アイデアや発見を精査する。
これらは、導入、モデル、実験など、研究のさまざまな側面を扱う部分に分けられる。
これらの特徴は、通常の文書とは別に、それらの要約を大幅に改善することができる。
本稿では,研究資料のPDFを入力とし,その要約を視覚的かつ簡潔に提示する,新しいシステムであるSlideSpwanを提案する。
システムはまず、論文のPDFを、様々な要素に関する構造情報を持つXML文書に変換する。
次に、PS5KデータセットとAminer 9.5K Insightsデータセットに基づいてトレーニングされた機械学習モデルを使用して、論文の各文のサリエンスを予測する。
スライドの文はILPを使用して選択され、その類似性に基づいてクラスタ化され、各クラスタには適切なタイトルが与えられる。
最後に、選択した文に参照されたグラフィカル要素を並べてスライドを生成する。
650対の論文とスライドによるテストセットの実験により,本システムがより良い品質のプレゼンテーションを生成することを示す。
関連論文リスト
- RealitySummary: On-Demand Mixed Reality Document Enhancement using Large Language Models [13.906648004819107]
本稿では、オンデマンドテキスト抽出、要約、拡張を用いて、印刷物やデジタル文書を拡張可能な複合現実読影アシスタントであるRealitySummaryを紹介する。
1)要約,2)比較表,3)タイムライン,4)キーワードリスト,5)要約ハイライト,6)情報カード。
論文 参考訳(メタデータ) (2024-05-28T21:59:56Z) - TL;DR Progress: Multi-faceted Literature Exploration in Text
Summarization [37.88261925867143]
本稿では,ニューラルテキスト要約に関する文献を探索する新たなツールであるTL;DR Progressについて述べる。
テキスト要約アプローチのための包括的なアノテーションスキームに基づいて、514の論文を整理する。
論文 参考訳(メタデータ) (2024-02-10T09:16:56Z) - Bridging Research and Readers: A Multi-Modal Automated Academic Papers
Interpretation System [47.13932723910289]
本稿では,3段階のプロセス段階を有するオープンソースマルチモーダル自動学術論文解釈システム(MMAPIS)を紹介する。
ドキュメントからプレーンテキストや表や図を別々に抽出するために、ハイブリッドなモダリティ前処理とアライメントモジュールを使用している。
すると、この情報は彼らが属するセクション名に基づいて調整され、同じセクション名を持つデータが同じセクションの下に分類される。
抽出されたセクション名を用いて、記事を短いテキストセグメントに分割し、LSMを通してセクション内とセクション間の特定の要約を容易にする。
論文 参考訳(メタデータ) (2024-01-17T11:50:53Z) - PDFTriage: Question Answering over Long, Structured Documents [60.96667912964659]
構造化文書をプレーンテキストとして表現することは、これらの文書をリッチな構造でユーザ精神モデルと矛盾する。
本稿では,構造や内容に基づいて,モデルがコンテキストを検索できるPDFTriageを提案する。
ベンチマークデータセットは,80以上の構造化文書に900以上の人間が生成した質問からなる。
論文 参考訳(メタデータ) (2023-09-16T04:29:05Z) - Scientific Paper Extractive Summarization Enhanced by Citation Graphs [50.19266650000948]
我々は、引用グラフを活用して、異なる設定下での科学的論文の抽出要約を改善することに重点を置いている。
予備的な結果は、単純な教師なしフレームワークであっても、引用グラフが有用であることを示している。
そこで我々は,大規模ラベル付きデータが利用可能である場合のタスクにおいて,より正確な結果を得るために,グラフベースのスーパービジョン・サムライゼーション・モデル(GSS)を提案する。
論文 参考訳(メタデータ) (2022-12-08T11:53:12Z) - TRIE++: Towards End-to-End Information Extraction from Visually Rich
Documents [51.744527199305445]
本稿では,視覚的にリッチな文書からエンド・ツー・エンドの情報抽出フレームワークを提案する。
テキスト読み出しと情報抽出は、よく設計されたマルチモーダルコンテキストブロックを介して互いに強化することができる。
フレームワークはエンドツーエンドのトレーニング可能な方法でトレーニングでき、グローバルな最適化が達成できる。
論文 参考訳(メタデータ) (2022-07-14T08:52:07Z) - Neural Content Extraction for Poster Generation of Scientific Papers [84.30128728027375]
科学論文のポスター生成の問題は未解明である。
これまでの研究は主にポスターレイアウトとパネル構成に重点を置いていたが、コンテンツ抽出の重要性は無視された。
ポスターパネルのテキスト要素と視覚要素の両方を得るために,紙セクションのテキスト,図形,テーブルを同時に抽出するニューラル抽出モデルを提案する。
論文 参考訳(メタデータ) (2021-12-16T01:19:37Z) - DOC2PPT: Automatic Presentation Slides Generation from Scientific
Documents [76.19748112897177]
文書・スライド生成のための新しい課題とアプローチを提案する。
エンドツーエンドでタスクに取り組むための階層的なシーケンス・ツー・シーケンスアプローチを提案する。
提案手法では,文書やスライド内の固有構造を利用して,パラフレーズとレイアウト予測モジュールを組み込んでスライドを生成する。
論文 参考訳(メタデータ) (2021-01-28T03:21:17Z) - Learning to Emphasize: Dataset and Shared Task Models for Selecting
Emphasis in Presentation Slides [31.540208729354354]
プレゼンテーションスライドで強力なリードワードを強調することで、聴衆はスライド全体を読むのではなく、特定の焦点に目を向けることができる。
この要求に動機づけられて、プレゼンテーションスライドにおける強調選択(ES)の問題を研究します。
クラウドソーシングされた設定で強調語で注釈付けされた、さまざまなトピックを備えたプレゼンテーションスライドを含む新しいデータセットを紹介します。
論文 参考訳(メタデータ) (2021-01-02T06:54:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。