論文の概要: PostDoc: Generating Poster from a Long Multimodal Document Using Deep Submodular Optimization
- arxiv url: http://arxiv.org/abs/2405.20213v1
- Date: Thu, 30 May 2024 16:16:25 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-31 13:29:24.531435
- Title: PostDoc: Generating Poster from a Long Multimodal Document Using Deep Submodular Optimization
- Title(参考訳): PostDoc: ディープサブモジュール最適化を用いた長期マルチモーダル文書からのポスター生成
- Authors: Vijay Jaisankar, Sambaran Bandyopadhyay, Kalp Vyas, Varre Chaitanya, Shwetha Somasundaram,
- Abstract要約: 長い入力文書からのポスターは、優れたデザイン要素を持つ優れたテンプレート上に提示された1ページで読みやすいマルチモーダル(テキストと画像)の要約と見なすことができる。
本論文では,文書から多モードコンテンツを取り出すために,基底真実の要約に基づいて訓練できる新しいサブモジュール関数を提案する。
- 参考スコア(独自算出の注目度): 15.90651992769166
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A poster from a long input document can be considered as a one-page easy-to-read multimodal (text and images) summary presented on a nice template with good design elements. Automatic transformation of a long document into a poster is a very less studied but challenging task. It involves content summarization of the input document followed by template generation and harmonization. In this work, we propose a novel deep submodular function which can be trained on ground truth summaries to extract multimodal content from the document and explicitly ensures good coverage, diversity and alignment of text and images. Then, we use an LLM based paraphraser and propose to generate a template with various design aspects conditioned on the input content. We show the merits of our approach through extensive automated and human evaluations.
- Abstract(参考訳): 長い入力文書からのポスターは、優れたデザイン要素を持つ優れたテンプレート上に提示された1ページで読みやすいマルチモーダル(テキストと画像)の要約と見なすことができる。
長いドキュメントをポスターに自動変換するのは、あまり研究されていないが難しい作業だ。
入力文書の内容の要約とテンプレート生成と調和を伴う。
そこで本研究では,文書からマルチモーダルコンテンツを抽出し,テキストや画像の良好なカバレッジ,多様性,アライメントを確実にする,新たなサブモーダル関数を提案する。
次に, LLM ベースのパラフレーズを用いて, 入力内容に様々な設計要素を付加したテンプレートを生成する。
我々は、広範囲な自動化と人的評価を通じて、我々のアプローチのメリットを示す。
関連論文リスト
- Hierarchical Multi-modal Transformer for Cross-modal Long Document Classification [74.45521856327001]
階層構造テキストと埋め込み画像で長い文書を分類する方法は、新しい問題である。
本稿では,階層型マルチモーダル変換器 (HMT) を用いたクロスモーダルな文書分類手法を提案する。
本稿では,マルチモーダル変換器と動的マルチスケールマルチモーダル変換器を用いて,画像特徴とセクションと文特徴の複雑な関係をモデル化する。
論文 参考訳(メタデータ) (2024-07-14T07:12:25Z) - Enhancing Presentation Slide Generation by LLMs with a Multi-Staged End-to-End Approach [21.8104104944488]
ドキュメントからリッチなプレゼンテーションを生成するための既存のアプローチは、しばしば半自動的であるか、良い物語の重要性を無視してスライドに平らな要約を配置するだけである。
LLMとVLMを組み合わせた多段階のエンドツーエンドモデルを提案する。
我々は,LLMを最先端のプロンプトで直接適用するよりも,自動計測と人的評価の点で,提案した多段階ソリューションの方が優れていることを実験的に示した。
論文 参考訳(メタデータ) (2024-06-01T07:49:31Z) - TextHawk: Exploring Efficient Fine-Grained Perception of Multimodal Large Language Models [9.232693392690702]
TextHawkは文書指向マルチモーダル言語モデル(MLLM)である。
4つの専用コンポーネントを設計することで、効率的な微粒化知覚を探索するように設計されている。
汎用MLLMベンチマークと文書指向MLLMベンチマークの両方で広範な実験を行い、TextHawkが最先端の手法より優れていることを示す。
論文 参考訳(メタデータ) (2024-04-14T09:48:37Z) - Visually Guided Generative Text-Layout Pre-training for Document Intelligence [51.09853181377696]
視覚誘導型生成テキスト事前学習(ViTLP)を提案する。
文書画像が与えられた場合、モデルは階層言語とレイアウトモデリングの目的を最適化し、インターリーブされたテキストとレイアウトシーケンスを生成する。
ViTLPは、文書画像のテキストをローカライズし、認識するためのネイティブなOCRモデルとして機能する。
論文 参考訳(メタデータ) (2024-03-25T08:00:43Z) - GRAM: Global Reasoning for Multi-Page VQA [14.980413646626234]
本稿では,事前学習したシングルページモデルをマルチページ設定にシームレスに拡張するGRAMを提案する。
そのため、ローカルページレベルの理解にシングルページエンコーダを活用し、文書レベルの指定層と学習可能なトークンで拡張する。
復号化時に計算量を増やすため、任意の圧縮段階を導入する。
論文 参考訳(メタデータ) (2024-01-07T08:03:06Z) - mPLUG-DocOwl: Modularized Multimodal Large Language Model for Document
Understanding [55.4806974284156]
文書理解とは、ウェブページのようなデジタル文書から自動的に情報を抽出し、分析し、理解することである。
既存のMLLM(Multi-model Large Language Models)は、浅いOCRフリーテキスト認識において、望ましくないゼロショット機能を実証している。
論文 参考訳(メタデータ) (2023-07-04T11:28:07Z) - Unifying Vision, Text, and Layout for Universal Document Processing [105.36490575974028]
本稿では,テキスト,画像,レイアウトのモダリティを文書理解と生成を含むさまざまなタスク形式とともに統合するドキュメントAIモデルを提案する。
我々の手法は、財務報告、学術論文、ウェブサイトなど、さまざまなデータ領域にまたがって、文書理解やQAといった9つのドキュメントAIタスクの最先端を定めている。
論文 参考訳(メタデータ) (2022-12-05T22:14:49Z) - TRIE++: Towards End-to-End Information Extraction from Visually Rich
Documents [51.744527199305445]
本稿では,視覚的にリッチな文書からエンド・ツー・エンドの情報抽出フレームワークを提案する。
テキスト読み出しと情報抽出は、よく設計されたマルチモーダルコンテキストブロックを介して互いに強化することができる。
フレームワークはエンドツーエンドのトレーニング可能な方法でトレーニングでき、グローバルな最適化が達成できる。
論文 参考訳(メタデータ) (2022-07-14T08:52:07Z) - Modeling Endorsement for Multi-Document Abstractive Summarization [10.166639983949887]
単一文書の要約と多文書の要約の重大な違いは、文書の中で健全なコンテンツがどのように現れるかである。
本稿では,複数文書要約における文書間補完効果とその活用をモデル化する。
提案手法は各文書から合成を生成し,他の文書から有意な内容を識別する支援者として機能する。
論文 参考訳(メタデータ) (2021-10-15T03:55:42Z) - DOC2PPT: Automatic Presentation Slides Generation from Scientific
Documents [76.19748112897177]
文書・スライド生成のための新しい課題とアプローチを提案する。
エンドツーエンドでタスクに取り組むための階層的なシーケンス・ツー・シーケンスアプローチを提案する。
提案手法では,文書やスライド内の固有構造を利用して,パラフレーズとレイアウト予測モジュールを組み込んでスライドを生成する。
論文 参考訳(メタデータ) (2021-01-28T03:21:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。