Fugu-MT 論文翻訳(概要): PostDoc: Generating Poster from a Long Multimodal Document Using Deep Submodular Optimization

論文の概要: PostDoc: Generating Poster from a Long Multimodal Document Using Deep Submodular Optimization

arxiv url: http://arxiv.org/abs/2405.20213v1
Date: Thu, 30 May 2024 16:16:25 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-31 13:29:24.531435
Title: PostDoc: Generating Poster from a Long Multimodal Document Using Deep Submodular Optimization
Title（参考訳）: PostDoc: ディープサブモジュール最適化を用いた長期マルチモーダル文書からのポスター生成
Authors: Vijay Jaisankar, Sambaran Bandyopadhyay, Kalp Vyas, Varre Chaitanya, Shwetha Somasundaram,
Abstract要約: 長い入力文書からのポスターは、優れたデザイン要素を持つ優れたテンプレート上に提示された1ページで読みやすいマルチモーダル(テキストと画像)の要約と見なすことができる。本論文では,文書から多モードコンテンツを取り出すために,基底真実の要約に基づいて訓練できる新しいサブモジュール関数を提案する。
参考スコア（独自算出の注目度）: 15.90651992769166
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: A poster from a long input document can be considered as a one-page easy-to-read multimodal (text and images) summary presented on a nice template with good design elements. Automatic transformation of a long document into a poster is a very less studied but challenging task. It involves content summarization of the input document followed by template generation and harmonization. In this work, we propose a novel deep submodular function which can be trained on ground truth summaries to extract multimodal content from the document and explicitly ensures good coverage, diversity and alignment of text and images. Then, we use an LLM based paraphraser and propose to generate a template with various design aspects conditioned on the input content. We show the merits of our approach through extensive automated and human evaluations.
Abstract（参考訳）: 長い入力文書からのポスターは、優れたデザイン要素を持つ優れたテンプレート上に提示された1ページで読みやすいマルチモーダル(テキストと画像)の要約と見なすことができる。長いドキュメントをポスターに自動変換するのは、あまり研究されていないが難しい作業だ。入力文書の内容の要約とテンプレート生成と調和を伴う。そこで本研究では,文書からマルチモーダルコンテンツを抽出し,テキストや画像の良好なカバレッジ,多様性,アライメントを確実にする,新たなサブモーダル関数を提案する。次に, LLM ベースのパラフレーズを用いて, 入力内容に様々な設計要素を付加したテンプレートを生成する。我々は、広範囲な自動化と人的評価を通じて、我々のアプローチのメリットを示す。

関連論文リスト

Relation-Rich Visual Document Generator for Visual Information Extraction [12.4941229258054]
本稿では2段階のアプローチでこれらの制限に対処するリレーショナルrIchビジュアルドキュメンテーション・ジェネレータ(RIDGE)を提案する。提案手法は,様々なVIEベンチマークにおける文書理解モデルの性能を大幅に向上させる。
論文参考訳（メタデータ） (2025-04-14T19:19:26Z)
PDF-WuKong: A Large Multimodal Model for Efficient Long PDF Reading with End-to-End Sparse Sampling [63.93112754821312]
文書理解は、大量のテキストや視覚情報を処理し、理解する上で難しい課題である。大規模言語モデル(LLM)の最近の進歩は、このタスクの性能を大幅に改善した。長いPDF文書に対する多モーダル質問回答(QA)を強化するために設計された多モーダル大言語モデル(MLLM)であるPDF-WuKongを紹介する。
論文参考訳（メタデータ） (2024-10-08T12:17:42Z)
Unified Multi-Modal Interleaved Document Representation for Information Retrieval [57.65409208879344]
我々は、異なるモダリティでインターリーブされた文書を均等に埋め込み、より包括的でニュアンスのある文書表現を生成する。具体的には、テキスト、画像、テーブルの処理と統合を統一されたフォーマットと表現に統合する、近年のビジョン言語モデルの能力を活用して、これを実現する。
論文参考訳（メタデータ） (2024-10-03T17:49:09Z)
mPLUG-DocOwl2: High-resolution Compressing for OCR-free Multi-page Document Understanding [103.05835688963947]
本稿では,高解像度文書画像を324個のトークンに圧縮する高解像度DocCompressorモジュールを提案する。 DocOwl2は、マルチページ文書理解ベンチマークにまたがる最先端の新たなベンチマークを設定し、最初のトークンレイテンシを50%以上削減する。同様のデータで訓練されたシングルイメージMLLMと比較して、DocOwl2はビジュアルトークンの20%未満で、同等のシングルページ理解性能を実現しています。
論文参考訳（メタデータ） (2024-09-05T11:09:00Z)
Hierarchical Multi-modal Transformer for Cross-modal Long Document Classification [74.45521856327001]
階層構造テキストと埋め込み画像で長い文書を分類する方法は、新しい問題である。本稿では,階層型マルチモーダル変換器 (HMT) を用いたクロスモーダルな文書分類手法を提案する。本稿では,マルチモーダル変換器と動的マルチスケールマルチモーダル変換器を用いて,画像特徴とセクションと文特徴の複雑な関係をモデル化する。
論文参考訳（メタデータ） (2024-07-14T07:12:25Z)
Enhancing Presentation Slide Generation by LLMs with a Multi-Staged End-to-End Approach [21.8104104944488]
ドキュメントからリッチなプレゼンテーションを生成するための既存のアプローチは、しばしば半自動的であるか、良い物語の重要性を無視してスライドに平らな要約を配置するだけである。 LLMとVLMを組み合わせた多段階のエンドツーエンドモデルを提案する。我々は,LLMを最先端のプロンプトで直接適用するよりも,自動計測と人的評価の点で,提案した多段階ソリューションの方が優れていることを実験的に示した。
論文参考訳（メタデータ） (2024-06-01T07:49:31Z)
TextHawk: Exploring Efficient Fine-Grained Perception of Multimodal Large Language Models [9.232693392690702]
TextHawkは文書指向マルチモーダル言語モデル(MLLM)である。 4つの専用コンポーネントを設計することで、効率的な微粒化知覚を探索するように設計されている。汎用MLLMベンチマークと文書指向MLLMベンチマークの両方で広範な実験を行い、TextHawkが最先端の手法より優れていることを示す。
論文参考訳（メタデータ） (2024-04-14T09:48:37Z)
Visually Guided Generative Text-Layout Pre-training for Document Intelligence [51.09853181377696]
視覚誘導型生成テキスト事前学習(ViTLP)を提案する。文書画像が与えられた場合、モデルは階層言語とレイアウトモデリングの目的を最適化し、インターリーブされたテキストとレイアウトシーケンスを生成する。 ViTLPは、文書画像のテキストをローカライズし、認識するためのネイティブなOCRモデルとして機能する。
論文参考訳（メタデータ） (2024-03-25T08:00:43Z)
GRAM: Global Reasoning for Multi-Page VQA [14.980413646626234]
本稿では,事前学習したシングルページモデルをマルチページ設定にシームレスに拡張するGRAMを提案する。そのため、ローカルページレベルの理解にシングルページエンコーダを活用し、文書レベルの指定層と学習可能なトークンで拡張する。復号化時に計算量を増やすため、任意の圧縮段階を導入する。
論文参考訳（メタデータ） (2024-01-07T08:03:06Z)
Unifying Vision, Text, and Layout for Universal Document Processing [105.36490575974028]
本稿では,テキスト,画像,レイアウトのモダリティを文書理解と生成を含むさまざまなタスク形式とともに統合するドキュメントAIモデルを提案する。我々の手法は、財務報告、学術論文、ウェブサイトなど、さまざまなデータ領域にまたがって、文書理解やQAといった9つのドキュメントAIタスクの最先端を定めている。
論文参考訳（メタデータ） (2022-12-05T22:14:49Z)
Modeling Endorsement for Multi-Document Abstractive Summarization [10.166639983949887]
単一文書の要約と多文書の要約の重大な違いは、文書の中で健全なコンテンツがどのように現れるかである。本稿では,複数文書要約における文書間補完効果とその活用をモデル化する。提案手法は各文書から合成を生成し,他の文書から有意な内容を識別する支援者として機能する。
論文参考訳（メタデータ） (2021-10-15T03:55:42Z)
DOC2PPT: Automatic Presentation Slides Generation from Scientific Documents [76.19748112897177]
文書・スライド生成のための新しい課題とアプローチを提案する。エンドツーエンドでタスクに取り組むための階層的なシーケンス・ツー・シーケンスアプローチを提案する。提案手法では,文書やスライド内の固有構造を利用して,パラフレーズとレイアウト予測モジュールを組み込んでスライドを生成する。
論文参考訳（メタデータ） (2021-01-28T03:21:17Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。