論文の概要: Paper2Poster: Towards Multimodal Poster Automation from Scientific Papers
- arxiv url: http://arxiv.org/abs/2505.21497v1
- Date: Tue, 27 May 2025 17:58:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-28 17:05:58.854517
- Title: Paper2Poster: Towards Multimodal Poster Automation from Scientific Papers
- Title(参考訳): Paper2Poster: 学術論文からのマルチモーダルポスター自動化を目指して
- Authors: Wei Pang, Kevin Qinghong Lin, Xiangru Jian, Xi He, Philip Torr,
- Abstract要約: ポストジェネレーションは科学コミュニケーションにおいて不可欠だが難しい課題である。
ポスター生成のための最初のベンチマークとメトリクススイートを紹介する。
PosterAgentはトップダウンのビジュアルインザループマルチエージェントパイプラインである。
- 参考スコア(独自算出の注目度): 11.186078920251754
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Academic poster generation is a crucial yet challenging task in scientific communication, requiring the compression of long-context interleaved documents into a single, visually coherent page. To address this challenge, we introduce the first benchmark and metric suite for poster generation, which pairs recent conference papers with author-designed posters and evaluates outputs on (i)Visual Quality-semantic alignment with human posters, (ii)Textual Coherence-language fluency, (iii)Holistic Assessment-six fine-grained aesthetic and informational criteria scored by a VLM-as-judge, and notably (iv)PaperQuiz-the poster's ability to convey core paper content as measured by VLMs answering generated quizzes. Building on this benchmark, we propose PosterAgent, a top-down, visual-in-the-loop multi-agent pipeline: the (a)Parser distills the paper into a structured asset library; the (b)Planner aligns text-visual pairs into a binary-tree layout that preserves reading order and spatial balance; and the (c)Painter-Commenter loop refines each panel by executing rendering code and using VLM feedback to eliminate overflow and ensure alignment. In our comprehensive evaluation, we find that GPT-4o outputs-though visually appealing at first glance-often exhibit noisy text and poor PaperQuiz scores, and we find that reader engagement is the primary aesthetic bottleneck, as human-designed posters rely largely on visual semantics to convey meaning. Our fully open-source variants (e.g. based on the Qwen-2.5 series) outperform existing 4o-driven multi-agent systems across nearly all metrics, while using 87% fewer tokens. It transforms a 22-page paper into a finalized yet editable .pptx poster - all for just $0.005. These findings chart clear directions for the next generation of fully automated poster-generation models. The code and datasets are available at https://github.com/Paper2Poster/Paper2Poster.
- Abstract(参考訳): 学術ポスター生成は、科学コミュニケーションにおいて重要な課題であり、長いコンテキストのインターリーブされた文書を単一の視覚的に一貫性のあるページに圧縮する必要がある。
この課題に対処するために、著者が設計した最近のカンファレンス論文と著者が設計したポスターを組み合わせて出力を評価する、ポスター生成のための最初のベンチマークとメトリクススイートを導入する。
(i)人間のポスターとの視覚的品質・セマンティックアライメント
(ii)テキストコヒーレンス言語流布
3) VLM-as-judge による詳細な審美的・情報的基準、特に
(iv)VLMが生成したクイズに答えることで,ポスターのコア紙内容を伝達する能力。
このベンチマークに基づいて、トップダウンでビジュアル・イン・ザ・ループのマルチエージェントパイプラインであるPosterAgentを提案する。
(a)Parserは、紙を構造化資産図書館に蒸留する。
(b)Plannerは、テキストと視覚のペアを、読み出し順序と空間的バランスを保存するバイナリツリーレイアウトに整列する。
(c)Painter-Commenterループはレンダリングコードを実行し、VLMフィードバックを使用してオーバーフローを排除し、アライメントを確保することで各パネルを洗練する。
包括的評価では、GPT-4oは、一見すると視覚的に魅力的であるものの、ノイズの多いテキストと貧弱なPaperQuizスコアを出力し、読者のエンゲージメントが主要な審美的ボトルネックであることがわかった。
私たちの完全なオープンソース版(例えばQwen-2.5シリーズ)は、既存の4o駆動のマルチエージェントシステムをほぼすべてのメトリクスで上回り、トークンを87%削減しています。
22ページの論文を、最終版だが編集可能な.pptxのポスターに変換する。
これらの結果から,次世代の完全自動ポスター生成モデルの方向性が明らかとなった。
コードとデータセットはhttps://github.com/Paper2Poster/Paper2Posterで入手できる。
関連論文リスト
- P2P: Automated Paper-to-Poster Generation and Fine-Grained Benchmark [27.57464219790922]
高品質なHTMLレンダリングの学術ポスターを生成するLLMベースのマルチエージェントフレームワークであるP2Pを紹介する。
P2Pは、ビジュアル要素処理、コンテンツ生成、および専用のチェッカーモジュールと統合された最後のポスターアセンブリーの3つの特殊エージェントを使用している。
P2PEvalは121枚の紙とポストのペアと2つの評価手法を組み合わせた総合的なベンチマークである。
論文 参考訳(メタデータ) (2025-05-21T09:06:05Z) - PosterMaker: Towards High-Quality Product Poster Generation with Accurate Text Rendering [50.76106125697899]
テーマ、シーン、テキストを統合したプロダクトポスターは、顧客を引き付けるための重要なプロモーションツールである。
主な課題はテキストを正確にレンダリングすることであり、特に1万文字以上を含む中国語のような複雑な書記システムではそうである。
テキストレンダリング精度が90%を超えるTextRenderNetを開発した。
TextRenderNetとSceneGenNetをベースに、エンドツーエンド生成フレームワークであるPosterMakerを紹介します。
論文 参考訳(メタデータ) (2025-04-09T07:13:08Z) - PPTAgent: Generating and Evaluating Presentations Beyond Text-to-Slides [51.88536367177796]
そこで本研究では,人案に触発された2段階の編集手法を提案し,プレゼンテーションを自動的に生成する。
PWTAgentはまず参照を分析し、スライドレベルの関数型とコンテンツスキーマを抽出し、選択した参照スライドに基づいて編集アクションを生成する。
PWTAgentは、既存の3次元のプレゼンテーション生成方法よりも大幅に優れています。
論文 参考訳(メタデータ) (2025-01-07T16:53:01Z) - mPLUG-DocOwl2: High-resolution Compressing for OCR-free Multi-page Document Understanding [103.05835688963947]
本稿では,高解像度文書画像を324個のトークンに圧縮する高解像度DocCompressorモジュールを提案する。
DocOwl2は、マルチページ文書理解ベンチマークにまたがる最先端の新たなベンチマークを設定し、最初のトークンレイテンシを50%以上削減する。
同様のデータで訓練されたシングルイメージMLLMと比較して、DocOwl2はビジュアルトークンの20%未満で、同等のシングルページ理解性能を実現しています。
論文 参考訳(メタデータ) (2024-09-05T11:09:00Z) - GlyphDraw2: Automatic Generation of Complex Glyph Posters with Diffusion Models and Large Language Models [7.152732507491591]
LLMを利用したテキストレンダリング機能を備えた自動ポスター生成フレームワークを提案する。
このフレームワークは、詳細な背景の中で正確なポスターテキストを作成することを目的としている。
解像度が1024ピクセルを超える高解像度フォントデータセットとポスターデータセットを導入する。
論文 参考訳(メタデータ) (2024-07-02T13:17:49Z) - OmniParser: A Unified Framework for Text Spotting, Key Information Extraction and Table Recognition [79.852642726105]
多様なシナリオにまたがって視覚的なテキストを解析するための統一パラダイムを提案する。
具体的には,3つの視覚的なテキスト解析タスクを同時に処理できるOmniというユニバーサルモデルを提案する。
オムニでは、全てのタスクが統一エンコーダ・デコーダアーキテクチャ、統一目的点条件テキスト生成、統一入力表現を共有している。
論文 参考訳(メタデータ) (2024-03-28T03:51:14Z) - KOSMOS-2.5: A Multimodal Literate Model [136.96172068766285]
テキスト集約画像の機械読取のためのマルチモーダルリテラルモデル KOSMOS-2.5 を提案する。
KOSMOS-2.5は2つの異なる相補的な転写タスクに優れる。
我々は文書理解タスクにKoSMOS-2.5を微調整し、KoSMOS-2.5-CHATという文書理解ジェネラリストを生み出した。
論文 参考訳(メタデータ) (2023-09-20T15:50:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。