論文の概要: P2P: Automated Paper-to-Poster Generation and Fine-Grained Benchmark
- arxiv url: http://arxiv.org/abs/2505.17104v1
- Date: Wed, 21 May 2025 09:06:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-26 18:08:33.567459
- Title: P2P: Automated Paper-to-Poster Generation and Fine-Grained Benchmark
- Title(参考訳): P2P:紙と郵便の自動生成と微粒化ベンチマーク
- Authors: Tao Sun, Enhao Pan, Zhengkai Yang, Kaixin Sui, Jiajun Shi, Xianfu Cheng, Tongliang Li, Wenhao Huang, Ge Zhang, Jian Yang, Zhoujun Li,
- Abstract要約: 高品質なHTMLレンダリングの学術ポスターを生成するLLMベースのマルチエージェントフレームワークであるP2Pを紹介する。
P2Pは、ビジュアル要素処理、コンテンツ生成、および専用のチェッカーモジュールと統合された最後のポスターアセンブリーの3つの特殊エージェントを使用している。
P2PEvalは121枚の紙とポストのペアと2つの評価手法を組み合わせた総合的なベンチマークである。
- 参考スコア(独自算出の注目度): 27.57464219790922
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Academic posters are vital for scholarly communication, yet their manual creation is time-consuming. However, automated academic poster generation faces significant challenges in preserving intricate scientific details and achieving effective visual-textual integration. Existing approaches often struggle with semantic richness and structural nuances, and lack standardized benchmarks for evaluating generated academic posters comprehensively. To address these limitations, we introduce P2P, the first flexible, LLM-based multi-agent framework that generates high-quality, HTML-rendered academic posters directly from research papers, demonstrating strong potential for practical applications. P2P employs three specialized agents-for visual element processing, content generation, and final poster assembly-each integrated with dedicated checker modules to enable iterative refinement and ensure output quality. To foster advancements and rigorous evaluation in this domain, we construct and release P2PInstruct, the first large-scale instruction dataset comprising over 30,000 high-quality examples tailored for the academic paper-to-poster generation task. Furthermore, we establish P2PEval, a comprehensive benchmark featuring 121 paper-poster pairs and a dual evaluation methodology (Universal and Fine-Grained) that leverages LLM-as-a-Judge and detailed, human-annotated checklists. Our contributions aim to streamline research dissemination and provide the community with robust tools for developing and evaluating next-generation poster generation systems.
- Abstract(参考訳): 学術ポスターは学術的なコミュニケーションには不可欠だが、手作業による作成には時間がかかる。
しかし、学術ポスターの自動作成は、複雑な科学的詳細を保存し、効果的な視覚・テキスト統合を実現する上で大きな課題に直面している。
既存のアプローチは、しばしば意味的な豊かさと構造的なニュアンスに悩まされ、生成された学術ポスターを包括的に評価するための標準ベンチマークが欠如している。
これらの制約に対処するため、我々はP2Pを導入する。P2PはLLMベースの初めての柔軟なマルチエージェントフレームワークで、研究論文から直接高品質なHTMLレンダリングされた学術ポスターを生成し、実用的な応用の可能性を示している。
P2Pは、視覚要素処理、コンテンツ生成、最後のポスターアセンブリーを専用のチェッカーモジュールに統合し、反復的な洗練と出力品質の確保を可能にする。
この領域の進歩と厳密な評価を促進するため,学術論文作成タスクに適した3万件以上の高品質な事例からなる,最初の大規模指導データセットであるP2PInstructを構築し,リリースする。
さらに,LLM-as-a-Judgeと詳細な人手によるチェックリストを活用した,121枚の紙ポストペアと2つの評価手法(Universal and Fine-Grained)を備えた総合的なベンチマークであるP2PEvalを確立する。
本研究は,次世代のポスター生成システムの開発と評価を行う上で,コミュニティに堅牢なツールを提供することを目的としている。
関連論文リスト
- XtraGPT: LLMs for Human-AI Collaboration on Controllable Academic Paper Revision [41.44785777328187]
XtraGPTはオープンソースの大規模言語モデル(LLM)の最初のスイートである。
我々は140,000以上の命令-応答ペアで注釈付けされたトップレベルの会場から7,040件の研究論文のデータセットを紹介した。
XtraGPTは、同じスケールのベースラインを著しく上回り、プロプライエタリなシステムの品質にアプローチする。
論文 参考訳(メタデータ) (2025-05-16T15:02:19Z) - Paper2Code: Automating Code Generation from Scientific Papers in Machine Learning [57.09163579304332]
機械学習論文を機能コードリポジトリに変換するフレームワークであるPaperCoderを紹介した。
PaperCoderは3つの段階で動作する。計画、図によるシステムアーキテクチャの設計、ファイル依存の特定、構成ファイルの生成である。
次に、モデルベースおよび人的評価の両方に基づいて、機械学習論文からコード実装を生成するPaperCoderを評価する。
論文 参考訳(メタデータ) (2025-04-24T01:57:01Z) - Compose Your Aesthetics: Empowering Text-to-Image Models with the Principles of Art [61.28133495240179]
本稿では,ユーザが特定した美学をT2I生成出力と整合させることを目的とした,美学アライメントの新しい課題を提案する。
アートワークが美学にアプローチするための貴重な視点を提供する方法にインスパイアされた私たちは、構成的枠組みのアーティストが採用する視覚的美学を定式化した。
我々は,T2I DMが,ユーザが特定したPoA条件により10の合成制御を効果的に提供することを実証した。
論文 参考訳(メタデータ) (2025-03-15T06:58:09Z) - PPTAgent: Generating and Evaluating Presentations Beyond Text-to-Slides [51.88536367177796]
そこで本研究では,人案に触発された2段階の編集手法を提案し,プレゼンテーションを自動的に生成する。
PWTAgentはまず参照を分析し、スライドレベルの関数型とコンテンツスキーマを抽出し、選択した参照スライドに基づいて編集アクションを生成する。
PWTAgentは、既存の3次元のプレゼンテーション生成方法よりも大幅に優れています。
論文 参考訳(メタデータ) (2025-01-07T16:53:01Z) - Automating Intervention Discovery from Scientific Literature: A Progressive Ontology Prompting and Dual-LLM Framework [56.858564736806414]
本稿では,大規模言語モデル(LLM)を利用した科学文献の介入の同定手法を提案する。
言語病理領域における64,177論文のコーパスから,2,421件の介入が得られた。
論文 参考訳(メタデータ) (2024-08-20T16:42:23Z) - GlyphDraw2: Automatic Generation of Complex Glyph Posters with Diffusion Models and Large Language Models [7.152732507491591]
LLMを利用したテキストレンダリング機能を備えた自動ポスター生成フレームワークを提案する。
このフレームワークは、詳細な背景の中で正確なポスターテキストを作成することを目的としている。
解像度が1024ピクセルを超える高解像度フォントデータセットとポスターデータセットを導入する。
論文 参考訳(メタデータ) (2024-07-02T13:17:49Z) - Navigating the Path of Writing: Outline-guided Text Generation with Large Language Models [8.920436030483872]
大規模言語モデル(LLM)は、コンテンツ作成プラットフォームにおける人間とのコラボレーションによる生産性向上という、執筆プロセスに影響を与えている。
目標指向で高品質なテキストを生成する上で,LCMをガイドする上で,アウトラインを明示的に利用するフレームワークであるWritePathを提案する。
論文 参考訳(メタデータ) (2024-04-22T06:57:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。