論文の概要: SlideGen: Collaborative Multimodal Agents for Scientific Slide Generation
- arxiv url: http://arxiv.org/abs/2512.04529v2
- Date: Tue, 09 Dec 2025 00:34:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-10 14:12:22.83577
- Title: SlideGen: Collaborative Multimodal Agents for Scientific Slide Generation
- Title(参考訳): SlideGen: 科学的スライド生成のための協調型マルチモーダルエージェント
- Authors: Xin Liang, Xiang Zhang, Yiwei Xu, Siqi Sun, Chenyu You,
- Abstract要約: SlideGenは、科学論文をスライド生成するためのループフレームワークにおいて、エージェント的でモジュール的でビジュアルである。
ドキュメントの構造とセマンティクスを協調的に操作する視覚言語エージェントのグループを編成し、論理フローと魅力的なビジュアルプレゼンテーションを備えた編集可能なXスライドを生成する。
- 参考スコア(独自算出の注目度): 26.4357968329723
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generating academic slides from scientific papers is a challenging multimodal reasoning task that requires both long context understanding and deliberate visual planning. Existing approaches largely reduce it to text only summarization, overlooking the visual component and design intensive nature of slide creation. In this paper we introduce SlideGen, an agentic, modular, and visual in the loop framework for scientific paper to slide generation. SlideGen orchestrates a group of vision language agents that reason collaboratively over the document structure and semantics, producing editable PPTX slides with logical flow and compelling visual presentation. By integrating coordinated outlining, mapping, arrangement, note synthesis, and iterative refinement, our system consistently delivers slides of expert level quality. Across diverse benchmarks and strong baselines, SlideGen outperforms existing methods in visual quality, content faithfulness, and readability, positioning it as the new state of the art in automated slide generation. Our work establishes a foundation for design aware multimodal slide generation, demonstrating how agentic collaboration can bridge understanding and presentation in complex multimodal reasoning tasks.
- Abstract(参考訳): 学術論文から学術的なスライドを生成することは、長期の文脈理解と意図的な視覚計画の両方を必要とする、挑戦的なマルチモーダル推論タスクである。
既存のアプローチでは、スライド生成の視覚的コンポーネントと設計集約性を見越して、テキストのみの要約に大幅に削減されている。
本稿では,SlideGenについて紹介する。SlideGenは,スライダー生成のための科学論文のループフレームワークである。
SlideGenは、ドキュメント構造とセマンティクスを協調的に操作する視覚言語エージェントのグループを編成し、論理フローと魅力的なビジュアルプレゼンテーションを備えた編集可能なPTXスライドを生成する。
協調したアウトライン、マッピング、アレンジメント、ノート合成、反復的な改善を統合することで、システムは常に専門家レベルの品質のスライドを配信します。
さまざまなベンチマークと強力なベースラインを通じて、SlideGenは、視覚的品質、コンテンツ忠実性、可読性において既存のメソッドよりも優れており、自動スライド生成における新しい最先端として位置づけられている。
我々の研究は、複雑なマルチモーダル推論タスクにおけるエージェント協調が理解とプレゼンテーションを橋渡しする方法を実証し、多モーダルスライド生成を意識した設計基盤を確立する。
関連論文リスト
- SlideBot: A Multi-Agent Framework for Generating Informative, Reliable, Multi-Modal Presentations [29.874786844781138]
大規模言語モデル(LLM)は、クイズ生成やコンテンツ要約といったタスクを自動化し、教育において大きな可能性を示している。
既存のLCMベースのソリューションは、信頼性と情報的アウトプットが得られず、教育的価値が制限されることが多い。
SlideBot - LLMを検索、構造化計画、コード生成と統合したモジュラーでマルチエージェントなスライド生成フレームワークである。
論文 参考訳(メタデータ) (2025-11-12T23:12:05Z) - PreGenie: An Agentic Framework for High-quality Visual Presentation Generation [44.93958820783717]
PreGenieは、マルチモーダルな大規模言語モデル(MLLM)を利用して高品質なビジュアルプレゼンテーションを生成するエージェント型でモジュール型のフレームワークである。
1)マルチモーダル入力を要約して初期コードを生成する解析と初期生成,(2)中間コードを反復的にレビューし,スライドを描画して最終品質の高いプレゼンテーションを生成するレビューと再生成の2段階で動作する。
論文 参考訳(メタデータ) (2025-05-27T18:36:19Z) - Textual-to-Visual Iterative Self-Verification for Slide Generation [46.99825956909532]
欠落したプレゼンテーションスライドを生成するタスクを,コンテンツ生成とレイアウト生成という2つの重要なコンポーネントに分解する。
提案手法は,アライメント,論理フロー,視覚的魅力,可読性の観点から,ベースライン手法を著しく上回っている。
論文 参考訳(メタデータ) (2025-02-21T12:21:09Z) - PPTAgent: Generating and Evaluating Presentations Beyond Text-to-Slides [51.88536367177796]
そこで本研究では,人案に触発された2段階の編集手法を提案し,プレゼンテーションを自動的に生成する。
PWTAgentはまず参照を分析し、スライドレベルの関数型とコンテンツスキーマを抽出し、選択した参照スライドに基づいて編集アクションを生成する。
PWTAgentは、既存の3次元のプレゼンテーション生成方法よりも大幅に優れています。
論文 参考訳(メタデータ) (2025-01-07T16:53:01Z) - Composer: Creative and Controllable Image Synthesis with Composable
Conditions [57.78533372393828]
ビッグデータで学んだ最近の大規模な生成モデルは、驚くべき画像を合成できるが、制御性は限られている。
この研究は、合成品質とモデルの創造性を維持しつつ、空間配置やパレットのような出力画像の柔軟な制御を可能にする新しい世代パラダイムを提供する。
論文 参考訳(メタデータ) (2023-02-20T05:48:41Z) - DOC2PPT: Automatic Presentation Slides Generation from Scientific
Documents [76.19748112897177]
文書・スライド生成のための新しい課題とアプローチを提案する。
エンドツーエンドでタスクに取り組むための階層的なシーケンス・ツー・シーケンスアプローチを提案する。
提案手法では,文書やスライド内の固有構造を利用して,パラフレーズとレイアウト予測モジュールを組み込んでスライドを生成する。
論文 参考訳(メタデータ) (2021-01-28T03:21:17Z) - Hierarchy Composition GAN for High-fidelity Image Synthesis [57.32311953820988]
本稿では,革新的階層構成GAN(HIC-GAN)を提案する。
HIC-GANは、幾何学と外観領域における画像合成をエンドツーエンドのトレーニング可能なネットワークに組み込んでいる。
シーンテキスト画像合成, 肖像画編集, 室内レンダリングタスクの実験により, 提案したHIC-GANは, 質的, 定量的に優れた合成性能が得られることを示した。
論文 参考訳(メタデータ) (2019-05-12T11:11:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。