論文の概要: SlideCoder: Layout-aware RAG-enhanced Hierarchical Slide Generation from Design
- arxiv url: http://arxiv.org/abs/2506.07964v1
- Date: Mon, 09 Jun 2025 17:39:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 16:33:11.084127
- Title: SlideCoder: Layout-aware RAG-enhanced Hierarchical Slide Generation from Design
- Title(参考訳): SlideCoder: レイアウトを意識したRAG強化階層的なスライド生成
- Authors: Wenxin Tang, Jingyu Xiao, Wenxuan Jiang, Xi Xiao, Yuhang Wang, Xuxin Tang, Qing Li, Yuehe Ma, Junliang Liu, Shisong Tang, Michael R. Lyu,
- Abstract要約: 参照画像から編集可能なスライドを生成するためのレイアウト対応検索拡張フレームワークであるSlideCoderを紹介した。
実験によると、SlideCoderは最先端のベースラインを最大40.5ポイント上回るパフォーマンスを示し、レイアウトの忠実さ、実行精度、視覚的整合性を示す。
- 参考スコア(独自算出の注目度): 33.47715901943206
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Manual slide creation is labor-intensive and requires expert prior knowledge. Existing natural language-based LLM generation methods struggle to capture the visual and structural nuances of slide designs. To address this, we formalize the Reference Image to Slide Generation task and propose Slide2Code, the first benchmark with difficulty-tiered samples based on a novel Slide Complexity Metric. We introduce SlideCoder, a layout-aware, retrieval-augmented framework for generating editable slides from reference images. SlideCoder integrates a Color Gradient-based Segmentation algorithm and a Hierarchical Retrieval-Augmented Generation method to decompose complex tasks and enhance code generation. We also release SlideMaster, a 7B open-source model fine-tuned with improved reverse-engineered data. Experiments show that SlideCoder outperforms state-of-the-art baselines by up to 40.5 points, demonstrating strong performance across layout fidelity, execution accuracy, and visual consistency. Our code is available at https://github.com/vinsontang1/SlideCoder.
- Abstract(参考訳): 手動スライドの作成は労働集約的であり、専門家の事前知識を必要とする。
既存の自然言語ベースのLLM生成手法は,スライド設計の視覚的および構造的ニュアンスを捉えるのに苦労している。
そこで我々は,スライド生成タスクの参照画像を形式化し,新しいSlide Complexity Metricをベースとした,難易度の高いサンプルを用いた最初のベンチマークであるSlide2Codeを提案する。
参照画像から編集可能なスライドを生成するためのレイアウト対応検索拡張フレームワークであるSlideCoderを紹介した。
SlideCoderは、Color GradientベースのSegmentationアルゴリズムと階層型Retrieval-Augmented Generationメソッドを統合し、複雑なタスクを分解し、コード生成を強化する。
また、リバースエンジニアリングデータが改善された7BオープンソースモデルであるSlideMasterもリリースしました。
実験によると、SlideCoderは最先端のベースラインを最大40.5ポイント上回るパフォーマンスを示し、レイアウトの忠実さ、実行精度、視覚的整合性を示す。
私たちのコードはhttps://github.com/vinsontang1/SlideCoder.orgから入手可能です。
関連論文リスト
- PreGenie: An Agentic Framework for High-quality Visual Presentation Generation [25.673526096069548]
PreGenieは、マルチモーダルな大規模言語モデル(MLLM)を利用して高品質なビジュアルプレゼンテーションを生成するエージェント型でモジュール型のフレームワークである。
1)マルチモーダル入力を要約して初期コードを生成する解析と初期生成,(2)中間コードを反復的にレビューし,スライドを描画して最終品質の高いプレゼンテーションを生成するレビューと再生成の2段階で動作する。
論文 参考訳(メタデータ) (2025-05-27T18:36:19Z) - Talk to Your Slides: Language-Driven Agents for Efficient Slide Editing [28.792459459465515]
本研究では、スライドを%のアクティブPowerPointセッションで編集するエージェントであるTalk-to-Your-Slidesを提案する。
我々のシステムでは、34.02%の高速処理、34.76%の命令忠実度、87.42%の動作がベースラインよりも安価である。
論文 参考訳(メタデータ) (2025-05-16T18:12:26Z) - Textual-to-Visual Iterative Self-Verification for Slide Generation [46.99825956909532]
欠落したプレゼンテーションスライドを生成するタスクを,コンテンツ生成とレイアウト生成という2つの重要なコンポーネントに分解する。
提案手法は,アライメント,論理フロー,視覚的魅力,可読性の観点から,ベースライン手法を著しく上回っている。
論文 参考訳(メタデータ) (2025-02-21T12:21:09Z) - AutoPresent: Designing Structured Visuals from Scratch [99.766901203884]
エンド・ツー・エンドの画像生成とプログラム生成を様々なモデルでベンチマークする。
スライド生成用のコードと7kペアの命令でトレーニングされた8B LlamaベースのモデルであるAutoPresentを開発した。
論文 参考訳(メタデータ) (2025-01-01T18:09:32Z) - LLMGA: Multimodal Large Language Model based Generation Assistant [53.150283805515926]
画像生成と編集を支援するマルチモーダル大規模言語モデルベース生成アシスタント(LLMGA)を提案する。
我々はMLLMを訓練し、画像生成と編集の特性を把握し、詳細なプロンプトを生成する。
広範な結果から、LLMGAは将来的な生成と編集機能を備えており、より柔軟で拡張性の高いアプリケーションを可能にすることが示されている。
論文 参考訳(メタデータ) (2023-11-27T13:37:26Z) - DOC2PPT: Automatic Presentation Slides Generation from Scientific
Documents [76.19748112897177]
文書・スライド生成のための新しい課題とアプローチを提案する。
エンドツーエンドでタスクに取り組むための階層的なシーケンス・ツー・シーケンスアプローチを提案する。
提案手法では,文書やスライド内の固有構造を利用して,パラフレーズとレイアウト予測モジュールを組み込んでスライドを生成する。
論文 参考訳(メタデータ) (2021-01-28T03:21:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。