論文の概要: AutoPresent: Designing Structured Visuals from Scratch
- arxiv url: http://arxiv.org/abs/2501.00912v1
- Date: Wed, 01 Jan 2025 18:09:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-05 17:16:41.611008
- Title: AutoPresent: Designing Structured Visuals from Scratch
- Title(参考訳): AutoPresent: Scratchから構造化されたビジュアルを設計する
- Authors: Jiaxin Ge, Zora Zhiruo Wang, Xuhui Zhou, Yi-Hao Peng, Sanjay Subramanian, Qinyue Tan, Maarten Sap, Alane Suhr, Daniel Fried, Graham Neubig, Trevor Darrell,
- Abstract要約: エンド・ツー・エンドの画像生成とプログラム生成を様々なモデルでベンチマークする。
スライド生成用のコードと7kペアの命令でトレーニングされた8B LlamaベースのモデルであるAutoPresentを開発した。
- 参考スコア(独自算出の注目度): 99.766901203884
- License:
- Abstract: Designing structured visuals such as presentation slides is essential for communicative needs, necessitating both content creation and visual planning skills. In this work, we tackle the challenge of automated slide generation, where models produce slide presentations from natural language (NL) instructions. We first introduce the SlidesBench benchmark, the first benchmark for slide generation with 7k training and 585 testing examples derived from 310 slide decks across 10 domains. SlidesBench supports evaluations that are (i)reference-based to measure similarity to a target slide, and (ii)reference-free to measure the design quality of generated slides alone. We benchmark end-to-end image generation and program generation methods with a variety of models, and find that programmatic methods produce higher-quality slides in user-interactable formats. Built on the success of program generation, we create AutoPresent, an 8B Llama-based model trained on 7k pairs of instructions paired with code for slide generation, and achieve results comparable to the closed-source model GPT-4o. We further explore iterative design refinement where the model is tasked to self-refine its own output, and we found that this process improves the slide's quality. We hope that our work will provide a basis for future work on generating structured visuals.
- Abstract(参考訳): プレゼンテーションスライドのような構造化された視覚設計は、コンテンツ作成と視覚計画スキルの両方を必要とするコミュニケーションニーズに不可欠である。
本研究では、モデルが自然言語(NL)命令からスライドプレゼンテーションを生成する自動スライド生成の課題に取り組む。
まず、SlidesBenchベンチマークを紹介します。SlidesBenchベンチマークは、7kトレーニングと10ドメインにわたる310のスライドデッキから得られた585のテスト例を備えた、スライド生成のための最初のベンチマークです。
SlidesBenchは評価をサポートする
(i)ターゲットスライドと類似度を測定する参照ベース、
(II)生成スライドのみの設計品質を計測する参照フリー。
エンド・ツー・エンドの画像生成とプログラム生成を様々なモデルでベンチマークし、プログラム的手法がユーザ・インタラクション可能なフォーマットで高品質なスライドを生成することを発見した。
プログラム生成の成功に基づいて構築されたAutoPresentは,スライド生成のためのコードと組み合わせた7kペアの命令に基づいて訓練された8B Llamaベースのモデルで,クローズドソースモデルであるGPT-4oに匹敵する結果が得られる。
さらに、モデルが自身のアウトプットを自己修正する作業を行う反復的な設計改善について検討し、このプロセスによってスライドの品質が向上することを確認した。
われわれの研究が、構造化された視覚を生成するための基礎となることを願っている。
関連論文リスト
- PPTAgent: Generating and Evaluating Presentations Beyond Text-to-Slides [51.88536367177796]
そこで本研究では,人案に触発された2段階の編集手法を提案し,プレゼンテーションを自動的に生成する。
PWTAgentはまず参照を分析し、スライドレベルの関数型とコンテンツスキーマを抽出し、選択した参照スライドに基づいて編集アクションを生成する。
PWTAgentは、既存の3次元のプレゼンテーション生成方法よりも大幅に優れています。
論文 参考訳(メタデータ) (2025-01-07T16:53:01Z) - IDEA-Bench: How Far are Generative Models from Professional Designing? [34.00716542613326]
実世界の100のタスクを含むベンチマークであるIDEA-Benchを紹介する。
これには、レンダリング、ビジュアルエフェクト、ストーリーボード、絵本、フォント、スタイルベース、アイデンティティ保存生成が含まれる。
最高のパフォーマンスモデルでさえ、IDEA-Benchで22.48しか達成せず、最高の汎用モデルは6.81しか達成していない。
論文 参考訳(メタデータ) (2024-12-16T13:39:32Z) - PRISM: A Multi-Modal Generative Foundation Model for Slide-Level Histopathology [9.556246087301883]
我々は,Virchhowタイルの埋め込みを基盤としたH&E染色組織学のスライドレベル基盤モデルPRISMを提案する。
PRISMは、臨床報告を生成する能力を持つスライドレベルの埋め込みを生成し、いくつかのモードで使用される。
テキストプロンプトを用いて、PRISMは教師付きアグリゲータモデルに近づいたゼロショットがん検出とサブタイピング性能を達成する。
論文 参考訳(メタデータ) (2024-05-16T16:59:12Z) - Assessing GPT-4-Vision's Capabilities in UML-Based Code Generation [0.5789654849162464]
GPT-4-Visionは最先端のディープラーニングモデルである。
UML(Unified Modeling Language)クラスダイアグラムを完全なJavaクラスファイルに変換することができる。
論文 参考訳(メタデータ) (2024-04-22T17:21:24Z) - MV-CLIP: Multi-View CLIP for Zero-shot 3D Shape Recognition [49.52436478739151]
大規模な事前訓練モデルでは、オープンワールドシナリオにおける視覚と言語タスクのパフォーマンスが著しく向上している。
近年の手法では、ゼロショット3次元形状認識を実現するために、言語画像事前学習を採用している。
本稿では、ビュー選択と階層的プロンプトによる信頼性の向上を目的とする。
論文 参考訳(メタデータ) (2023-11-30T09:51:53Z) - Taming Encoder for Zero Fine-tuning Image Customization with
Text-to-Image Diffusion Models [55.04969603431266]
本稿では,ユーザが指定したカスタマイズされたオブジェクトの画像を生成する手法を提案する。
この手法は、従来のアプローチで要求される長大な最適化をバイパスする一般的なフレームワークに基づいている。
提案手法は, 出力品質, 外観の多様性, 被写体忠実度を考慮した画像合成が可能であることを示す。
論文 参考訳(メタデータ) (2023-04-05T17:59:32Z) - Classroom Slide Narration System [27.127537034521467]
スライドプレゼンテーションは、教室コミュニケーションのための教育コミュニティが使う効果的で効率的なツールである。
教室スライドナレーションシステム(CSNS)は、スライド内容に対応する音声記述を生成する。
FacebookのAutomatic Alt-Text(AAT)やTesseractのような既存のシステムと比較して、提案されたCSNSの品質のアウトプットに対して、より優れたフィードバックが得られている。
論文 参考訳(メタデータ) (2022-01-21T07:20:03Z) - Improving Label Quality by Jointly Modeling Items and Annotators [68.8204255655161]
雑音アノテータから基底真理ラベルを学習するための完全ベイズ的枠組みを提案する。
我々のフレームワークは、ラベル分布上の生成的ベイズソフトクラスタリングモデルを古典的なDavidとSkeneのジョイントアノテータデータモデルに分解することでスケーラビリティを保証する。
論文 参考訳(メタデータ) (2021-06-20T02:15:20Z) - DOC2PPT: Automatic Presentation Slides Generation from Scientific
Documents [76.19748112897177]
文書・スライド生成のための新しい課題とアプローチを提案する。
エンドツーエンドでタスクに取り組むための階層的なシーケンス・ツー・シーケンスアプローチを提案する。
提案手法では,文書やスライド内の固有構造を利用して,パラフレーズとレイアウト予測モジュールを組み込んでスライドを生成する。
論文 参考訳(メタデータ) (2021-01-28T03:21:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。