論文の概要: Textual-to-Visual Iterative Self-Verification for Slide Generation
- arxiv url: http://arxiv.org/abs/2502.15412v1
- Date: Fri, 21 Feb 2025 12:21:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-24 16:09:50.645927
- Title: Textual-to-Visual Iterative Self-Verification for Slide Generation
- Title(参考訳): スライド生成のためのテクスチュアル・ツー・ビジュアル反復自己検証
- Authors: Yunqing Xu, Xinbei Ma, Jiyang Qiu, Hai Zhao,
- Abstract要約: 欠落したプレゼンテーションスライドを生成するタスクを,コンテンツ生成とレイアウト生成という2つの重要なコンポーネントに分解する。
提案手法は,アライメント,論理フロー,視覚的魅力,可読性の観点から,ベースライン手法を著しく上回っている。
- 参考スコア(独自算出の注目度): 46.99825956909532
- License:
- Abstract: Generating presentation slides is a time-consuming task that urgently requires automation. Due to their limited flexibility and lack of automated refinement mechanisms, existing autonomous LLM-based agents face constraints in real-world applicability. We decompose the task of generating missing presentation slides into two key components: content generation and layout generation, aligning with the typical process of creating academic slides. First, we introduce a content generation approach that enhances coherence and relevance by incorporating context from surrounding slides and leveraging section retrieval strategies. For layout generation, we propose a textual-to-visual self-verification process using a LLM-based Reviewer + Refiner workflow, transforming complex textual layouts into intuitive visual formats. This modality transformation simplifies the task, enabling accurate and human-like review and refinement. Experiments show that our approach significantly outperforms baseline methods in terms of alignment, logical flow, visual appeal, and readability.
- Abstract(参考訳): プレゼンテーションスライドの生成は、緊急に自動化を必要とする時間を要するタスクです。
柔軟性の制限と自動リファインメント機構の欠如により、既存のLLMベースのエージェントは現実の応用性において制約に直面している。
本稿では,欠落したプレゼンテーションスライドを生成するタスクを,コンテンツ生成とレイアウト生成という2つの重要なコンポーネントに分解する。
まず、周囲のスライドからコンテキストを取り入れ、セクション検索戦略を活用することで、コヒーレンスと関連性を高めるコンテンツ生成手法を提案する。
レイアウト生成のために,LLMをベースとしたReviewer + Refinerワークフローを用いて,複雑なテキストレイアウトを直感的な視覚形式に変換する,テキストから視覚への自己検証プロセスを提案する。
このモダリティ変換はタスクを単純化し、正確で人間らしいレビューと改善を可能にします。
実験により,本手法はアライメント,論理フロー,視覚的魅力,可読性の観点から,ベースライン法を著しく上回ることがわかった。
関連論文リスト
- SocialGPT: Prompting LLMs for Social Relation Reasoning via Greedy Segment Optimization [70.11167263638562]
社会的関係推論は、友人、配偶者、同僚などの関係カテゴリを画像から識別することを目的としている。
まず、VFM(Vision Foundation Models)の知覚能力と、モジュラーフレームワーク内でのLLM(Large Language Models)の推論能力を組み合わせた、シンプルだが巧妙な名前のフレームワークを提示する。
論文 参考訳(メタデータ) (2024-10-28T18:10:26Z) - Flex: End-to-End Text-Instructed Visual Navigation with Foundation Models [59.892436892964376]
本稿では,視覚に基づく制御ポリシを用いて,ロバストな閉ループ性能を実現するために必要な最小限のデータ要件とアーキテクチャ適応について検討する。
この知見はFlex (Fly-lexically) で合成され,VLM(Vision Language Models) をフリーズしたパッチワイド特徴抽出器として利用するフレームワークである。
本研究では,本手法が4段階のフライ・トゥ・ターゲットタスクにおいて有効であることを示す。
論文 参考訳(メタデータ) (2024-10-16T19:59:31Z) - ComfyGen: Prompt-Adaptive Workflows for Text-to-Image Generation [87.39861573270173]
本稿では,各ユーザプロンプトに自動的にワークフローをカスタマイズすることを目的とする,プロンプト適応型ワークフロー生成の新しいタスクを紹介する。
本稿では,この課題に対処する2つの LLM ベースの手法を提案する。ユーザ・参照データから学習するチューニングベース手法と,既存のフローを選択するために LLM を使用するトレーニングフリー手法である。
本研究は,現場における既存研究の方向性を補完し,テキスト・画像生成の品質向上のための新たな経路を提供することを示す。
論文 参考訳(メタデータ) (2024-10-02T16:43:24Z) - SHAPE-IT: Exploring Text-to-Shape-Display for Generative Shape-Changing Behaviors with LLMs [12.235304780960142]
本稿では,自然言語コマンドによるピン型形状変化を動的に生成する新しい手法であるテキスト・トゥ・シェイプ・ディスプレイを提案する。
大規模言語モデル(LLM)とAIチェーンを利用することで、ユーザはプログラミングなしでテキストプロンプトを通じて、要求に応じて形状を変える動作を記述できる。
論文 参考訳(メタデータ) (2024-09-10T04:18:49Z) - Text-Video Retrieval with Global-Local Semantic Consistent Learning [122.15339128463715]
我々は,シンプルで効果的なグローバル局所意味的一貫性学習(GLSCL)を提案する。
GLSCLは、テキストビデオ検索のためのモダリティをまたいだ潜在共有セマンティクスを活用する。
本手法はSOTAと同等の性能を実現し,計算コストの約220倍の高速化を実現している。
論文 参考訳(メタデータ) (2024-05-21T11:59:36Z) - DOC2PPT: Automatic Presentation Slides Generation from Scientific
Documents [76.19748112897177]
文書・スライド生成のための新しい課題とアプローチを提案する。
エンドツーエンドでタスクに取り組むための階層的なシーケンス・ツー・シーケンスアプローチを提案する。
提案手法では,文書やスライド内の固有構造を利用して,パラフレーズとレイアウト予測モジュールを組み込んでスライドを生成する。
論文 参考訳(メタデータ) (2021-01-28T03:21:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。