論文の概要: AeSlides: Incentivizing Aesthetic Layout in LLM-Based Slide Generation via Verifiable Rewards
- arxiv url: http://arxiv.org/abs/2604.22840v1
- Date: Tue, 21 Apr 2026 11:59:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-28 17:12:06.977955
- Title: AeSlides: Incentivizing Aesthetic Layout in LLM-Based Slide Generation via Verifiable Rewards
- Title(参考訳): AeSlides:検証リワードによるLCMベースのスライド生成における審美的レイアウトのインセンティブ化
- Authors: Yiming Pan, Chengwei Hu, Xuancheng Huang, Can Huang, Mingming Zhao, Yuean Bi, Xiaohan Zhang, Aohan Zeng, Linmei Hu,
- Abstract要約: AeSlidesは強化学習フレームワークで、Slideジェネレーションにおける美的レイアウトの監督に有効な報酬を提供する。
GLM-4.7-Flashでの5Kトレーニングのプロンプトで、AeSlidesはアスペクト比のコンプライアンスを36%から85%改善し、ホワイトスペースを44%削減し、元素衝突を43%減らし、視覚的不均衡を28%改善した。
- 参考スコア(独自算出の注目度): 25.706853645118453
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have demonstrated strong potential in agentic tasks, particularly in slide generation. However, slide generation poses a fundamental challenge: the generation process is text-centric, whereas its quality is governed by visual aesthetics. This modality gap leads current models to frequently produce slides with aesthetically suboptimal layouts. Existing solutions typically rely either on heavy visual reflection, which incurs high inference cost yet yields limited gains; or on fine-tuning with large-scale datasets, which still provides weak and indirect aesthetic supervision. In contrast, the explicit use of aesthetic principles as supervision remains unexplored. In this work, we present AeSlides, a reinforcement learning framework with verifiable rewards for Aesthetic layout supervision in Slide generation. We introduce a suite of meticulously designed verifiable metrics to quantify slide layout quality, capturing key layout issues in an accurate, efficient, and low-cost manner. Leveraging these verifiable metrics, we develop a GRPO-based reinforcement learning method that directly optimizes slide generation models for aesthetically coherent layouts. With only 5K training prompts on GLM-4.7-Flash, AeSlides improves aspect ratio compliance from 36% to 85%, while reducing whitespace by 44%, element collisions by 43%, and visual imbalance by 28%. Human evaluation further shows a substantial improvement in overall quality, increasing scores from 3.31 to 3.56 (+7.6%), outperforming both model-based reward optimization and reflection-based agentic approaches, and even edging out Claude-Sonnet-4.5. These results demonstrate that such a verifiable aesthetic paradigm provides an efficient and scalable approach to aligning slide generation with human aesthetic preferences. Our repository is available at https://github.com/ympan0508/aeslides.
- Abstract(参考訳): 大規模言語モデル(LLM)はエージェント的タスク、特にスライド生成において大きな可能性を証明している。
しかし、スライド生成は基本的な課題であり、生成プロセスはテキスト中心であり、その品質は視覚美学によって管理される。
このモダリティギャップは、現在のモデルにおいて、審美的に準最適レイアウトのスライドを頻繁に生成する。
既存のソリューションは通常、高い推論コストを伴って限られた利得を得る重い視覚的反射、あるいは、依然として弱く間接的な審美的監督を提供する大規模なデータセットによる微調整に頼っている。
対照的に、審美的原則を監督として明示的に用いていることは、まだ解明されていない。
本稿では,Slide 生成における審美的レイアウト管理に有効な報酬を付与した強化学習フレームワークである AeSlides を紹介する。
我々は、スライドレイアウトの品質を定量化し、キーレイアウトの問題を正確、効率的、低コストで捉えるために、厳密に設計された検証可能なメトリクス群を紹介します。
これらの検証可能な指標を活用することで,審美的に整合したレイアウトのためのスライド生成モデルを直接最適化するGRPOベースの強化学習手法を開発した。
GLM-4.7-Flashでの5Kトレーニングのプロンプトで、AeSlidesはアスペクト比のコンプライアンスを36%から85%改善し、ホワイトスペースを44%削減し、元素衝突を43%減らし、視覚的不均衡を28%改善した。
人間の評価は、全体的な品質が大幅に向上し、スコアが3.31から3.56に増加した(+7.6%)。
このような検証可能な美的パラダイムは、スライド生成と人間の美的嗜好を整合させるための効率的でスケーラブルなアプローチを提供することを示す。
私たちのリポジトリはhttps://github.com/ympan0508/aeslidesで利用可能です。
関連論文リスト
- Learning to Present: Inverse Specification Rewards for Agentic Slide Generation [15.152850806890065]
本研究は,LLMエージェントがトピックの研究,コンテントの計画,ツール使用によるHTMLスライドのプロフェッショナルなプレゼンテーション生成を学習する,OpenEnv互換の強化学習環境を提案する。
本稿では, 構造検証, レンダリング品質評価, LLMに基づく美的評価, コンテンツ品質指標, および, 意図した目的をいかに忠実に生成するかを計測する逆仕様報酬を組み合わせた多成分報酬システムを提案する。
6つのモデルにまたがる48種類のビジネスブリーフの実験では、細調整された7Bモデルはクロードオプス4.6の品質の91.2%を達成し、ベースモデルよりも33.1%改善した。
論文 参考訳(メタデータ) (2026-03-17T17:45:53Z) - SlidesGen-Bench: Evaluating Slides Generation via Computational and Quantitative Metrics [49.092634600260965]
SlidesGen-Benchは、3つのコア原理のレンズを通してスライド生成を評価するために設計されたベンチマークである。
まず、視覚領域で解析を行い、端末出力をレンダリングとして扱い、基礎となる生成法に非依存なままにする。
次に,3次元のスライド(コンテンツ,美学,編集可能性)を定量的に評価する計算手法を提案する。
論文 参考訳(メタデータ) (2026-01-14T13:50:30Z) - EasyOcc: 3D Pseudo-Label Supervision for Fully Self-Supervised Semantic Occupancy Prediction Models [4.347156881555099]
自己監督モデルは最近、特に意味的占有率予測の領域において顕著な進歩を遂げている。
これらのモデルは、基底構造ラベルの欠如を補うために洗練された損失計算戦略を利用する。
基礎モデルである Grounded-SAM と Metric3Dv2 が生成する3次元擬似地下構造ラベルを提案し,時間情報を用いてラベルの密度化を行う。
論文 参考訳(メタデータ) (2025-09-30T11:01:32Z) - Dynamic Classifier-Free Diffusion Guidance via Online Feedback [53.54876309092376]
ワンサイズオール"アプローチは、異なるプロンプトの多様な要件に適応できない。
動的CFGスケジューリングのためのフレームワークを提案する。
我々は,小型モデルと最先端のImagen 3におけるアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2025-09-19T16:27:19Z) - CounterCurate: Enhancing Physical and Semantic Visio-Linguistic Compositional Reasoning via Counterfactual Examples [34.71588837946776]
視覚言語合成推論を改善するためのフレームワークであるCounterCurateを提案する。
特に、物理的根拠に基づく推論の無視という、2つの重要な未探索問題を特定する。
私たちはまず,CLIPやLLaVAといったマルチモーダルモデルの物理基底合成推論における近距離性能に注目した。
次に、グラウンドド画像生成モデルGLIGENを用いて単純なデータ拡張を適用し、微調整データを生成する。
論文 参考訳(メタデータ) (2024-02-20T18:59:55Z) - Getting More Juice Out of Your Data: Hard Pair Refinement Enhances Visual-Language Models Without Extra Data [122.282521548393]
コントラスト言語-画像事前学習 (CLIP) は, クロスモーダルな画像-テキスト表現学習の標準となっている。
HELIPは、CLIPモデルを改善するためのコスト効率のよい戦略であり、継続的なトレーニングにおいて既存のデータセット内の挑戦的なテキストイメージペアを利用することで、CLIPモデルを改善する。
論文 参考訳(メタデータ) (2023-05-09T07:00:17Z) - Learning Customized Visual Models with Retrieval-Augmented Knowledge [104.05456849611895]
我々は、ターゲットドメイン用にカスタマイズされたビジュアルモデルを構築するための、関連するWeb知識を取得するためのフレームワークであるREACTを提案する。
我々は、Webスケールデータベースから最も関連性の高い画像テキストペアを外部知識として検索し、元の重みをすべて凍結しながら、新しいモジュール化されたブロックをトレーニングするだけで、モデルをカスタマイズすることを提案する。
REACTの有効性は、ゼロ、少数、フルショット設定を含む分類、検索、検出、セグメンテーションタスクに関する広範な実験を通じて実証される。
論文 参考訳(メタデータ) (2023-01-17T18:59:06Z) - Toward Fast, Flexible, and Robust Low-Light Image Enhancement [87.27326390675155]
我々は、現実の低照度シナリオにおいて、高速でフレキシブルで頑健な鮮明化のための新しい自己校正イルミネーション(SCI)学習フレームワークを開発した。
カスケードパターンの計算負担を考慮すると、各ステージの結果の収束を実現する自己校正モジュールを構築する。
我々は,SCI固有の特性について,操作不感適応性やモデル非関係の一般性を含む包括的探索を行う。
論文 参考訳(メタデータ) (2022-04-21T14:40:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。