論文の概要: SlideTailor: Personalized Presentation Slide Generation for Scientific Papers
- arxiv url: http://arxiv.org/abs/2512.20292v1
- Date: Tue, 23 Dec 2025 12:01:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-24 19:17:49.857785
- Title: SlideTailor: Personalized Presentation Slide Generation for Scientific Papers
- Title(参考訳): SlideTailor: 科学論文のためのパーソナライズされたプレゼンテーションスライド生成
- Authors: Wenzheng Zeng, Mingyu Ouyang, Langyuan Cui, Hwee Tou Ng,
- Abstract要約: 本稿では,ユーザが指定した好みに基づいて紙から紙へスライドするタスクを提案する。
そこで我々は,ユーザの手動で編集可能なスライドを段階的に生成する,人間の行動にインスパイアされたフレームワークSlideTailorを提案する。
また,スライドコンテンツと口頭ナレーションを協調させる新しい音声連鎖機構も導入する。
- 参考スコア(独自算出の注目度): 29.96047313035184
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Automatic presentation slide generation can greatly streamline content creation. However, since preferences of each user may vary, existing under-specified formulations often lead to suboptimal results that fail to align with individual user needs. We introduce a novel task that conditions paper-to-slides generation on user-specified preferences. We propose a human behavior-inspired agentic framework, SlideTailor, that progressively generates editable slides in a user-aligned manner. Instead of requiring users to write their preferences in detailed textual form, our system only asks for a paper-slides example pair and a visual template - natural and easy-to-provide artifacts that implicitly encode rich user preferences across content and visual style. Despite the implicit and unlabeled nature of these inputs, our framework effectively distills and generalizes the preferences to guide customized slide generation. We also introduce a novel chain-of-speech mechanism to align slide content with planned oral narration. Such a design significantly enhances the quality of generated slides and enables downstream applications like video presentations. To support this new task, we construct a benchmark dataset that captures diverse user preferences, with carefully designed interpretable metrics for robust evaluation. Extensive experiments demonstrate the effectiveness of our framework.
- Abstract(参考訳): プレゼンテーションスライドの自動生成は、コンテンツの生成を大幅に合理化することができる。
しかし、各ユーザの好みは異なる場合があるため、既存の不特定な定式化は、個々のユーザのニーズと一致しないような、最適以下の結果をもたらすことが多い。
本稿では,ユーザが指定した好みに基づいて紙から紙へスライドするタスクを提案する。
本研究では,人間の行動にインスパイアされたエージェント・フレームワークであるSlideTailorを提案する。
ユーザの好みを詳細なテキスト形式で記述する代わりに、私たちのシステムは、ペーパースライダーのサンプルペアと、コンテンツやビジュアルスタイルにまたがるリッチなユーザの好みを暗黙的にエンコードする、自然で簡単に提供可能なビジュアルテンプレートのみを要求します。
これらの入力の暗黙的かつラベル付けされていない性質にもかかわらず、我々のフレームワークは、カスタマイズされたスライド生成をガイドするための選好を効果的に蒸留し、一般化する。
また,スライドコンテンツと口頭ナレーションを協調させる新しい音声連鎖機構も導入する。
このようなデザインは、生成されたスライドの品質を大幅に向上させ、ビデオプレゼンテーションのような下流アプリケーションを可能にします。
このタスクをサポートするために、我々は、頑健な評価のために慎重に設計された解釈可能なメトリクスを用いて、多様なユーザの嗜好をキャプチャするベンチマークデータセットを構築した。
大規模な実験により、我々のフレームワークの有効性が実証された。
関連論文リスト
- SlideGen: Collaborative Multimodal Agents for Scientific Slide Generation [26.4357968329723]
SlideGenは、科学論文をスライド生成するためのループフレームワークにおいて、エージェント的でモジュール的でビジュアルである。
ドキュメントの構造とセマンティクスを協調的に操作する視覚言語エージェントのグループを編成し、論理フローと魅力的なビジュアルプレゼンテーションを備えた編集可能なXスライドを生成する。
論文 参考訳(メタデータ) (2025-12-04T07:22:16Z) - Personalized Vision via Visual In-Context Learning [62.85784251383279]
パーソナライズされた視覚のためのビジュアル・イン・コンテキスト・ラーニング・フレームワークを提案する。
PICOは基盤となる変換を推測し、再トレーニングせずに新しい入力に適用する。
また,効率的な推論スケーリングによる信頼性向上を目的とした注意誘導型シードスコアラを提案する。
論文 参考訳(メタデータ) (2025-09-29T17:58:45Z) - Learning User Preferences for Image Generation Model [15.884017849539754]
本稿では,マルチモーダルな大規模言語モデルに基づいて,パーソナライズされたユーザの好みを学習する手法を提案する。
対照的な選好損失は、利用者の「好き」と「嫌い」を効果的に区別するように設計されている。
学習可能な選好トークンは、既存のユーザ間で共有された関心表現をキャプチャし、モデルがグループ固有の選好を活性化し、類似ユーザ間の一貫性を高める。
論文 参考訳(メタデータ) (2025-08-11T17:39:42Z) - Towards Explainable Temporal User Profiling with LLMs [3.719862246745416]
我々は,大規模言語モデル(LLM)を利用して,ユーザのインタラクション履歴の自然言語要約を生成する。
我々のフレームワークは、時間的ユーザの好みをモデル化するだけでなく、解釈可能な方法でレコメンデーションを説明するために使える自然言語プロファイルも生成する。
論文 参考訳(メタデータ) (2025-05-01T22:02:46Z) - Textual-to-Visual Iterative Self-Verification for Slide Generation [46.99825956909532]
欠落したプレゼンテーションスライドを生成するタスクを,コンテンツ生成とレイアウト生成という2つの重要なコンポーネントに分解する。
提案手法は,アライメント,論理フロー,視覚的魅力,可読性の観点から,ベースライン手法を著しく上回っている。
論文 参考訳(メタデータ) (2025-02-21T12:21:09Z) - Personalized Graph-Based Retrieval for Large Language Models [51.7278897841697]
ユーザ中心の知識グラフを利用してパーソナライゼーションを強化するフレームワークを提案する。
構造化されたユーザ知識を直接検索プロセスに統合し、ユーザ関連コンテキストにプロンプトを拡大することにより、PGraphはコンテキスト理解と出力品質を向上させる。
また,ユーザ履歴が不足あるいは利用できない実環境において,パーソナライズされたテキスト生成タスクを評価するために設計された,パーソナライズドグラフベースのテキスト生成ベンチマークを導入する。
論文 参考訳(メタデータ) (2025-01-04T01:46:49Z) - AutoPresent: Designing Structured Visuals from Scratch [99.766901203884]
エンド・ツー・エンドの画像生成とプログラム生成を様々なモデルでベンチマークする。
スライド生成用のコードと7kペアの命令でトレーニングされた8B LlamaベースのモデルであるAutoPresentを開発した。
論文 参考訳(メタデータ) (2025-01-01T18:09:32Z) - DOC2PPT: Automatic Presentation Slides Generation from Scientific
Documents [76.19748112897177]
文書・スライド生成のための新しい課題とアプローチを提案する。
エンドツーエンドでタスクに取り組むための階層的なシーケンス・ツー・シーケンスアプローチを提案する。
提案手法では,文書やスライド内の固有構造を利用して,パラフレーズとレイアウト予測モジュールを組み込んでスライドを生成する。
論文 参考訳(メタデータ) (2021-01-28T03:21:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。