論文の概要: SlideBot: A Multi-Agent Framework for Generating Informative, Reliable, Multi-Modal Presentations
- arxiv url: http://arxiv.org/abs/2511.09804v1
- Date: Fri, 14 Nov 2025 01:10:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-14 22:53:22.49662
- Title: SlideBot: A Multi-Agent Framework for Generating Informative, Reliable, Multi-Modal Presentations
- Title(参考訳): SlideBot: インフォーム,信頼性,マルチモーダルなプレゼンテーションを生成するためのマルチエージェントフレームワーク
- Authors: Eric Xie, Danielle Waterfield, Michael Kennedy, Aidong Zhang,
- Abstract要約: 大規模言語モデル(LLM)は、クイズ生成やコンテンツ要約といったタスクを自動化し、教育において大きな可能性を示している。
既存のLCMベースのソリューションは、信頼性と情報的アウトプットが得られず、教育的価値が制限されることが多い。
SlideBot - LLMを検索、構造化計画、コード生成と統合したモジュラーでマルチエージェントなスライド生成フレームワークである。
- 参考スコア(独自算出の注目度): 29.874786844781138
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) have shown immense potential in education, automating tasks like quiz generation and content summarization. However, generating effective presentation slides introduces unique challenges due to the complexity of multimodal content creation and the need for precise, domain-specific information. Existing LLM-based solutions often fail to produce reliable and informative outputs, limiting their educational value. To address these limitations, we introduce SlideBot - a modular, multi-agent slide generation framework that integrates LLMs with retrieval, structured planning, and code generation. SlideBot is organized around three pillars: informativeness, ensuring deep and contextually grounded content; reliability, achieved by incorporating external sources through retrieval; and practicality, which enables customization and iterative feedback through instructor collaboration. It incorporates evidence-based instructional design principles from Cognitive Load Theory (CLT) and the Cognitive Theory of Multimedia Learning (CTML), using structured planning to manage intrinsic load and consistent visual macros to reduce extraneous load and enhance dual-channel learning. Within the system, specialized agents collaboratively retrieve information, summarize content, generate figures, and format slides using LaTeX, aligning outputs with instructor preferences through interactive refinement. Evaluations from domain experts and students in AI and biomedical education show that SlideBot consistently enhances conceptual accuracy, clarity, and instructional value. These findings demonstrate SlideBot's potential to streamline slide preparation while ensuring accuracy, relevance, and adaptability in higher education.
- Abstract(参考訳): 大規模言語モデル(LLM)は、クイズ生成やコンテンツ要約といったタスクを自動化し、教育において大きな可能性を示している。
しかし、効果的なプレゼンテーションスライドの生成には、マルチモーダルコンテンツ作成の複雑さと、正確なドメイン固有情報の必要性により、ユニークな課題が伴う。
既存のLCMベースのソリューションは、信頼性と情報的アウトプットが得られず、教育的価値が制限されることが多い。
これらの制限に対処するため、SlideBot - LLMを検索、構造化計画、コード生成と統合したモジュラーでマルチエージェントなスライド生成フレームワークを紹介します。
SlideBotは3つの柱で構成されている。情報性、深い、文脈に根ざしたコンテンツの確保、検索を通じて外部ソースを組み込んだ信頼性、インストラクターのコラボレーションによるカスタマイズと反復的なフィードバックを可能にする実用性である。
認知負荷理論(CLT)とマルチメディア学習の認知理論(CTML)のエビデンスに基づく指導設計原則を取り入れており、構造的プランニングを用いて内在的負荷と一貫した視覚マクロを管理し、外在的負荷を低減し、デュアルチャネル学習を強化する。
システム内の特殊エージェントは、情報を共同で検索し、コンテンツを要約し、図形を生成し、LaTeXを使用してフォーマットスライドを作成し、インタラクティブなリファインメントを通じてインストラクターの好みに合わせて出力を調整する。
AIとバイオメディカル教育の分野の専門家や学生による評価から、SlideBotは概念的正確性、明確性、教育的価値を一貫して向上させる。
以上の結果から,SlideBotが高等教育におけるスライド作成を効率化し,精度,妥当性,適応性を確保できる可能性が示唆された。
関連論文リスト
- Dual Learning with Dynamic Knowledge Distillation and Soft Alignment for Partially Relevant Video Retrieval [53.54695034420311]
実際には、ビデオは通常、より複雑な背景コンテンツによって、長い時間で切り離される。
本稿では,大規模視覚言語事前学習モデルから一般化知識を抽出する新しい枠組みを提案する。
実験により,本モデルがTVR,ActivityNet,Charades-STAデータセット上での最先端性能を実現することを示す。
論文 参考訳(メタデータ) (2025-10-14T08:38:20Z) - PreGenie: An Agentic Framework for High-quality Visual Presentation Generation [44.93958820783717]
PreGenieは、マルチモーダルな大規模言語モデル(MLLM)を利用して高品質なビジュアルプレゼンテーションを生成するエージェント型でモジュール型のフレームワークである。
1)マルチモーダル入力を要約して初期コードを生成する解析と初期生成,(2)中間コードを反復的にレビューし,スライドを描画して最終品質の高いプレゼンテーションを生成するレビューと再生成の2段階で動作する。
論文 参考訳(メタデータ) (2025-05-27T18:36:19Z) - RA-BLIP: Multimodal Adaptive Retrieval-Augmented Bootstrapping Language-Image Pre-training [55.54020926284334]
近年,MLLM (Multimodal Large Language Models) が注目されている。
検索拡張技術はLLMとMLLMの両方に有効なプラグインであることが証明されている。
本研究では,MLLMの新しい検索支援フレームワークであるRA-BLIP(Retrieval-Augmented Bootstrapping Language-Image Pre-training)を提案する。
論文 参考訳(メタデータ) (2024-10-18T03:45:19Z) - MMSci: A Dataset for Graduate-Level Multi-Discipline Multimodal Scientific Understanding [59.41495657570397]
本稿では,72の科学分野をカバーするNature Communicationsの記事からまとめられた包括的データセットについて述べる。
2つのベンチマークタスク(図のキャプションと複数選択)で19のプロプライエタリモデルとオープンソースモデルを評価し,人手による注釈を行った。
タスク固有データを用いた細調整Qwen2-VL-7Bは、GPT-4oや人間の専門家でさえも、マルチチョイス評価において優れた性能を示した。
論文 参考訳(メタデータ) (2024-07-06T00:40:53Z) - CLAP: Isolating Content from Style through Contrastive Learning with Augmented Prompts [11.752632557524969]
コンテンツの特徴を元の表現から切り離すために,データ拡張によるコントラスト学習を提案する。
多様なデータセットを対象とした実験では、ゼロショットと少数ショットの分類タスクが大幅に改善された。
論文 参考訳(メタデータ) (2023-11-28T03:00:59Z) - Recognizing Unseen Objects via Multimodal Intensive Knowledge Graph
Propagation [68.13453771001522]
画像の領域と対応するセマンティック埋め込みとをマッチングする多モード集中型ZSLフレームワークを提案する。
我々は、大規模な実世界のデータに基づいて、広範囲な実験を行い、そのモデルを評価する。
論文 参考訳(メタデータ) (2023-06-14T13:07:48Z) - Multimodal Lecture Presentations Dataset: Understanding Multimodality in
Educational Slides [57.86931911522967]
学習内容のマルチモーダル理解における機械学習モデルの能力を検証する。
このデータセットには,180時間以上のビデオと9000時間以上のスライドが,各科目から10人の講師が参加している。
マルチモーダル・トランスフォーマーであるPolyViLTを導入する。
論文 参考訳(メタデータ) (2022-08-17T05:30:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。