論文の概要: SlideBot: A Multi-Agent Framework for Generating Informative, Reliable, Multi-Modal Presentations
- arxiv url: http://arxiv.org/abs/2511.09804v1
- Date: Fri, 14 Nov 2025 01:10:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-14 22:53:22.49662
- Title: SlideBot: A Multi-Agent Framework for Generating Informative, Reliable, Multi-Modal Presentations
- Title(参考訳): SlideBot: インフォーム,信頼性,マルチモーダルなプレゼンテーションを生成するためのマルチエージェントフレームワーク
- Authors: Eric Xie, Danielle Waterfield, Michael Kennedy, Aidong Zhang,
- Abstract要約: 大規模言語モデル(LLM)は、クイズ生成やコンテンツ要約といったタスクを自動化し、教育において大きな可能性を示している。
既存のLCMベースのソリューションは、信頼性と情報的アウトプットが得られず、教育的価値が制限されることが多い。
SlideBot - LLMを検索、構造化計画、コード生成と統合したモジュラーでマルチエージェントなスライド生成フレームワークである。
- 参考スコア(独自算出の注目度): 29.874786844781138
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) have shown immense potential in education, automating tasks like quiz generation and content summarization. However, generating effective presentation slides introduces unique challenges due to the complexity of multimodal content creation and the need for precise, domain-specific information. Existing LLM-based solutions often fail to produce reliable and informative outputs, limiting their educational value. To address these limitations, we introduce SlideBot - a modular, multi-agent slide generation framework that integrates LLMs with retrieval, structured planning, and code generation. SlideBot is organized around three pillars: informativeness, ensuring deep and contextually grounded content; reliability, achieved by incorporating external sources through retrieval; and practicality, which enables customization and iterative feedback through instructor collaboration. It incorporates evidence-based instructional design principles from Cognitive Load Theory (CLT) and the Cognitive Theory of Multimedia Learning (CTML), using structured planning to manage intrinsic load and consistent visual macros to reduce extraneous load and enhance dual-channel learning. Within the system, specialized agents collaboratively retrieve information, summarize content, generate figures, and format slides using LaTeX, aligning outputs with instructor preferences through interactive refinement. Evaluations from domain experts and students in AI and biomedical education show that SlideBot consistently enhances conceptual accuracy, clarity, and instructional value. These findings demonstrate SlideBot's potential to streamline slide preparation while ensuring accuracy, relevance, and adaptability in higher education.
- Abstract(参考訳): 大規模言語モデル(LLM)は、クイズ生成やコンテンツ要約といったタスクを自動化し、教育において大きな可能性を示している。
しかし、効果的なプレゼンテーションスライドの生成には、マルチモーダルコンテンツ作成の複雑さと、正確なドメイン固有情報の必要性により、ユニークな課題が伴う。
既存のLCMベースのソリューションは、信頼性と情報的アウトプットが得られず、教育的価値が制限されることが多い。
これらの制限に対処するため、SlideBot - LLMを検索、構造化計画、コード生成と統合したモジュラーでマルチエージェントなスライド生成フレームワークを紹介します。
SlideBotは3つの柱で構成されている。情報性、深い、文脈に根ざしたコンテンツの確保、検索を通じて外部ソースを組み込んだ信頼性、インストラクターのコラボレーションによるカスタマイズと反復的なフィードバックを可能にする実用性である。
認知負荷理論(CLT)とマルチメディア学習の認知理論(CTML)のエビデンスに基づく指導設計原則を取り入れており、構造的プランニングを用いて内在的負荷と一貫した視覚マクロを管理し、外在的負荷を低減し、デュアルチャネル学習を強化する。
システム内の特殊エージェントは、情報を共同で検索し、コンテンツを要約し、図形を生成し、LaTeXを使用してフォーマットスライドを作成し、インタラクティブなリファインメントを通じてインストラクターの好みに合わせて出力を調整する。
AIとバイオメディカル教育の分野の専門家や学生による評価から、SlideBotは概念的正確性、明確性、教育的価値を一貫して向上させる。
以上の結果から,SlideBotが高等教育におけるスライド作成を効率化し,精度,妥当性,適応性を確保できる可能性が示唆された。
関連論文リスト
- SlideGen: Collaborative Multimodal Agents for Scientific Slide Generation [26.4357968329723]
SlideGenは、科学論文をスライド生成するためのループフレームワークにおいて、エージェント的でモジュール的でビジュアルである。
ドキュメントの構造とセマンティクスを協調的に操作する視覚言語エージェントのグループを編成し、論理フローと魅力的なビジュアルプレゼンテーションを備えた編集可能なXスライドを生成する。
論文 参考訳(メタデータ) (2025-12-04T07:22:16Z) - From Slides to Chatbots: Enhancing Large Language Models with University Course Materials [14.450839675608693]
本研究は,大学教材を取り入れることで,コンピュータ科学科におけるLLM性能が向上するかを考察する。
我々は,LLMをコース固有の知識で拡張する2つの戦略,RAG(Retrieval-Augmented Generation)とCPT(Continuous Pre-Training)を比較した。
実験の結果,大学教材のサイズが比較的小さいため,RAGはCPTよりも効率的かつ効率的であることが判明した。
論文 参考訳(メタデータ) (2025-10-25T12:31:26Z) - Dual Learning with Dynamic Knowledge Distillation and Soft Alignment for Partially Relevant Video Retrieval [53.54695034420311]
実際には、ビデオは通常、より複雑な背景コンテンツによって、長い時間で切り離される。
本稿では,大規模視覚言語事前学習モデルから一般化知識を抽出する新しい枠組みを提案する。
実験により,本モデルがTVR,ActivityNet,Charades-STAデータセット上での最先端性能を実現することを示す。
論文 参考訳(メタデータ) (2025-10-14T08:38:20Z) - PreGenie: An Agentic Framework for High-quality Visual Presentation Generation [44.93958820783717]
PreGenieは、マルチモーダルな大規模言語モデル(MLLM)を利用して高品質なビジュアルプレゼンテーションを生成するエージェント型でモジュール型のフレームワークである。
1)マルチモーダル入力を要約して初期コードを生成する解析と初期生成,(2)中間コードを反復的にレビューし,スライドを描画して最終品質の高いプレゼンテーションを生成するレビューと再生成の2段階で動作する。
論文 参考訳(メタデータ) (2025-05-27T18:36:19Z) - RA-BLIP: Multimodal Adaptive Retrieval-Augmented Bootstrapping Language-Image Pre-training [55.54020926284334]
近年,MLLM (Multimodal Large Language Models) が注目されている。
検索拡張技術はLLMとMLLMの両方に有効なプラグインであることが証明されている。
本研究では,MLLMの新しい検索支援フレームワークであるRA-BLIP(Retrieval-Augmented Bootstrapping Language-Image Pre-training)を提案する。
論文 参考訳(メタデータ) (2024-10-18T03:45:19Z) - MMSci: A Dataset for Graduate-Level Multi-Discipline Multimodal Scientific Understanding [59.41495657570397]
本稿では,72の科学分野をカバーするNature Communicationsの記事からまとめられた包括的データセットについて述べる。
2つのベンチマークタスク(図のキャプションと複数選択)で19のプロプライエタリモデルとオープンソースモデルを評価し,人手による注釈を行った。
タスク固有データを用いた細調整Qwen2-VL-7Bは、GPT-4oや人間の専門家でさえも、マルチチョイス評価において優れた性能を示した。
論文 参考訳(メタデータ) (2024-07-06T00:40:53Z) - Rethinking Visual Prompting for Multimodal Large Language Models with External Knowledge [76.45868419402265]
マルチモーダルな大言語モデル(MLLM)は、膨大な高品質の画像テキストデータセットをトレーニングすることで、大きな進歩を遂げている。
しかし、マスクのような細粒度や空間的に密集した情報をテキストで明示的に伝達することの難しさは、MLLMにとって困難である。
本稿では、特殊な視覚モデルから派生した細粒度の外部知識をMLLMに統合する新しい視覚的プロンプト手法を提案する。
論文 参考訳(メタデータ) (2024-07-05T17:43:30Z) - Generative Multi-Modal Knowledge Retrieval with Large Language Models [75.70313858231833]
マルチモーダル知識検索のための革新的なエンドツーエンド生成フレームワークを提案する。
我々のフレームワークは,大規模言語モデル(LLM)が仮想知識ベースとして効果的に機能するという事実を生かしている。
強いベースラインと比較すると,すべての評価指標に対して3.0%から14.6%の大幅な改善が見られた。
論文 参考訳(メタデータ) (2024-01-16T08:44:29Z) - CLAP: Isolating Content from Style through Contrastive Learning with Augmented Prompts [11.752632557524969]
コンテンツの特徴を元の表現から切り離すために,データ拡張によるコントラスト学習を提案する。
多様なデータセットを対象とした実験では、ゼロショットと少数ショットの分類タスクが大幅に改善された。
論文 参考訳(メタデータ) (2023-11-28T03:00:59Z) - Recognizing Unseen Objects via Multimodal Intensive Knowledge Graph
Propagation [68.13453771001522]
画像の領域と対応するセマンティック埋め込みとをマッチングする多モード集中型ZSLフレームワークを提案する。
我々は、大規模な実世界のデータに基づいて、広範囲な実験を行い、そのモデルを評価する。
論文 参考訳(メタデータ) (2023-06-14T13:07:48Z) - Multimodal Lecture Presentations Dataset: Understanding Multimodality in
Educational Slides [57.86931911522967]
学習内容のマルチモーダル理解における機械学習モデルの能力を検証する。
このデータセットには,180時間以上のビデオと9000時間以上のスライドが,各科目から10人の講師が参加している。
マルチモーダル・トランスフォーマーであるPolyViLTを導入する。
論文 参考訳(メタデータ) (2022-08-17T05:30:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。