論文の概要: Talking Slide Avatars: Open-Source Multimodal Communication Approach for Teaching
- arxiv url: http://arxiv.org/abs/2604.23703v1
- Date: Sun, 26 Apr 2026 13:36:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-28 17:12:07.509066
- Title: Talking Slide Avatars: Open-Source Multimodal Communication Approach for Teaching
- Title(参考訳): スライドアバター:教育のためのオープンソースのマルチモーダルコミュニケーションアプローチ
- Authors: Xinxing Wu,
- Abstract要約: 本研究では,スライドベースの授業用スライドアバターを作成するためのオープンソースワークフローの実践に基づく分析を行った。
この研究は、デジタル教育、美学教育、アートテクノロジーの実践の交差点で、多モーダルコミュニケーションアーティファクトとしてスライドアバターを話している。
- 参考スコア(独自算出の注目度): 7.927674438432626
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Slide-based teaching is widely used in higher education, yet in online, hybrid, and asynchronous contexts, slides often lose the instructor presence, narrative continuity, and expressive framing that help learners connect with content. Full lecture video can partly restore these qualities, but it is time-consuming to record, revise, and reuse. This study addresses that pedagogical and production challenge by presenting a practice-based analysis of an open-source workflow for creating talking slide avatars for slide-based teaching. The workflow integrates OpenVoice for text-to-speech generation and voice cloning with Ditto-TalkingHead for audio-driven talking-image synthesis, enabling instructors to transform a script and a static portrait into a short narrated video that can be embedded in slide decks or HTML-based lecture materials. Rather than treating this workflow merely as a technical solution, the study frames talking slide avatars as multimodal communication artifacts at the intersection of digital pedagogy, aesthetic education, and art-technology practice. Using a practice-based implementation and analytic reflection approach, the study documents the production pipeline, examines its communicative and aesthetic affordances, and proposes practical guidelines for script length, image selection, pacing, disclosure, accessibility, and ethical use. The study makes three primary contributions: it presents an educator-oriented open-source production model, reframes talking avatars as an educational communication design problem, and proposes a responsible pathway for incorporating generative synthetic media into teaching. It concludes that short, transparent, and carefully designed avatars can humanize slide-based instruction while providing a reusable communicative layer for introductions, transitions, reminders, and recaps across online, hybrid, and asynchronous learning environments.
- Abstract(参考訳): スライドベースの教育は高等教育において広く使われているが、オンライン、ハイブリッド、非同期の文脈では、スライドはインストラクターの存在、物語の連続性、そして学習者がコンテンツと結びつくのに役立つ表現的フレーミングを失うことが多い。
完全な講義ビデオは、これらの品質を部分的に復元することができるが、記録、修正、再利用には時間がかかる。
本研究では,スライドベースの授業用スライドアバターを作成するためのオープンソースのワークフローを実践ベースで分析することで,教育的かつ生産的な課題に対処する。
このワークフローはOpenVoiceを統合し、テキスト音声生成と音声クローンをDitto-TalkingHeadと統合し、音声駆動の音声画像合成を可能にし、インストラクターはスクリプトと静的なポートレートをスライドデッキやHTMLベースの講義資料に埋め込まれた短いナレーションビデオに変換することができる。
このワークフローを単に技術的な解決策として扱うのではなく、デジタル教育、美学教育、アート・テクノロジーの実践の交差点で、スライドアバターをマルチモーダルなコミュニケーションアーティファクトとして話すことを目的としている。
実践に基づく実装と分析的リフレクション手法を用いて、本研究では、生産パイプラインを文書化し、そのコミュニケーション性および美的余裕を検証し、スクリプト長、画像選択、ペーシング、開示、アクセシビリティ、倫理的使用に関する実践的ガイドラインを提案する。
本研究は, 教育者指向のオープンソース生産モデル, アバターを教育コミュニケーション設計問題として再編成し, 生成的合成メディアを教育に組み込むための責任ある経路を提案する。
簡単に、透明で、慎重に設計されたアバターは、オンライン、ハイブリッド、非同期学習環境にまたがる導入、移行、リマインダ、再カプセルのための再利用可能なコミュニケーションレイヤを提供しながら、スライドベースの命令を人間化することができる、と結論付けている。
関連論文リスト
- BOOM: Beyond Only One Modality KIT's Multimodal Multilingual Lecture Companion [56.41649972542962]
講義音声とスライドを共同で翻訳し、3つのモードで同期出力を生成する多言語講義コンパニオンである textbfBOOM を提示する。
実験により,スライド対応文字起こしは,要約や質問応答といった下流タスクにカスケード効果をもたらすことが示された。
論文 参考訳(メタデータ) (2025-12-02T14:27:26Z) - Paper2Video: Automatic Video Generation from Scientific Papers [62.634562246594555]
Paper2Videoは、著者が作成したプレゼンテーションビデオ、スライド、スピーカーメタデータと組み合わせた101の研究論文の最初のベンチマークである。
そこで我々は,学術プレゼンテーションビデオ生成のための最初のマルチエージェントフレームワークであるPaperTalkerを提案する。
論文 参考訳(メタデータ) (2025-10-06T17:58:02Z) - SakugaFlow: A Stagewise Illustration Framework Emulating the Human Drawing Process and Providing Interactive Tutoring for Novice Drawing Skills [23.6178079869457]
SakugaFlowは、拡散ベースの画像生成と大きな言語モデルチューターを組み合わせた4段階のパイプラインである。
初心者は解剖学、視点、構成についてリアルタイムでフィードバックを受け取る。
論文 参考訳(メタデータ) (2025-06-10T04:35:10Z) - Awaking the Slides: A Tuning-free and Knowledge-regulated AI Tutoring System via Language Model Coordination [52.20542825755132]
Slide2Lectureは、チューニング不要で知識を制御した知的チューリングシステムである。
入力された講義スライドを、不均一な教育行為の集合からなる構造化された教育課題に効果的に変換することができる。
教師や開発者にとって、Slide2Lectureはパーソナライズされた要求に対応するカスタマイズを可能にする。
論文 参考訳(メタデータ) (2024-09-11T16:03:09Z) - Seek for Incantations: Towards Accurate Text-to-Image Diffusion
Synthesis through Prompt Engineering [118.53208190209517]
本稿では,拡散モデルの適切なテキスト記述を即時学習により学習するフレームワークを提案する。
提案手法は,入力されたテキストと生成された画像とのマッチングを改善するためのプロンプトを効果的に学習することができる。
論文 参考訳(メタデータ) (2024-01-12T03:46:29Z) - SelfTalk: A Self-Supervised Commutative Training Diagram to Comprehend
3D Talking Faces [28.40393487247833]
音声駆動型3次元顔アニメーション技術とその様々なマルチメディア分野への応用
これまでの研究では、有望なリアルな唇の動きと、音声信号による表情が生み出された。
本稿では,3次元の話し言葉を学習するクロスモーダルネットワークシステムに自己監督を組み込むことにより,新たなフレームワークであるSelfTalkを提案する。
論文 参考訳(メタデータ) (2023-06-19T09:39:10Z) - Multimodal Lecture Presentations Dataset: Understanding Multimodality in
Educational Slides [57.86931911522967]
学習内容のマルチモーダル理解における機械学習モデルの能力を検証する。
このデータセットには,180時間以上のビデオと9000時間以上のスライドが,各科目から10人の講師が参加している。
マルチモーダル・トランスフォーマーであるPolyViLTを導入する。
論文 参考訳(メタデータ) (2022-08-17T05:30:18Z) - AI based Presentation Creator With Customized Audio Content Delivery [0.0]
本稿では,機械学習(ML)アルゴリズムと自然言語処理(NLP)モジュールを用いて,文書からスライドベースのプレゼンテーションを作成するプロセスを自動化することを目的とする。
次に、最先端の音声クローンモデルを使用して、希望する著者の声にコンテンツを配信します。
論文 参考訳(メタデータ) (2021-06-27T12:17:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。