論文の概要: ALIVE: An Avatar-Lecture Interactive Video Engine with Content-Aware Retrieval for Real-Time Interaction
- arxiv url: http://arxiv.org/abs/2512.20858v1
- Date: Wed, 24 Dec 2025 00:33:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-25 19:43:21.639792
- Title: ALIVE: An Avatar-Lecture Interactive Video Engine with Content-Aware Retrieval for Real-Time Interaction
- Title(参考訳): ALIVE:リアルタイムインタラクションのためのコンテンツ認識検索機能を備えたアバター講義対話型ビデオエンジン
- Authors: Md Zabirul Islam, Md Motaleb Hossen Manik, Ge Wang,
- Abstract要約: ALIVEはAvatar-Lecture Interactive Video Engineで、受動的にリアルタイムで学習できる。
ALIVEは軽量な埋め込みモデル、FAISSベースの検索、プログレッシブプリロードによるセグメント化されたアバター合成を採用している。
本システムは,完全な医用画像処理コースにおいて,その検索精度,レイテンシ特性,ユーザエクスペリエンスを評価し,ALIVEが正確なコンテンツ認識とリアルタイムサポートを提供することを示す。
- 参考スコア(独自算出の注目度): 5.691710068675227
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Traditional lecture videos offer flexibility but lack mechanisms for real-time clarification, forcing learners to search externally when confusion arises. Recent advances in large language models and neural avatars provide new opportunities for interactive learning, yet existing systems typically lack lecture awareness, rely on cloud-based services, or fail to integrate retrieval and avatar-delivered explanations in a unified, privacy-preserving pipeline. We present ALIVE, an Avatar-Lecture Interactive Video Engine that transforms passive lecture viewing into a dynamic, real-time learning experience. ALIVE operates fully on local hardware and integrates (1) Avatar-delivered lecture generated through ASR transcription, LLM refinement, and neural talking-head synthesis; (2) A content-aware retrieval mechanism that combines semantic similarity with timestamp alignment to surface contextually relevant lecture segments; and (3) Real-time multimodal interaction, enabling students to pause the lecture, ask questions through text or voice, and receive grounded explanations either as text or as avatar-delivered responses. To maintain responsiveness, ALIVE employs lightweight embedding models, FAISS-based retrieval, and segmented avatar synthesis with progressive preloading. We demonstrate the system on a complete medical imaging course, evaluate its retrieval accuracy, latency characteristics, and user experience, and show that ALIVE provides accurate, content-aware, and engaging real-time support. ALIVE illustrates how multimodal AI-when combined with content-aware retrieval and local deployment-can significantly enhance the pedagogical value of recorded lectures, offering an extensible pathway toward next-generation interactive learning environments.
- Abstract(参考訳): 従来の講義ビデオは、柔軟性を提供するが、リアルタイムの明確化のためのメカニズムが欠如しているため、混乱が発生した場合、学習者は外部から検索せざるを得ない。
大規模言語モデルとニューラルアバターの最近の進歩は、インタラクティブな学習のための新たな機会を提供するが、既存のシステムは、講義の認識を欠き、クラウドベースのサービスに依存している。
Avatar-Lecture Interactive Video EngineであるALIVEは、受動的にリアルタイムな学習体験に変換する。
ALIVEは,(1)ASR書き起こし,LLM書き起こし,およびニューラルトーキーヘッド合成によって生成されたアバター配信講義,(2)意味的類似性と時間的関連性のある講義セグメントへのタイムスタンプアライメントを組み合わせたコンテンツ認識検索機構,(3)学生が講義を一時停止し,テキストや音声で質問し,テキストやアバター配信の応答として基礎的な説明を受けることができるリアルタイムマルチモーダルインタラクションを統合した。
応答性を維持するため、ALIVEは軽量な埋め込みモデル、FAISSベースの検索、プログレッシブプレロードによるセグメンテッドアバター合成を採用している。
本システムは,完全な医用画像処理コースにおいて,その検索精度,レイテンシ特性,ユーザエクスペリエンスを評価し,ALIVEが正確なコンテンツ認識とリアルタイムサポートを提供することを示す。
ALIVEは、マルチモーダルAIとコンテンツ認識検索とローカルデプロイメントを組み合わせることで、記録された講義の教育的価値を大幅に向上させ、次世代の対話型学習環境への拡張可能な経路を提供する。
関連論文リスト
- Transforming Higher Education with AI-Powered Video Lectures [0.2538209532048866]
ビデオ講義制作における人工知能(AI)の統合は、高等教育を変革する可能性がある。
本稿では、スクリプト生成にGoogle Gemini、音声合成にAmazon Polly、ビデオアセンブリにMicrosoft PowerPointを組み合わせた半自動化ワークフローについて検討する。
論文 参考訳(メタデータ) (2025-10-30T23:33:10Z) - Beyond Play and Pause: Turning GPT-4o Spatial Weakness into a Strength for In-Depth Interactive Video Learning [2.5782420501870296]
Untwistは、インタラクティブなビデオ学習を可能にするAI駆動システムである。
ビデオ全体や特定の地域について、バウンディングボックスを使って質問することができる。
Untwistは、理解を深めるためにビデオコンテンツを抽出し、プロセスし、構造化する。
論文 参考訳(メタデータ) (2025-08-23T23:08:04Z) - StPR: Spatiotemporal Preservation and Routing for Exemplar-Free Video Class-Incremental Learning [79.44594332189018]
CIL(Class-Incremental Learning)は、以前取得した知識を使わずに、時間とともに新しいアクションカテゴリを継続的に学習するモデルの開発を目指している。
既存のアプローチでは、メモリとプライバシに関する懸念を忘れたり、あるいは時間的モデリングを無視する静的なイメージベースのメソッドを適用したりする。
本稿では,情報を明示的に切り離して保存する,統一的で非定型なVCILフレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-20T06:46:51Z) - Temporal Contrastive Learning for Video Temporal Reasoning in Large Vision-Language Models [44.99833362998488]
TSADP(Temporal Semantic Alignment via Dynamic Prompting)は、時間的推論能力を高める新しいフレームワークである。
VidSitu データセット上での TSADP の評価を行った。
我々の分析は、TSADPの堅牢性、効率性、実用性を強調し、ビデオ言語理解の分野における一歩を踏み出した。
論文 参考訳(メタデータ) (2024-12-16T02:37:58Z) - Intelligent Interface: Enhancing Lecture Engagement with Didactic Activity Summaries [0.054204929130712134]
このプロトタイプは、機械学習に基づく技術を用いて、講義のビデオ録画の中で選択された実践的、行動的な教師の特徴を認識する。
このシステムは、新しい/追加の機械学習モデルと画像およびビデオ分析のためのソフトウェアモジュールの(将来の)統合のための柔軟性を提供する。
論文 参考訳(メタデータ) (2024-06-20T12:45:23Z) - A Contextualized Real-Time Multimodal Emotion Recognition for
Conversational Agents using Graph Convolutional Networks in Reinforcement
Learning [0.800062359410795]
強化学習(conER-GRL)を用いたグラフ畳み込みネットワークを用いた文脈的感情認識のための新しいパラダイムを提案する。
会話は、文脈情報の効果的な抽出のために、発話の小さなグループに分割される。
このシステムは、GRU(Gated Recurrent Units)を用いて、これらの発話群からマルチモーダル特徴を抽出する。
論文 参考訳(メタデータ) (2023-10-24T14:31:17Z) - Structured Video-Language Modeling with Temporal Grouping and Spatial Grounding [112.3913646778859]
簡単なビデオ言語モデリングフレームワークであるS-ViLMを提案する。
これには、学習領域オブジェクトのアライメントと時間認識機能を促進するために、クリップ間の空間的接地と、クリップ内の時間的グループ化という、2つの新しい設計が含まれている。
S-ViLMは4つの下流タスクにおいて、最先端の手法を大幅に超えている。
論文 参考訳(メタデータ) (2023-03-28T22:45:07Z) - Multimodal Lecture Presentations Dataset: Understanding Multimodality in
Educational Slides [57.86931911522967]
学習内容のマルチモーダル理解における機械学習モデルの能力を検証する。
このデータセットには,180時間以上のビデオと9000時間以上のスライドが,各科目から10人の講師が参加している。
マルチモーダル・トランスフォーマーであるPolyViLTを導入する。
論文 参考訳(メタデータ) (2022-08-17T05:30:18Z) - Relational Graph Learning on Visual and Kinematics Embeddings for
Accurate Gesture Recognition in Robotic Surgery [84.73764603474413]
本稿では,マルチモーダルグラフネットワーク(MRG-Net)の新たなオンラインアプローチを提案し,視覚情報とキネマティクス情報を動的に統合する。
本手法の有効性は, JIGSAWSデータセット上での最先端の成果で実証された。
論文 参考訳(メタデータ) (2020-11-03T11:00:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。