論文の概要: VTutor: An Open-Source SDK for Generative AI-Powered Animated Pedagogical Agents with Multi-Media Output
- arxiv url: http://arxiv.org/abs/2502.04103v2
- Date: Thu, 13 Feb 2025 17:57:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-14 13:46:37.947974
- Title: VTutor: An Open-Source SDK for Generative AI-Powered Animated Pedagogical Agents with Multi-Media Output
- Title(参考訳): VTutor: マルチメディア出力を備えたAI駆動アニメーションエージェントのためのオープンソースSDK
- Authors: Eason Chen, Chenyu Lin, Xinyi Tang, Aprille Xi, Canwen Wang, Jionghao Lin, Kenneth R Koedinger,
- Abstract要約: 本稿では、生成AIと高度なアニメーション技術を組み合わせたオープンソースのソフトウェア開発キットVTutorを紹介する。
VTutorを使えば、研究者や開発者は感情的に共鳴し、文脈的に適応的な学習エージェントを設計できる。
このツールキットは、教育において信頼できるAI原則を推進しながら、学習者のエンゲージメント、フィードバック受容性、人間とAIの相互作用を強化する。
- 参考スコア(独自算出の注目度): 10.419430731115405
- License:
- Abstract: The rapid evolution of large language models (LLMs) has transformed human-computer interaction (HCI), but the interaction with LLMs is currently mainly focused on text-based interactions, while other multi-model approaches remain under-explored. This paper introduces VTutor, an open-source Software Development Kit (SDK) that combines generative AI with advanced animation technologies to create engaging, adaptable, and realistic APAs for human-AI multi-media interactions. VTutor leverages LLMs for real-time personalized feedback, advanced lip synchronization for natural speech alignment, and WebGL rendering for seamless web integration. Supporting various 2D and 3D character models, VTutor enables researchers and developers to design emotionally resonant, contextually adaptive learning agents. This toolkit enhances learner engagement, feedback receptivity, and human-AI interaction while promoting trustworthy AI principles in education. VTutor sets a new standard for next-generation APAs, offering an accessible, scalable solution for fostering meaningful and immersive human-AI interaction experiences. The VTutor project is open-sourced and welcomes community-driven contributions and showcases.
- Abstract(参考訳): 大規模言語モデル(LLM)の急速な進化は人間とコンピュータの相互作用(HCI)を変革させたが、LLMとの相互作用はテキストベースの相互作用に主に焦点を絞っている。
本稿では、生成AIと高度なアニメーション技術を組み合わせたオープンソースのソフトウェア開発キットVTutorを紹介し、人間とAIのマルチメディアインタラクションのためのエンゲージメント、適応性、現実的なAPAを作成する。
VTutorは、リアルタイムなパーソナライズされたフィードバック、自然な音声アライメントのための高度なリップ同期、シームレスなWeb統合のためのWebGLレンダリングにLLMを活用している。
VTutorは様々な2Dおよび3D文字モデルをサポートし、研究者や開発者は感情的に共鳴し、文脈的に適応的な学習エージェントを設計できる。
このツールキットは、教育において信頼できるAI原則を推進しながら、学習者のエンゲージメント、フィードバック受容性、人間とAIの相互作用を強化する。
VTutorは、有意義で没入的な人間とAIのインタラクションエクスペリエンスを育むための、アクセス可能でスケーラブルなソリューションを提供する、次世代APAの新しい標準を設定している。
VTutorプロジェクトはオープンソースで、コミュニティ主導のコントリビューションとショーケースを歓迎している。
関連論文リスト
- Generative AI and Its Impact on Personalized Intelligent Tutoring Systems [0.0]
生成AIは、動的コンテンツ生成、リアルタイムフィードバック、適応学習経路を通じてパーソナライズされた教育を可能にする。
報告では、自動質問生成、カスタマイズされたフィードバック機構、対話システムなどの重要な応用について検討する。
今後の方向性は、マルチモーダルAI統合の潜在的な進歩、学習システムにおける感情的知性、そしてAI駆動型教育の倫理的意味を強調する。
論文 参考訳(メタデータ) (2024-10-14T16:01:01Z) - From MOOC to MAIC: Reshaping Online Teaching and Learning through LLM-driven Agents [78.15899922698631]
MAIC(Massive AI-empowered Course)は、LLM駆動のマルチエージェントシステムを活用して、AIが強化された教室を構築するオンライン教育の新たな形態である。
中国一の大学である清華大学で予備的な実験を行う。
論文 参考訳(メタデータ) (2024-09-05T13:22:51Z) - V-Zen: Efficient GUI Understanding and Precise Grounding With A Novel Multimodal LLM [0.0]
本稿では,GUIの理解と基盤化の領域に革命をもたらすために,MLLM (Multimodal Large Language Model) を巧みに構築した V-Zen について述べる。
V-Zenは、効率的な接地と次のアクション予測のための新しいベンチマークを確立する。
V-ZenとGUIDEの統合の成功は、マルチモーダルAI研究における新たな時代の幕開けを告げ、インテリジェントで自律的なコンピューティング体験への扉を開く。
論文 参考訳(メタデータ) (2024-05-24T08:21:45Z) - iVideoGPT: Interactive VideoGPTs are Scalable World Models [70.02290687442624]
世界モデルは、現実の意思決定のために想像された環境の中で、モデルベースのエージェントを対話的に探索し、推論し、計画することを可能にする。
マルチモーダルな信号 – 視覚的観察,アクション,報酬 – を統合した,スケーラブルな自己回帰型トランスフォーマーフレームワークであるInteractive VideoGPTを導入する。
iVideoGPTは、高次元の視覚的観察を効率的に識別する新しい圧縮トークン化技術を備えている。
論文 参考訳(メタデータ) (2024-05-24T05:29:12Z) - AI-Tutoring in Software Engineering Education [0.7631288333466648]
我々は,GPT-3.5-TurboモデルをAI-TutorとしてAPASアルテミスに組み込むことで,探索的なケーススタディを行った。
この発見は、タイムリーなフィードバックやスケーラビリティといった利点を浮き彫りにしている。
しかし,AI-Tutor を用いた場合,一般的な応答や学習進行抑制に対する学生の懸念も明らかであった。
論文 参考訳(メタデータ) (2024-04-03T08:15:08Z) - An Interactive Agent Foundation Model [49.77861810045509]
本稿では,AIエージェントを訓練するための新しいマルチタスクエージェントトレーニングパラダイムを用いた対話型エージェント基礎モデルを提案する。
トレーニングパラダイムは、視覚マスク付きオートエンコーダ、言語モデリング、次世代の予測など、多様な事前学習戦略を統一する。
私たちは、ロボティクス、ゲームAI、ヘルスケアという3つの異なる領域でフレームワークのパフォーマンスを実演します。
論文 参考訳(メタデータ) (2024-02-08T18:58:02Z) - Exploring the intersection of Generative AI and Software Development [0.0]
生成AIとソフトウェアエンジニアリングの相乗効果は、変革的なフロンティアとして現れます。
このホワイトペーパーは、探索されていない領域に展開し、生成的AI技術がソフトウェア開発にどのように革命をもたらすかを解明する。
これはステークホルダーのためのガイドとして機能し、ソフトウェア工学における生成AIの適用に関する議論と実験を促している。
論文 参考訳(メタデータ) (2023-12-21T19:23:23Z) - LLaVA-Interactive: An All-in-One Demo for Image Chat, Segmentation,
Generation and Editing [99.80742991922992]
本システムは,マルチモーダルなユーザ入力を受信し,マルチモーダルな応答を生成することで,ユーザとのマルチターン対話を実現する。
LLaVA-Interactiveは言語プロンプトを超えており、視覚的プロンプトは、インタラクションにおける人間の意図を調整するために有効である。
論文 参考訳(メタデータ) (2023-11-01T15:13:43Z) - NExT-GPT: Any-to-Any Multimodal LLM [75.5656492989924]
我々は,NExT-GPTという汎用的なMM-LLMシステムを提案する。
NExT-GPTは入力を知覚し、テキスト、画像、ビデオ、オーディオの任意の組み合わせで出力を生成することができる。
モーダリティ・スイッチング・インストラクション・チューニング(MosIT)を導入し,複雑なモーダリティ・セマンティック・理解とコンテンツ生成によってNExT-GPTが強化されたMosITの高品質なデータセットを手作業でキュレートする。
論文 参考訳(メタデータ) (2023-09-11T15:02:25Z) - DMCNet: Diversified Model Combination Network for Understanding
Engagement from Video Screengrabs [0.4397520291340695]
エンゲージメントは知的教育インタフェースの開発において重要な役割を果たしている。
非深さ学習モデルは、Histogram of Oriented Gradient(HOG)、SVM(Support Vector Machine)、SIFT(Scale Invariant Feature Transform)、SURF(Speeded Up Robust Features)といった一般的なアルゴリズムの組み合わせに基づいている。
ディープラーニングには、Densely Connected Convolutional Networks (DenseNet-121)、Residual Network (ResNet-18)、MobileNetV1がある。
論文 参考訳(メタデータ) (2022-04-13T15:24:38Z) - Probing Inter-modality: Visual Parsing with Self-Attention for
Vision-Language Pre-training [139.4566371416662]
Vision-Language Pre-Trainingは、画像とテキストのペアからマルチモーダル表現を学ぶことを目的としている。
CNNは、長距離依存をモデル化する際の局所受容野の弱点により、視覚的関係学習に制限がある。
論文 参考訳(メタデータ) (2021-06-25T08:04:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。