論文の概要: Evaluating the Impact of AI-Powered Audiovisual Personalization on Learner Emotion, Focus, and Learning Outcomes
- arxiv url: http://arxiv.org/abs/2505.03033v1
- Date: Mon, 05 May 2025 21:19:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-07 18:50:11.131112
- Title: Evaluating the Impact of AI-Powered Audiovisual Personalization on Learner Emotion, Focus, and Learning Outcomes
- Title(参考訳): AIによる視覚的パーソナライゼーションが学習者の感情・焦点・学習結果に及ぼす影響の評価
- Authors: George Xi Wang, Jingying Deng, Safinah Ali,
- Abstract要約: 我々は、LLMを用いてパーソナライズされたマルチ感覚学習環境を生成するAIシステムを導入する。
本研究は,パーソナライズされた視覚要素の組み合わせが学習者の認知負荷とエンゲージメントに与える影響について考察する。
本研究の目的は、感情に反応する教育技術を進化させ、マルチモーダル LLM を自己指向学習の感覚次元に応用することである。
- 参考スコア(独自算出の注目度): 5.753241925582828
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Independent learners often struggle with sustaining focus and emotional regulation in unstructured or distracting settings. Although some rely on ambient aids such as music, ASMR, or visual backgrounds to support concentration, these tools are rarely integrated into cohesive, learner-centered systems. Moreover, existing educational technologies focus primarily on content adaptation and feedback, overlooking the emotional and sensory context in which learning takes place. Large language models have demonstrated powerful multimodal capabilities including the ability to generate and adapt text, audio, and visual content. Educational research has yet to fully explore their potential in creating personalized audiovisual learning environments. To address this gap, we introduce an AI-powered system that uses LLMs to generate personalized multisensory study environments. Users select or generate customized visual themes (e.g., abstract vs. realistic, static vs. animated) and auditory elements (e.g., white noise, ambient ASMR, familiar vs. novel sounds) to create immersive settings aimed at reducing distraction and enhancing emotional stability. Our primary research question investigates how combinations of personalized audiovisual elements affect learner cognitive load and engagement. Using a mixed-methods design that incorporates biometric measures and performance outcomes, this study evaluates the effectiveness of LLM-driven sensory personalization. The findings aim to advance emotionally responsive educational technologies and extend the application of multimodal LLMs into the sensory dimension of self-directed learning.
- Abstract(参考訳): 独立した学習者は、非構造的または気を散らす環境において、焦点と感情的な規制を維持するのにしばしば苦労する。
集中を支援するために音楽、ASMR、視覚的背景などの環境支援に頼っているものもあるが、これらのツールは密集した学習者中心のシステムに統合されることは滅多にない。
さらに、既存の教育技術は、主にコンテンツ適応とフィードバックに焦点を当てており、学習が行われる情緒的・感覚的な文脈を見下ろしている。
大規模言語モデルは、テキスト、オーディオ、ビジュアルコンテンツの生成と適応など、強力なマルチモーダル機能を示している。
教育研究は、パーソナライズされたオーディオ視覚学習環境を構築する可能性について、まだ十分に調べていない。
このギャップに対処するために、LLMを用いてパーソナライズされたマルチ感覚学習環境を生成するAIシステムを導入する。
ユーザーはカスタマイズされた視覚テーマ(例えば、抽象的対、現実的対、静的対、アニメーション)と聴覚要素(例えば、ホワイトノイズ、周囲のASMR、親しみやすい対、新奇な音)を選択または生成し、気晴らしを減らし、感情的安定性を高めることを目的とした没入的な設定を作成する。
本研究は,パーソナライズされた視覚要素の組み合わせが学習者の認知負荷とエンゲージメントに与える影響について考察する。
本研究は,生体計測と性能評価を取り入れた複合手法設計を用いて,LLMによる感覚パーソナライゼーションの有効性を評価する。
本研究の目的は、感情に反応する教育技術の進歩とマルチモーダルLLMの適用を、自己指向学習の感覚次元に拡張することである。
関連論文リスト
- Contrastive Decoupled Representation Learning and Regularization for Speech-Preserving Facial Expression Manipulation [58.189703277322224]
音声保存表情操作(SPFEM)は、特定の参照感情を表示するために話頭を変更することを目的としている。
参照およびソース入力に存在する感情とコンテンツ情報は、SPFEMモデルに対して直接的かつ正確な監視信号を提供することができる。
コントラスト学習による指導として、コンテンツと感情の事前学習を提案し、分離されたコンテンツと感情表現を学習する。
論文 参考訳(メタデータ) (2025-04-08T04:34:38Z) - Investigating and Enhancing Vision-Audio Capability in Omnimodal Large Language Models [20.210120763433167]
本稿では,OLLMの視覚テキストコンポーネントが教師として,視覚音声コンポーネントが学生として機能する自己知識蒸留(Self-KD)トレーニング手法を提案する。
実験結果から,自己KDはOLLMの視覚音響能力を高める有効な方法であることが示された。
論文 参考訳(メタデータ) (2025-02-27T02:19:09Z) - Enriching Multimodal Sentiment Analysis through Textual Emotional Descriptions of Visual-Audio Content [56.62027582702816]
マルチモーダル・センティメント・アナリティクスは、テキスト、音声、視覚データを融合することで人間の感情を解き放つことを目指している。
しかし、音声やビデオの表現の中で微妙な感情的なニュアンスを認識することは、恐ろしい挑戦だ。
テキストの感情記述に基づくプログレッシブ・フュージョン・フレームワークであるDEVAを紹介する。
論文 参考訳(メタデータ) (2024-12-12T11:30:41Z) - Emotion Based Prediction in the Context of Optimized Trajectory Planning
for Immersive Learning [0.0]
没入型学習の仮想要素として,Google Expeditionとタッチスクリーンによる感情の利用について検討した。
教育的応用、余裕、認知的負荷が関係する対応する手段である。
論文 参考訳(メタデータ) (2023-12-18T09:24:35Z) - MISAR: A Multimodal Instructional System with Augmented Reality [38.79160527414268]
Augmented Reality (AR) は、視覚、聴覚、言語チャネルのシームレスな統合を必要とする。
本研究では,大規模言語モデル(LLM)を用いた視覚・聴覚・文脈の類似化手法を提案する。
論文 参考訳(メタデータ) (2023-10-18T04:15:12Z) - Imagination-Augmented Natural Language Understanding [71.51687221130925]
自然言語理解タスクを解決するために,Imagination-Augmented Cross-modal (iACE)を導入する。
iACEは、強力な生成的および事前訓練された視覚・言語モデルから変換された外部知識で視覚的な想像を可能にする。
GLUEとSWAGの実験は、iACEが視覚的に教師付き事前訓練されたモデルよりも一貫した改善を達成していることを示している。
論文 参考訳(メタデータ) (2022-04-18T19:39:36Z) - An Overview of Deep-Learning-Based Audio-Visual Speech Enhancement and
Separation [57.68765353264689]
音声強調と音声分離は関連する2つの課題である。
伝統的に、これらのタスクは信号処理と機械学習技術を使って取り組まれてきた。
ディープラーニングは強力なパフォーマンスを達成するために利用されています。
論文 参考訳(メタデータ) (2020-08-21T17:24:09Z) - Does Visual Self-Supervision Improve Learning of Speech Representations
for Emotion Recognition? [63.564385139097624]
本研究は,音声表現の学習を指導するために,顔再構成による視覚的自己監督について検討する。
提案した視覚的・音声的自己監督のマルチタスクの組み合わせは,よりリッチな特徴を学習する上で有益であることを示す。
学習した音声表現を、離散的感情認識、連続的感情認識、自動音声認識のために評価する。
論文 参考訳(メタデータ) (2020-05-04T11:33:40Z) - Visually Guided Self Supervised Learning of Speech Representations [62.23736312957182]
音声視覚音声の文脈における視覚的モダリティによって導かれる音声表現を学習するためのフレームワークを提案する。
音声クリップに対応する静止画像をアニメーション化し、音声セグメントの実際の映像にできるだけ近いよう、生成した映像を最適化する。
我々は,感情認識のための技術成果と,音声認識のための競争結果を達成する。
論文 参考訳(メタデータ) (2020-01-13T14:53:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。