Fugu-MT 論文翻訳(概要): Impact of Multimodal and Conversational AI on Learning Outcomes and Experience

論文の概要: Impact of Multimodal and Conversational AI on Learning Outcomes and Experience

arxiv url: http://arxiv.org/abs/2604.02221v1
Date: Thu, 02 Apr 2026 16:12:00 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-03 14:21:10.912338
Title: Impact of Multimodal and Conversational AI on Learning Outcomes and Experience
Title（参考訳）: マルチモーダルAIと会話AIが学習成果と経験に及ぼす影響
Authors: Karan Taneja, Anjali Singh, Ashok K. Goel,
Abstract要約: MLLM(Multimodal Large Language Models)は、教育コンテンツに基づく会話システムを通じてマルチメディア学習を支援する機会を提供する。会話型AIはエンゲージメントを高めることが知られているが、視覚的にリッチなSTEMドメインでの学習への影響はいまだ調査されていない。本研究は,教科書コンテンツから生物学を学ぶための3つのアプローチを比較したランダム化オンライン研究の結果を報告する。
参考スコア（独自算出の注目度）: 6.455101027580352
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Multimodal Large Language Models (MLLMs) offer an opportunity to support multimedia learning through conversational systems grounded in educational content. However, while conversational AI is known to boost engagement, its impact on learning in visually-rich STEM domains remains under-explored. Moreover, there is limited understanding of how multimodality and conversationality jointly influence learning in generative AI systems. This work reports findings from a randomized controlled online study (N = 124) comparing three approaches to learning biology from textbook content: (1) a document-grounded conversational AI with interleaved text-and-image responses (MuDoC), (2) a document-grounded conversational AI with text-only responses (TexDoC), and (3) a textbook interface with semantic search and highlighting (DocSearch). Learners using MuDoC achieved the highest post-test scores and reported the most positive learning experience. Notably, while TexDoC was rated as significantly more engaging and easier to use than DocSearch, it led to the lowest post-test scores, revealing a disconnect between student perceptions and learning outcomes. Interpreted through the lens of the Cognitive Load Theory, these findings suggest that conversationality reduces extraneous load, while visual-verbal integration induced by multimodality increases germane load, leading to better learning outcomes. When conversationality is not complemented by multimodality, reduced cognitive effort may instead inflate perceived understanding without improving learning outcomes.
Abstract（参考訳）: MLLM(Multimodal Large Language Models)は、教育コンテンツに基づく会話システムを通じてマルチメディア学習を支援する機会を提供する。しかし、会話型AIはエンゲージメントを高めることが知られているが、視覚的にリッチなSTEMドメインでの学習への影響はいまだ解明されていない。さらに、多モード性と会話性が、生成型AIシステムにおける学習にどのように影響するかについて、限定的な理解がある。本研究は,(1)テキスト・アンド・イメージ応答(MuDoC),(2)テキストのみ応答(TexDoC),(3)セマンティック検索・ハイライト(DocSearch)の3つのアプローチを比較したランダム化オンライン研究(N = 124)の結果を報告する。 MuDoCを使用した学習者は、テスト後の最高スコアを獲得し、最もポジティブな学習経験を報告した。特に、TexDoCはDocSearchよりもはるかに魅力的で使いやすく評価されていたが、テスト後のスコアが最も低く、学生の認識と学習結果の切り離しが明らかになった。認知的負荷理論(Cognitive Load Theory)のレンズを通して解析したところ、会話性は外在的負荷を減少させる一方、多目的性によって誘導される視覚・言語統合はゲルマン負荷を増大させ、より良い学習結果をもたらすことが示唆された。会話が多義性によって補完されない場合、認知力の低下は、学習結果を改善することなく、知覚的理解を刺激する可能性がある。

関連論文リスト

Understanding the Dilemma of Unlearning for Large Language Models [50.54260066313032]
Unlearningは、大きな言語モデル(LLM)から特定の知識を取り除こうとしている。提案するunPactは,帰納的帰属とコントリビューショントラッキングによるアンラーニングのための解釈可能なフレームワークである。
論文参考訳（メタデータ） (2025-09-29T12:15:19Z)
Dynamic Scoring with Enhanced Semantics for Training-Free Human-Object Interaction Detection [51.52749744031413]
人間オブジェクトインタラクション(HOI)検出は、画像内の人間と物体を識別し、その相互作用を解釈することを目的としている。既存のHOIメソッドは、視覚的手がかりからインタラクションを学ぶために手動アノテーションを備えた大規模なデータセットに大きく依存している。本稿では,強化意味論を用いた動的スコーリングのための新しいトレーニング不要なHOI検出フレームワークを提案する。
論文参考訳（メタデータ） (2025-07-23T12:30:19Z)
Towards a Multimodal Document-grounded Conversational AI System for Education [5.228830802958218]
GPT-4oに基づくマルチモーダル文書地上会話型AIシステム MuDoC を提案する。そのインターフェースは、ソースへのシームレスなナビゲーションを通じて、AI生成されたコンテンツの検証を可能にする。内容の視覚的・妥当性は学習者のエンゲージメントと信頼を促進させるが,性能に有意な影響は認められなかった。
論文参考訳（メタデータ） (2025-04-04T00:04:19Z)
Student-AI Interaction in an LLM-Empowered Learning Environment: A Cluster Analysis of Engagement Profiles [28.794946431719392]
本研究では,多エージェント LLM を用いた学習環境における多様な学習者のプロファイルについて検討した。学生は様々な行動、認知、感情的なエンゲージメントの傾向を示す。
論文参考訳（メタデータ） (2025-03-03T16:08:28Z)
RA-BLIP: Multimodal Adaptive Retrieval-Augmented Bootstrapping Language-Image Pre-training [55.54020926284334]
近年,MLLM (Multimodal Large Language Models) が注目されている。検索拡張技術はLLMとMLLMの両方に有効なプラグインであることが証明されている。本研究では,MLLMの新しい検索支援フレームワークであるRA-BLIP(Retrieval-Augmented Bootstrapping Language-Image Pre-training)を提案する。
論文参考訳（メタデータ） (2024-10-18T03:45:19Z)
A Survey on Deep Multi-modal Learning for Body Language Recognition and Generation [5.8522989442606566]
ボディランゲージ(Body language, BL)とは、身体の動き、ジェスチャー、表情、姿勢によって表現される非言語コミュニケーションのこと。深層マルチモーダル学習技術は,これらのBLの多様な側面を理解し解析する上で有望であることを示す。いくつかの共通BLは、手話(SL)、キュードスピーチ(CS)、コスペーチ(CoS)、トーキングヘッド(TH)とみなされる。
論文参考訳（メタデータ） (2023-08-17T08:15:51Z)
Re-mine, Learn and Reason: Exploring the Cross-modal Semantic Correlations for Language-guided HOI detection [57.13665112065285]
ヒューマンオブジェクトインタラクション(HOI)検出は、コンピュータビジョンの課題である。本稿では,構造化テキスト知識を組み込んだHOI検出フレームワークを提案する。
論文参考訳（メタデータ） (2023-07-25T14:20:52Z)
Multimodal Lecture Presentations Dataset: Understanding Multimodality in Educational Slides [57.86931911522967]
学習内容のマルチモーダル理解における機械学習モデルの能力を検証する。このデータセットには,180時間以上のビデオと9000時間以上のスライドが,各科目から10人の講師が参加している。マルチモーダル・トランスフォーマーであるPolyViLTを導入する。
論文参考訳（メタデータ） (2022-08-17T05:30:18Z)
Knowledge Augmented BERT Mutual Network in Multi-turn Spoken Dialogues [6.4144180888492075]
本稿では,2つのSLUタスク間の対話コンテキストを相互に活用するために,BERTベースのジョイントモデルとナレッジアテンションモジュールを備えることを提案する。さらにゲーティング機構を利用して、無関係な知識三重項をフィルタリングし、気を散らす理解を回避する。 2つの複雑なマルチターン対話データセットの実験的結果は、2つのSLUタスクをフィルター付き知識と対話コンテキストで相互にモデル化することで実証された。
論文参考訳（メタデータ） (2022-02-23T04:03:35Z)
Few-Shot Bot: Prompt-Based Learning for Dialogue Systems [58.27337673451943]
ごく少数の例を使って会話を学ぶことは、会話型AIにおける大きな課題である。現在の最良の会話モデルは、良いチャットシャッター(例:BlenderBot)またはゴール指向システム(例:MinTL)である。グラデーションベースの微調整を必要とせず、学習の唯一の源としていくつかの例を用いるプロンプトベースの数ショット学習を提案する。
論文参考訳（メタデータ） (2021-10-15T14:36:45Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。