論文の概要: Towards a Multimodal Document-grounded Conversational AI System for Education
- arxiv url: http://arxiv.org/abs/2504.13884v1
- Date: Fri, 04 Apr 2025 00:04:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:52.637637
- Title: Towards a Multimodal Document-grounded Conversational AI System for Education
- Title(参考訳): 教育用マルチモーダル文書型会話型AIシステムの実現に向けて
- Authors: Karan Taneja, Anjali Singh, Ashok K. Goel,
- Abstract要約: GPT-4oに基づくマルチモーダル文書地上会話型AIシステム MuDoC を提案する。
そのインターフェースは、ソースへのシームレスなナビゲーションを通じて、AI生成されたコンテンツの検証を可能にする。
内容の視覚的・妥当性は学習者のエンゲージメントと信頼を促進させるが,性能に有意な影響は認められなかった。
- 参考スコア(独自算出の注目度): 5.228830802958218
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimedia learning using text and images has been shown to improve learning outcomes compared to text-only instruction. But conversational AI systems in education predominantly rely on text-based interactions while multimodal conversations for multimedia learning remain unexplored. Moreover, deploying conversational AI in learning contexts requires grounding in reliable sources and verifiability to create trust. We present MuDoC, a Multimodal Document-grounded Conversational AI system based on GPT-4o, that leverages both text and visuals from documents to generate responses interleaved with text and images. Its interface allows verification of AI generated content through seamless navigation to the source. We compare MuDoC to a text-only system to explore differences in learner engagement, trust in AI system, and their performance on problem-solving tasks. Our findings indicate that both visuals and verifiability of content enhance learner engagement and foster trust; however, no significant impact in performance was observed. We draw upon theories from cognitive and learning sciences to interpret the findings and derive implications, and outline future directions for the development of multimodal conversational AI systems in education.
- Abstract(参考訳): テキストと画像を用いたマルチメディア学習は、テキストのみの授業に比べて学習結果を改善することが示されている。
しかし、教育における会話型AIシステムは、主にテキストベースのインタラクションに依存しているが、マルチメディア学習のためのマルチモーダルな会話は未解明のままである。
さらに、学習コンテキストに会話型AIをデプロイするには、信頼できるソースの基盤と、信頼を生み出すための検証性が必要である。
GPT-4oをベースとしたマルチモーダル文書地上会話型AIシステム MuDoC を提案する。
そのインターフェースは、ソースへのシームレスなナビゲーションを通じて、AI生成されたコンテンツの検証を可能にする。
我々は、MuDoCをテキストのみのシステムと比較し、学習者のエンゲージメントの違い、AIシステムへの信頼、問題解決タスクにおけるそれらのパフォーマンスについて検討する。
以上の結果から,内容の視覚的・妥当性は学習者のエンゲージメントを高め,信頼を育むことが示唆されたが,性能に有意な影響は認められなかった。
我々は、認知科学や学習科学の理論に基づいて、発見を解釈し、含意を導出し、教育における多モーダルな会話型AIシステムの開発に向けた今後の方向性を概説する。
関連論文リスト
- MuDoC: An Interactive Multimodal Document-grounded Conversational AI System [4.7191037525744735]
長いドキュメントと対話するマルチモーダルなドキュメントグラウンドAIシステムを構築することは、依然として課題である。
GPT-4oに基づく対話型対話型AIエージェント「MuDoC」を提案する。
論文 参考訳(メタデータ) (2025-02-14T01:05:51Z) - TECO: Improving Multimodal Intent Recognition with Text Enhancement through Commonsense Knowledge Extraction [0.0]
本稿では,これらの課題に対処するために,コミュオンセンス・ナレッジ・エクストラクタ(TECO)を用いたテキスト強調手法を提案する。
まず、生成した知識と検索した知識の両方から関係を抽出し、テキストモダリティにおける文脈情報を強化する。
そして、これらの強化されたテキスト特徴と視覚的および音響的表現を整合して、結合的なマルチモーダル表現を形成する。
論文 参考訳(メタデータ) (2024-12-11T16:38:48Z) - Exploring Multi-Modal Contextual Knowledge for Open-Vocabulary Object
Detection [72.36017150922504]
教師の融合変換器から学生検出器へ学習した文脈知識を伝達するためのマルチモーダルな文脈知識蒸留フレームワーク MMC-Det を提案する。
多様なマルチモーダルマスキング言語モデリングは、従来のマルチモーダルマスキング言語モデリング(MLM)に基づくオブジェクト分散制約により実現される。
論文 参考訳(メタデータ) (2023-08-30T08:33:13Z) - Channel-aware Decoupling Network for Multi-turn Dialogue Comprehension [81.47133615169203]
本稿では,PrLMの逐次文脈化を超えて,発話間の包括的相互作用のための合成学習を提案する。
私たちは、モデルが対話ドメインに適応するのを助けるために、ドメイン適応型トレーニング戦略を採用しています。
実験の結果,提案手法は4つの公開ベンチマークデータセットにおいて,強力なPrLMベースラインを著しく向上させることがわかった。
論文 参考訳(メタデータ) (2023-01-10T13:18:25Z) - Vision+X: A Survey on Multimodal Learning in the Light of Data [64.03266872103835]
様々なソースからのデータを組み込んだマルチモーダル機械学習が,ますます普及している研究分野となっている。
我々は、視覚、音声、テキスト、動きなど、各データフォーマットの共通点と特異点を分析する。
本稿では,表現学習と下流アプリケーションレベルの両方から,マルチモーダル学習に関する既存の文献を考察する。
論文 参考訳(メタデータ) (2022-10-05T13:14:57Z) - Multimodal Lecture Presentations Dataset: Understanding Multimodality in
Educational Slides [57.86931911522967]
学習内容のマルチモーダル理解における機械学習モデルの能力を検証する。
このデータセットには,180時間以上のビデオと9000時間以上のスライドが,各科目から10人の講師が参加している。
マルチモーダル・トランスフォーマーであるPolyViLTを導入する。
論文 参考訳(メタデータ) (2022-08-17T05:30:18Z) - Multimodal Dialog Systems with Dual Knowledge-enhanced Generative Pretrained Language Model [63.461030694700014]
マルチモーダルなタスク指向対話システム(DKMD)のための新しい二元的知識強化型事前学習言語モデルを提案する。
提案したDKMDは,2つの知識選択,2つの知識強調型文脈学習,知識強調型応答生成という3つの重要なコンポーネントから構成される。
パブリックデータセットの実験は、最先端の競合相手よりも提案されたDKMDの優位性を検証する。
論文 参考訳(メタデータ) (2022-07-16T13:02:54Z) - Enabling Harmonious Human-Machine Interaction with Visual-Context
Augmented Dialogue System: A Review [40.49926141538684]
Visual Context Augmented Dialogue System (VAD) は、マルチモーダル情報を知覚し理解することで人間とコミュニケーションする能力を持つ。
VADは、エンゲージメントとコンテキスト対応の応答を生成する可能性を秘めている。
論文 参考訳(メタデータ) (2022-07-02T09:31:37Z) - Knowledge Augmented BERT Mutual Network in Multi-turn Spoken Dialogues [6.4144180888492075]
本稿では,2つのSLUタスク間の対話コンテキストを相互に活用するために,BERTベースのジョイントモデルとナレッジアテンションモジュールを備えることを提案する。
さらにゲーティング機構を利用して、無関係な知識三重項をフィルタリングし、気を散らす理解を回避する。
2つの複雑なマルチターン対話データセットの実験的結果は、2つのSLUタスクをフィルター付き知識と対話コンテキストで相互にモデル化することで実証された。
論文 参考訳(メタデータ) (2022-02-23T04:03:35Z) - Contrastive Representation Learning: A Framework and Review [2.7393821783237184]
コントラスト学習の起源は1990年代まで遡り、その発展は多くの分野に及んでいる。
本稿では,多くの異なるコントラスト学習手法を単純化し,統一する一般的なコントラスト表現学習フレームワークを提案する。
コンピュータビジョンや自然言語処理,音声処理など,強化学習においても,コントラスト学習が適用された例も紹介されている。
論文 参考訳(メタデータ) (2020-10-10T22:46:25Z) - Improving Machine Reading Comprehension with Contextualized Commonsense
Knowledge [62.46091695615262]
我々は、機械読解の理解を改善するために、常識知識を抽出することを目指している。
構造化知識を文脈内に配置することで,関係を暗黙的に表現することを提案する。
我々は,教師の学習パラダイムを用いて,複数種類の文脈的知識を学生機械読取機に注入する。
論文 参考訳(メタデータ) (2020-09-12T17:20:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。