論文の概要: Personalized Multimodal Feedback Generation in Education
- arxiv url: http://arxiv.org/abs/2011.00192v1
- Date: Sat, 31 Oct 2020 05:26:49 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-01 04:20:25.715103
- Title: Personalized Multimodal Feedback Generation in Education
- Title(参考訳): 教育におけるパーソナライズされたマルチモーダルフィードバック生成
- Authors: Haochen Liu, Zitao Liu, Zhongqin Wu, Jiliang Tang
- Abstract要約: 学校課題の自動評価は、教育分野におけるAIの重要な応用である。
モーダルゲート機構とパーソナライズされたバイアス機構を備えたPMFGN(Personalized Multimodal Feedback Generation Network)を提案する。
我々のモデルは、より正確で多様なフィードバックを生成することによって、いくつかのベースラインを著しく上回ります。
- 参考スコア(独自算出の注目度): 50.95346877192268
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The automatic evaluation for school assignments is an important application
of AI in the education field. In this work, we focus on the task of
personalized multimodal feedback generation, which aims to generate
personalized feedback for various teachers to evaluate students' assignments
involving multimodal inputs such as images, audios, and texts. This task
involves the representation and fusion of multimodal information and natural
language generation, which presents the challenges from three aspects: 1) how
to encode and integrate multimodal inputs; 2) how to generate feedback specific
to each modality; and 3) how to realize personalized feedback generation. In
this paper, we propose a novel Personalized Multimodal Feedback Generation
Network (PMFGN) armed with a modality gate mechanism and a personalized bias
mechanism to address these challenges. The extensive experiments on real-world
K-12 education data show that our model significantly outperforms several
baselines by generating more accurate and diverse feedback. In addition,
detailed ablation experiments are conducted to deepen our understanding of the
proposed framework.
- Abstract(参考訳): 学校課題の自動評価は、教育分野におけるAIの重要な応用である。
本研究では,様々な教師にパーソナライズされたフィードバックを生成させ,画像や音声,テキストなどのマルチモーダル入力を含む学生の課題を評価することを目的とした,パーソナライズされたマルチモーダルフィードバック生成の課題に焦点を当てた。
このタスクは、マルチモーダル情報と自然言語生成の表現と融合を伴い、3つの側面から課題を提示する。
1) マルチモーダル入力の符号化と統合の方法
2)各モダリティに特有なフィードバックを生成する方法,及び
3)パーソナライズされたフィードバック生成を実現する方法。
本稿では,これらの課題に対処するために,モダリティゲート機構とパーソナライズされたバイアス機構を備えたPMFGN(Personalized Multimodal Feedback Generation Network)を提案する。
実世界のk-12教育データに関する広範な実験により,本モデルは,より正確かつ多様なフィードバックを発生させることで,いくつかのベースラインを著しく上回っていることが示された。
さらに,提案フレームワークの理解を深めるため,詳細なアブレーション実験を行った。
関連論文リスト
- HEMM: Holistic Evaluation of Multimodal Foundation Models [91.60364024897653]
マルチモーダル・ファンデーション・モデルは、画像、ビデオ、オーディオ、その他の知覚モダリティと共にテキストをホリスティックに処理することができる。
モデリング決定、タスク、ドメインの範囲を考えると、マルチモーダル基盤モデルの進歩を特徴づけ、研究することは困難である。
論文 参考訳(メタデータ) (2024-07-03T18:00:48Z) - Multi-Task Multi-Modal Self-Supervised Learning for Facial Expression Recognition [6.995226697189459]
In-the-wildビデオデータから表情認識のためのマルチモーダル自己教師学習手法を用いる。
以上の結果から,マルチモーダル・セルフ・スーパービジョン・タスクが課題に対して大きなパフォーマンス向上をもたらすことが示唆された。
トレーニング済みのモデルとソースコードを公開しています。
論文 参考訳(メタデータ) (2024-04-16T20:51:36Z) - Towards Unified Multi-Modal Personalization: Large Vision-Language Models for Generative Recommendation and Beyond [87.1712108247199]
我々の目標は、マルチモーダルパーソナライゼーションシステム(UniMP)のための統一パラダイムを確立することである。
我々は、幅広いパーソナライズされたニーズに対処できる汎用的でパーソナライズされた生成フレームワークを開発する。
我々の手法は、パーソナライズされたタスクのための基礎言語モデルの能力を高める。
論文 参考訳(メタデータ) (2024-03-15T20:21:31Z) - UniMS-RAG: A Unified Multi-source Retrieval-Augmented Generation for Personalized Dialogue Systems [43.266153244137215]
大規模言語モデル(LLM)は多くの自然言語理解および生成タスクにおいて例外的な機能を示している。
我々は、パーソナライズされた応答を3つのサブタスク(知識ソース選択、知識検索、応答生成)に分解する。
統一多ソース検索拡張生成システム(UniMS-RAG)を提案する。
論文 参考訳(メタデータ) (2024-01-24T06:50:20Z) - Generative Multi-Modal Knowledge Retrieval with Large Language Models [75.70313858231833]
マルチモーダル知識検索のための革新的なエンドツーエンド生成フレームワークを提案する。
我々のフレームワークは,大規模言語モデル(LLM)が仮想知識ベースとして効果的に機能するという事実を生かしている。
強いベースラインと比較すると,すべての評価指標に対して3.0%から14.6%の大幅な改善が見られた。
論文 参考訳(メタデータ) (2024-01-16T08:44:29Z) - Generative Multimodal Models are In-Context Learners [60.50927925426832]
我々は37億のパラメータを持つ生成的マルチモーダルモデルであるEmu2を紹介し、大規模マルチモーダルシーケンスで訓練する。
Emu2は、マルチモーダルなインコンテキスト学習能力を示し、オンザフライ推論を必要とするタスクを解決しようとさえしている。
論文 参考訳(メタデータ) (2023-12-20T18:59:58Z) - Mastering Robot Manipulation with Multimodal Prompts through Pretraining and Multi-task Fine-tuning [49.92517970237088]
我々はマルチモーダルなプロンプトを理解するためにロボットを訓練する問題に取り組む。
このようなタスクは、視覚と言語信号の相互接続と相補性を理解するロボットの能力にとって大きな課題となる。
マルチモーダルプロンプトを用いてロボット操作を行うためのポリシーを学習する効果的なフレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-14T22:24:58Z) - MIMIC-IT: Multi-Modal In-Context Instruction Tuning [44.879418596312554]
本稿では,280万のマルチモーダル・インストラクション・レスポンス・ペアからなるデータセットについて述べる。
MIMIC-ITデータセットを用いて、Otterはマルチモーダル認識、推論、文脈内学習において顕著な習熟度を示した。
我々はMIMIC-ITデータセット、命令応答型コレクションパイプライン、ベンチマーク、オッターモデルをリリースする。
論文 参考訳(メタデータ) (2023-06-08T17:59:56Z) - Accountable Textual-Visual Chat Learns to Reject Human Instructions in
Image Re-creation [26.933683814025475]
合成CLEVR-ATVCデータセット(620K)と手動図形Fruit-ATVCデータセット(50K)の2つの新しいマルチモーダルデータセットを紹介した。
これらのデータセットには、ビジュアルとテキストベースの入力と出力の両方が含まれている。
言語ベースのChatGPT会話と同様に、人間の要求を拒否する際のマルチモーダルシステムの説明責任を容易にするため、データセット内の監視信号として特定のルールを導入する。
論文 参考訳(メタデータ) (2023-03-10T15:35:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。