Fugu-MT 論文翻訳(概要): Multimodal Late Fusion Model for Problem-Solving Strategy Classification in a Machine Learning Game

論文の概要: Multimodal Late Fusion Model for Problem-Solving Strategy Classification in a Machine Learning Game

arxiv url: http://arxiv.org/abs/2507.22426v1
Date: Wed, 30 Jul 2025 07:12:06 GMT
ステータス: 翻訳完了
システム内更新日: 2025-07-31 16:14:18.050499
Title: Multimodal Late Fusion Model for Problem-Solving Strategy Classification in a Machine Learning Game
Title（参考訳）: 機械学習ゲームにおける問題解決戦略分類のためのマルチモーダルレイトフュージョンモデル
Authors: Clemens Witt, Thiemo Leonhardt, Nadine Bergner, Mareen Grillenberger,
Abstract要約: 本稿では,学生の問題解決戦略を分類するために,視覚データとゲーム内アクションシーケンスを構造化したマルチモーダルレイトフュージョンモデルを提案する。その結果,対話型学習環境における戦略に敏感な評価と適応的支援のためのマルチモーダルMLの可能性を強調した。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Machine learning models are widely used to support stealth assessment in digital learning environments. Existing approaches typically rely on abstracted gameplay log data, which may overlook subtle behavioral cues linked to learners' cognitive strategies. This paper proposes a multimodal late fusion model that integrates screencast-based visual data and structured in-game action sequences to classify students' problem-solving strategies. In a pilot study with secondary school students (N=149) playing a multitouch educational game, the fusion model outperformed unimodal baseline models, increasing classification accuracy by over 15%. Results highlight the potential of multimodal ML for strategy-sensitive assessment and adaptive support in interactive learning contexts.
Abstract（参考訳）: 機械学習モデルは、デジタル学習環境でステルスアセスメントをサポートするために広く利用されている。既存のアプローチは通常、抽象的なゲームプレイログデータに依存しており、学習者の認知戦略に関連する微妙な行動の手がかりを見落としている可能性がある。本稿では,学生の問題解決戦略を分類するために,スクリーンキャストに基づく視覚データとゲーム内アクションシーケンスを構造化したマルチモーダルレイトフュージョンモデルを提案する。中学生(N=149)によるマルチタッチ教育ゲームによるパイロット研究では、融合モデルは単調ベースラインモデルより優れ、分類精度は15%以上向上した。その結果,対話型学習環境における戦略に敏感な評価と適応的支援のためのマルチモーダルMLの可能性を強調した。

関連論文リスト

Partially Supervised Unpaired Multi-Modal Learning for Label-Efficient Medical Image Segmentation [53.723234136550055]
我々は、新しい学習パラダイムを部分教師付き無ペア型マルチモーダルラーニング(PSUMML)と呼ぶ。そこで我々は,DEST (Ensembled Self-Training) フレームワークを用いた新しい部分クラス適応法を提案する。我々のフレームワークは、部分的にラベル付けされていないマルチモーダルデータを用いて学習するためのモダリティ特定正規化層を持つコンパクトなセグメンテーションネットワークで構成されている。
論文参考訳（メタデータ） (2025-03-07T07:22:42Z)
Explaining and Mitigating the Modality Gap in Contrastive Multimodal Learning [7.412307614007383]
マルチモーダル学習モデルは、共有表現空間を学習することにより、画像やテキストなどの様々なモダリティをブリッジするように設計されている。これらのモデルはしばしばモダリティギャップを示し、異なるモダリティが共有表現空間内の異なる領域を占める。トレーニング中にモダリティギャップを生じ、持続させる上で、不整合データペアと学習可能な温度パラメータの臨界的役割を同定する。
論文参考訳（メタデータ） (2024-12-10T20:36:49Z)
RA-BLIP: Multimodal Adaptive Retrieval-Augmented Bootstrapping Language-Image Pre-training [55.54020926284334]
近年,MLLM (Multimodal Large Language Models) が注目されている。検索拡張技術はLLMとMLLMの両方に有効なプラグインであることが証明されている。本研究では,MLLMの新しい検索支援フレームワークであるRA-BLIP(Retrieval-Augmented Bootstrapping Language-Image Pre-training)を提案する。
論文参考訳（メタデータ） (2024-10-18T03:45:19Z)
Model Merging in LLMs, MLLMs, and Beyond: Methods, Theories, Applications and Opportunities [89.40778301238642]
モデルマージは、機械学習コミュニティにおける効率的なエンパワーメント技術である。これらの手法の体系的かつ徹底的なレビューに関する文献には大きなギャップがある。
論文参考訳（メタデータ） (2024-08-14T16:58:48Z)
Can Text-to-image Model Assist Multi-modal Learning for Visual Recognition with Visual Modality Missing? [37.73329106465031]
視覚的モダリティの欠如に対するデータ効率の向上とロバスト性をモデル化するためのテキスト・ツー・イメージ・フレームワークであるGTI-MMを提案する。以上の結果から, 合成画像はトレーニングにおける視覚的データの欠如によるトレーニングデータの効率向上と, トレーニングやテストに関わる視覚的データの欠如によるモデルロバスト性向上に寄与することが示唆された。
論文参考訳（メタデータ） (2024-02-14T09:21:00Z)
Improving Discriminative Multi-Modal Learning with Large-Scale Pre-Trained Models [51.5543321122664]
本稿では,大規模な事前学習型ユニモーダルモデルを用いて,識別型マルチモーダル学習を向上する方法について検討する。 MMLoRA(Multi-Modal Low-Rank Adaptation Learning)を導入する。
論文参考訳（メタデータ） (2023-10-08T15:01:54Z)
Learning Unseen Modality Interaction [54.23533023883659]
マルチモーダル学習は、すべてのモダリティの組み合わせが訓練中に利用でき、クロスモーダル対応を学ぶことを前提としている。我々は、目に見えないモダリティ相互作用の問題を提起し、第1の解を導入する。異なるモジュラリティの多次元的特徴を、豊富な情報を保存した共通空間に投影するモジュールを利用する。
論文参考訳（メタデータ） (2023-06-22T10:53:10Z)
Few-shot Action Recognition with Prototype-centered Attentive Learning [88.10852114988829]
2つの新しい構成要素からなるプロトタイプ中心型注意学習(pal)モデル。まず,従来のクエリ中心学習目標を補完するために,プロトタイプ中心のコントラスト学習損失を導入する。第二に、PALは注意深いハイブリッド学習機構を統合しており、アウトレーヤの負の影響を最小限に抑えることができる。
論文参考訳（メタデータ） (2021-01-20T11:48:12Z)
Cross-modal Learning for Multi-modal Video Categorization [24.61762520189921]
マルチモーダル機械学習(ML)モデルは、複数のモーダルでデータを処理できる。本稿では,マルチモーダルML技術を用いたビデオ分類の問題に焦点をあてる。本稿では,クロスモーダル学習によるマルチモーダルビデオ分類モデルが,最先端のベースラインモデルより優れていることを示す。
論文参考訳（メタデータ） (2020-03-07T03:21:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。