論文の概要: Interactive Sketchpad: A Multimodal Tutoring System for Collaborative, Visual Problem-Solving
- arxiv url: http://arxiv.org/abs/2503.16434v2
- Date: Wed, 02 Apr 2025 01:03:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-03 13:15:55.164368
- Title: Interactive Sketchpad: A Multimodal Tutoring System for Collaborative, Visual Problem-Solving
- Title(参考訳): Interactive Sketchpad: 協調的、視覚的問題解決のためのマルチモーダルチューニングシステム
- Authors: Steven-Shine Chen, Jimin Lee, Paul Pu Liang,
- Abstract要約: 本稿では,対話型ビジュアライゼーションと対話型ビジュアライゼーションを組み合わせた学習システムであるInteractive Sketchpadを紹介する。
幾何学、計算、および対話型スケッチパッドなどの数学問題に関するユーザ研究は、タスク理解、問題解決精度、エンゲージメントレベルの改善につながることを示した。
- 参考スコア(独自算出の注目度): 25.22658210339668
- License:
- Abstract: Humans have long relied on visual aids like sketches and diagrams to support reasoning and problem-solving. Visual tools, like auxiliary lines in geometry or graphs in calculus, are essential for understanding complex ideas. However, many tutoring systems remain text-based, providing feedback only through natural language. Leveraging recent advances in Large Multimodal Models (LMMs), this paper introduces Interactive Sketchpad, a tutoring system that combines language-based explanations with interactive visualizations to enhance learning. Built on a pre-trained LMM, Interactive Sketchpad is fine-tuned to provide step-by-step guidance in both text and visuals, enabling natural multimodal interaction with the student. Accurate and robust diagrams are generated by incorporating code execution into the reasoning process. User studies conducted on math problems such as geometry, calculus, and trigonometry demonstrate that Interactive Sketchpad leads to improved task comprehension, problem-solving accuracy, and engagement levels, highlighting its potential for transforming educational technologies. All code is available at: https://stevenshinechen.github.io/interactivesketchpad/.
- Abstract(参考訳): 人間は長い間、推論と問題解決をサポートするためにスケッチや図のような視覚補助に頼ってきた。
幾何学の補助線や計算のグラフのような視覚ツールは、複雑なアイデアを理解するのに不可欠である。
しかし、多くの学習システムはテキストベースのままであり、自然言語でのみフィードバックを提供する。
本稿では,LMM(Large Multimodal Models)の最近の進歩を活用し,対話型スケッチパッド(Interactive Sketchpad)を提案する。
事前訓練されたLMM上に構築されたInteractive Sketchpadは、テキストとビジュアルの両方でステップバイステップのガイダンスを提供するように微調整され、学生と自然なマルチモーダルインタラクションを可能にする。
コード実行を推論プロセスに組み込むことで、正確でロバストなダイアグラムが生成される。
幾何学、電卓、三角法などの数学問題に関するユーザ研究は、インタラクティブ・スケッチパッドがタスク理解、問題解決の精度、エンゲージメントのレベルを改善し、教育技術の変革の可能性を強調していることを示している。
すべてのコードは、https://stevenshinechen.github.io/interactivesketchpad/で利用可能です。
関連論文リスト
- VISTA: Visual Integrated System for Tailored Automation in Math Problem Generation Using LLM [0.5383910843560784]
本稿では,Large Language Models (LLMs) を利用して,コヒーレントな問題テキストとともに複雑な数学的可視化を作成するための新しいマルチエージェントフレームワークを提案する。
我々のアプローチは、正確な視覚支援の生成を単純化するだけでなく、これらの支援を問題の核となる数学的概念と整合させ、問題生成と評価の両方を改善する。
論文 参考訳(メタデータ) (2024-11-08T09:15:56Z) - MultiMath: Bridging Visual and Mathematical Reasoning for Large Language Models [14.274813480249161]
数学と視覚のギャップを埋める大きな言語モデルである textbfMultiMath-7B を導入する。
textbfMultiMath-7Bは4段階のプロセスで訓練され、視覚言語アライメント、視覚と数学の指導チューニング、プロセス教師付き強化学習に重点を置いている。
また,画像キャプションとステップワイズによるK-12レベルにまたがる新しい多モード数学的データセット,textbfMultiMath-300Kを構築した。
論文 参考訳(メタデータ) (2024-08-30T07:37:38Z) - Visual Sketchpad: Sketching as a Visual Chain of Thought for Multimodal Language Models [139.9581209765338]
Sketchpadは、マルチモーダルLMにビジュアルスケッチパッドとスケッチパッドに描画するツールを提供するフレームワークである。
LMは、人間のスケッチに近い線、ボックス、マークなどを使って絵を描くことができ、推論をより容易にすることができる。
Sketchpadは、スケッチなしで強力なベースモデルよりも、すべてのタスクのパフォーマンスを大幅に改善する。
論文 参考訳(メタデータ) (2024-06-13T17:59:31Z) - Describe-then-Reason: Improving Multimodal Mathematical Reasoning through Visual Comprehension Training [24.989732666940153]
オープンソースのマルチモーダル大言語モデル(MLLM)は、テキスト入力や視覚入力を含む様々なタスクに優れる。
MLLMは複雑なマルチモーダルな数学的推論に苦慮し、GPT-4V(ision)やGemini-Proといった独自のモデルに遅れを取っている。
本稿では,2段階のトレーニングパイプラインVCARを提案する。
論文 参考訳(メタデータ) (2024-04-22T21:59:35Z) - More Robots are Coming: Large Multimodal Models (ChatGPT) can Solve
Visually Diverse Images of Parsons Problems [0.4660328753262075]
視覚的代入に基づく2つの大規模マルチモーダルモデルの性能評価を行った。
GPT-4Vはこれらの視覚的問題の96.7%を解決し、1つのパーソンズの問題を最小限に解決した。
バードは69.2%の問題を解き、幻覚や拒絶といった一般的な問題に悩まされた。
論文 参考訳(メタデータ) (2023-11-03T14:47:17Z) - Visual Programming: Compositional visual reasoning without training [24.729624386851388]
VISPROGは、複雑で構成的な視覚課題を解決するための神経象徴的なアプローチである。
大規模な言語モデルのコンテキスト内学習機能を使って、ピソンのようなモジュラープログラムを生成する。
論文 参考訳(メタデータ) (2022-11-18T18:50:09Z) - Multimodal Lecture Presentations Dataset: Understanding Multimodality in
Educational Slides [57.86931911522967]
学習内容のマルチモーダル理解における機械学習モデルの能力を検証する。
このデータセットには,180時間以上のビデオと9000時間以上のスライドが,各科目から10人の講師が参加している。
マルチモーダル・トランスフォーマーであるPolyViLTを導入する。
論文 参考訳(メタデータ) (2022-08-17T05:30:18Z) - mPLUG: Effective and Efficient Vision-Language Learning by Cross-modal
Skip-connections [104.14624185375897]
mPLUGは、クロスモーダルな理解と生成のための新しいビジョン言語基盤モデルである。
画像キャプション、画像テキスト検索、視覚的グラウンドリング、視覚的質問応答など、幅広い視覚言語下流タスクの最先端結果を達成する。
論文 参考訳(メタデータ) (2022-05-24T11:52:06Z) - I Know What You Draw: Learning Grasp Detection Conditioned on a Few
Freehand Sketches [74.63313641583602]
そこで本研究では,スケッチ画像に関連のある潜在的な把握構成を生成する手法を提案する。
私たちのモデルは、現実世界のアプリケーションで簡単に実装できるエンドツーエンドで訓練され、テストされています。
論文 参考訳(メタデータ) (2022-05-09T04:23:36Z) - SGEITL: Scene Graph Enhanced Image-Text Learning for Visual Commonsense
Reasoning [61.57887011165744]
マルチモーダルトランスフォーマーはVisual Commonsense Reasoningのタスクにおいて大きな進歩を遂げた。
視覚的なシーングラフを常識的推論に組み込むためのScene Graph Enhanced Image-Text Learningフレームワークを提案する。
論文 参考訳(メタデータ) (2021-12-16T03:16:30Z) - Learning Adaptive Language Interfaces through Decomposition [89.21937539950966]
本稿では,分解による新しいハイレベルな抽象化を学習するニューラルセマンティック解析システムを提案する。
ユーザは、新しい振る舞いを記述する高レベルな発話を低レベルなステップに分解することで、対話的にシステムを教える。
論文 参考訳(メタデータ) (2020-10-11T08:27:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。