論文の概要: COMET: "Cone of experience" enhanced large multimodal model for mathematical problem generation
- arxiv url: http://arxiv.org/abs/2407.11315v1
- Date: Tue, 16 Jul 2024 02:02:16 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-17 18:52:01.241745
- Title: COMET: "Cone of experience" enhanced large multimodal model for mathematical problem generation
- Title(参考訳): COMET:数学問題生成のための大規模マルチモーダルモデルの強化
- Authors: Sannyuya Liu, Jintian Feng, Zongkai Yang, Yawei Luo, Qian Wan, Xiaoxuan Shen, Jianwen Sun,
- Abstract要約: 本稿では,数学問題生成のための大規模マルチモーダルモデルであるCOMETを提案する。
相互能力の促進と応用論理の観点から、我々は、茎生成と問題解決を数学的問題生成に統合する。
このフレームワークは、微調整データを象徴的な経験、象徴的な経験、直接的な経験に分割し、教師のキャリア成長における経験と類似性を引き出す。
- 参考スコア(独自算出の注目度): 12.01484402197104
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The automatic generation of high-quality mathematical problems is practically valuable in many educational scenarios. Large multimodal model provides a novel technical approach for the mathematical problem generation because of its wide success in cross-modal data scenarios. However, the traditional method of separating problem solving from problem generation and the mainstream fine-tuning framework of monotonous data structure with homogeneous training objectives limit the application of large multimodal model in mathematical problem generation. Addressing these challenges, this paper proposes COMET, a "Cone of Experience" enhanced large multimodal model for mathematical problem generation. Firstly, from the perspective of mutual ability promotion and application logic, we unify stem generation and problem solving into mathematical problem generation. Secondly, a three-stage fine-turning framework guided by the "Cone of Experience" is proposed. The framework divides the fine-tuning data into symbolic experience, iconic experience, and direct experience to draw parallels with experiences in the career growth of teachers. Several fine-grained data construction and injection methods are designed in this framework. Finally, we construct a Chinese multimodal mathematical problem dataset to fill the vacancy of Chinese multimodal data in this field. Combined with objective and subjective indicators, experiments on multiple datasets fully verify the effectiveness of the proposed framework and model.
- Abstract(参考訳): 高品質な数学問題の自動生成は、多くの教育シナリオにおいて事実上価値のあるものである。
大規模マルチモーダルモデルは、クロスモーダルデータシナリオで広く成功しているため、数学的問題生成のための新しい技術的アプローチを提供する。
しかし、問題生成から問題解決を分離する従来の手法と、一様学習目的を持つ単調データ構造を主軸とした微調整フレームワークは、数学的な問題生成における大規模マルチモーダルモデルの適用を制限している。
これらの課題に対処するため,本論文では,数学的問題生成のための大規模マルチモーダルモデルであるCOMETを提案する。
まず、相互能力の促進と応用論理の観点から、茎生成と問題解決を数学的問題生成に統合する。
次に、"Cone of Experience"によってガイドされた3段階のファインターンフレームワークを提案する。
このフレームワークは、微調整データを象徴的な経験、象徴的な経験、直接的な経験に分割し、教師のキャリア成長における経験と類似性を引き出す。
このフレームワークでは、いくつかのきめ細かいデータ構築および注入方法が設計されている。
最後に、この分野における中国のマルチモーダルデータの空白を満たすために、中国のマルチモーダル数学問題データセットを構築した。
客観的および主観的な指標と組み合わせて、提案したフレームワークとモデルの有効性を複数のデータセットで完全に検証する。
関連論文リスト
- Cross-Modal Few-Shot Learning: a Generative Transfer Learning Framework [58.362064122489166]
本稿では,複数モーダルからインスタンスを識別するクロスモーダルなFew-Shot Learningタスクを提案する。
本稿では,1つの段階からなる生成的転帰学習フレームワークを提案する。1つは豊富な一助データに対する学習を伴い,もう1つは新しいデータに適応するための転帰学習に焦点を当てる。
以上の結果から,GTLは4つの異なるマルチモーダルデータセット間の最先端手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2024-10-14T16:09:38Z) - HEMM: Holistic Evaluation of Multimodal Foundation Models [91.60364024897653]
マルチモーダル・ファンデーション・モデルは、画像、ビデオ、オーディオ、その他の知覚モダリティと共にテキストをホリスティックに処理することができる。
モデリング決定、タスク、ドメインの範囲を考えると、マルチモーダル基盤モデルの進歩を特徴づけ、研究することは困難である。
論文 参考訳(メタデータ) (2024-07-03T18:00:48Z) - CMMaTH: A Chinese Multi-modal Math Skill Evaluation Benchmark for Foundation Models [41.02149566318779]
CMMaTHという中国のマルチモーダル数学スキル評価ベンチマークを提案する。
我々は,CMMaTHデータセットと統合したオープンソースツール GradeGPT を構築し,安定,迅速,低コストなモデル評価を容易にする。
論文 参考訳(メタデータ) (2024-06-28T02:35:51Z) - Generative Multimodal Models are In-Context Learners [60.50927925426832]
我々は37億のパラメータを持つ生成的マルチモーダルモデルであるEmu2を紹介し、大規模マルチモーダルシーケンスで訓練する。
Emu2は、マルチモーダルなインコンテキスト学習能力を示し、オンザフライ推論を必要とするタスクを解決しようとさえしている。
論文 参考訳(メタデータ) (2023-12-20T18:59:58Z) - Multimodal Large Language Models: A Survey [36.06016060015404]
マルチモーダル言語モデルは、画像、テキスト、言語、音声、その他の異種性など、複数のデータタイプを統合する。
本稿では、マルチモーダルの概念を定義し、マルチモーダルアルゴリズムの歴史的展開を検討することから始める。
実用的なガイドが提供され、マルチモーダルモデルの技術的な側面に関する洞察を提供する。
最後に,マルチモーダルモデルの適用について検討し,開発に伴う課題について考察する。
論文 参考訳(メタデータ) (2023-11-22T05:15:12Z) - MinT: Boosting Generalization in Mathematical Reasoning via Multi-View
Fine-Tuning [53.90744622542961]
数学領域における推論は、小言語モデル(LM)にとって重要な課題である。
多様なアノテーションスタイルで既存の数学的問題データセットを利用する新しい手法を提案する。
実験結果から,LLaMA-7Bモデルが先行手法より優れていることが示された。
論文 参考訳(メタデータ) (2023-07-16T05:41:53Z) - JiuZhang 2.0: A Unified Chinese Pre-trained Language Model for
Multi-task Mathematical Problem Solving [77.51817534090789]
マルチタスク数学問題の解法を専門とする統一中国語 PLM である textbfJiuZhang2.0 を提案する。
我々の考えは、中規模のモデルを維持し、マルチタスク設定におけるモデル容量を改善するために、Emphcross-taskの知識共有を利用することである。
論文 参考訳(メタデータ) (2023-06-19T15:45:36Z) - Multi-Modal Experience Inspired AI Creation [33.34566822058209]
シーケンシャルなマルチモーダル情報に基づいてテキストを生成する方法について検討する。
まず,マルチモーダルアテンションネットワークを備えたマルチチャネルシーケンス・ツー・シーケンスアーキテクチャを設計する。
次に、逐次入力に適したカリキュラム負サンプリング戦略を提案する。
論文 参考訳(メタデータ) (2022-09-02T11:50:41Z) - Relating by Contrasting: A Data-efficient Framework for Multimodal
Generative Models [86.9292779620645]
生成モデル学習のための対照的なフレームワークを開発し、モダリティ間の共通性だけでなく、「関連」と「関連しない」マルチモーダルデータの区別によってモデルを訓練することができる。
提案手法では, 生成モデルを用いて, 関係のないサンプルから関連サンプルを正確に識別し, ラベルのない多モードデータの利用が可能となる。
論文 参考訳(メタデータ) (2020-07-02T15:08:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。