論文の概要: A Diversity-Enhanced Knowledge Distillation Model for Practical Math Word Problem Solving
- arxiv url: http://arxiv.org/abs/2501.03670v1
- Date: Tue, 07 Jan 2025 10:18:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-08 15:50:43.371299
- Title: A Diversity-Enhanced Knowledge Distillation Model for Practical Math Word Problem Solving
- Title(参考訳): 数式問題解決のための多変量強化知識蒸留モデル
- Authors: Yi Zhang, Guangyou Zhou, Zhiwen Xie, Jinjin Ma, Jimmy Xiangji Huang,
- Abstract要約: 数学語問題(MWP)は自然言語処理において重要な課題である。
本稿では,実用MWP問題解決のための新しい多様性強化知識蒸留(DivKD)モデルを提案する。
そこで本研究では,教師モデルから高品質な知識を選択的に伝達することで,学生が多様な方程式を学習する適応型多様性蒸留法を提案する。
- 参考スコア(独自算出の注目度): 10.85260901037329
- License:
- Abstract: Math Word Problem (MWP) solving is a critical task in natural language processing, has garnered significant research interest in recent years. Various recent studies heavily rely on Seq2Seq models and their extensions (e.g., Seq2Tree and Graph2Tree) to generate mathematical equations. While effective, these models struggle to generate diverse but counterpart solution equations, limiting their generalization across various math problem scenarios. In this paper, we introduce a novel Diversity-enhanced Knowledge Distillation (DivKD) model for practical MWP solving. Our approach proposes an adaptive diversity distillation method, in which a student model learns diverse equations by selectively transferring high-quality knowledge from a teacher model. Additionally, we design a diversity prior-enhanced student model to better capture the diversity distribution of equations by incorporating a conditional variational auto-encoder. Extensive experiments on {four} MWP benchmark datasets demonstrate that our approach achieves higher answer accuracy than strong baselines while maintaining high efficiency for practical applications.
- Abstract(参考訳): 数学語問題(MWP)解決は自然言語処理において重要な課題であり、近年、重要な研究の関心を集めている。
最近ではSeq2Seqモデルとその拡張(例:Seq2Tree、Graph2Tree)に大きく依存している。
有効ではあるが、これらのモデルは多様だが相反する解方程式を生成するのに苦労し、様々な数学問題シナリオにおける一般化を制限している。
本稿では,実用MWP問題解決のための多変量拡張知識蒸留(DivKD)モデルを提案する。
そこで本研究では,教師モデルから高品質な知識を選択的に伝達することで,学生が多様な方程式を学習する適応型多様性蒸留法を提案する。
さらに,条件付き変分自動エンコーダを組み込むことで,方程式の多様性分布をより正確に把握する。
MWPベンチマークデータセットの大規模実験により,本手法は高効率な実用性を維持しつつ,強いベースラインよりも高い解答精度が得られることが示された。
関連論文リスト
- Mixture-of-Instructions: Comprehensive Alignment of a Large Language Model through the Mixture of Diverse System Prompting Instructions [7.103987978402038]
我々はMixture-of-Instructions (MoI)と呼ばれる新しいテクニックを紹介する。
MoIは、言語モデルのアライメント効率を高めるために、多様なシステムプロンプトと組み合わせた命令結合戦略を採用している。
提案手法はオープンソースQwen-7B-chatモデルに適用され,Qwen-SFT-MoIの開発が完了した。
論文 参考訳(メタデータ) (2024-04-29T03:58:12Z) - Towards a Foundation Model for Partial Differential Equations: Multi-Operator Learning and Extrapolation [4.286691905364396]
本稿では,PROSE-PDEという科学問題に対するマルチモーダル基礎モデルを提案する。
本モデルは,物理系の制御方程式を並列に学習しながら,システムの将来の状態を予測できるマルチオペレータ学習手法である。
論文 参考訳(メタデータ) (2024-04-18T17:34:20Z) - Merging Multi-Task Models via Weight-Ensembling Mixture of Experts [64.94129594112557]
異なるタスクでトレーニングされたTransformerベースのモデルを単一の統一モデルにマージすることで、すべてのタスクを同時に実行できる。
従来の手法は、タスク演算によって例示され、効率的かつスケーラブルであることが証明されている。
本稿では,Transformer層をMoEモジュールにアップスケーリングしながら,ほとんどのパラメータをマージすることを提案する。
論文 参考訳(メタデータ) (2024-02-01T08:58:57Z) - SEGO: Sequential Subgoal Optimization for Mathematical Problem-Solving [64.38649623473626]
大規模言語モデル(LLM)は人工知能の大幅な進歩を導いた。
数学的問題を解く能力を高めるために,textbfSEquential subtextbfGoal textbfOptimization (SEGO) という新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-19T17:56:40Z) - MinT: Boosting Generalization in Mathematical Reasoning via Multi-View
Fine-Tuning [53.90744622542961]
数学領域における推論は、小言語モデル(LM)にとって重要な課題である。
多様なアノテーションスタイルで既存の数学的問題データセットを利用する新しい手法を提案する。
実験結果から,LLaMA-7Bモデルが先行手法より優れていることが示された。
論文 参考訳(メタデータ) (2023-07-16T05:41:53Z) - JiuZhang 2.0: A Unified Chinese Pre-trained Language Model for
Multi-task Mathematical Problem Solving [77.51817534090789]
マルチタスク数学問題の解法を専門とする統一中国語 PLM である textbfJiuZhang2.0 を提案する。
我々の考えは、中規模のモデルを維持し、マルチタスク設定におけるモデル容量を改善するために、Emphcross-taskの知識共有を利用することである。
論文 参考訳(メタデータ) (2023-06-19T15:45:36Z) - Heterogeneous Line Graph Transformer for Math Word Problems [21.4761673982334]
本稿では,オンライン学習システムのための新しい機械学習モデルの設計と実装について述べる。
我々は,自動算術語問題解決システムの実現により,システムの知能レベルを向上することを目指している。
論文 参考訳(メタデータ) (2022-08-11T05:27:05Z) - The Effect of Diversity in Meta-Learning [79.56118674435844]
少ないショット学習は、少数の例から見れば、新しいタスクに対処できる表現を学習することを目的としている。
近年の研究では,タスク分布がモデルの性能に重要な役割を担っていることが示されている。
タスクの多様性がメタ学習アルゴリズムに与える影響を評価するために,多種多様なモデルとデータセットのタスク分布について検討する。
論文 参考訳(メタデータ) (2022-01-27T19:39:07Z) - Conditional Generative Modeling via Learning the Latent Space [54.620761775441046]
マルチモーダル空間における条件生成のための新しい枠組みを提案する。
潜在変数を使って一般化可能な学習パターンをモデル化する。
推論では、潜伏変数は複数の出力モードに対応する最適解を見つけるために最適化される。
論文 参考訳(メタデータ) (2020-10-07T03:11:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。