論文の概要: MMTM: Multi-Tasking Multi-Decoder Transformer for Math Word Problems
- arxiv url: http://arxiv.org/abs/2206.01268v1
- Date: Thu, 2 Jun 2022 19:48:36 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-07 06:58:18.748269
- Title: MMTM: Multi-Tasking Multi-Decoder Transformer for Math Word Problems
- Title(参考訳): MMTM:数学語問題に対するマルチタスクマルチデコーダ変換器
- Authors: Keyur Faldu, Amit Sheth, Prashant Kikani, Darshan Patel
- Abstract要約: 本稿では,事前学習時にマルチタスクとマルチデコーダを利用する新しいモデルMMTMを提案する。
MMTMモデルはより優れた数学的推論能力と一般化可能性を実現する。
我々は,Seq2Seq,GTS,Graph2Treeのアートベースラインモデルの最高の状態を,対向的課題データセットSVAMPに対して19.4%の相対的な改善で証明する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Recently, quite a few novel neural architectures were derived to solve math
word problems by predicting expression trees. These architectures varied from
seq2seq models, including encoders leveraging graph relationships combined with
tree decoders. These models achieve good performance on various MWPs datasets
but perform poorly when applied to an adversarial challenge dataset, SVAMP. We
present a novel model MMTM that leverages multi-tasking and multi-decoder
during pre-training. It creates variant tasks by deriving labels using
pre-order, in-order and post-order traversal of expression trees, and uses
task-specific decoders in a multi-tasking framework. We leverage transformer
architectures with lower dimensionality and initialize weights from RoBERTa
model. MMTM model achieves better mathematical reasoning ability and
generalisability, which we demonstrate by outperforming the best state of the
art baseline models from Seq2Seq, GTS, and Graph2Tree with a relative
improvement of 19.4% on an adversarial challenge dataset SVAMP.
- Abstract(参考訳): 近年,表現木を予測して数学語問題を解くために,新しいニューラルネットワークが生み出されている。
これらのアーキテクチャは、グラフ関係とツリーデコーダを組み合わせたエンコーダを含む、seq2seqモデルから変化した。
これらのモデルは、様々なMWPデータセットで優れた性能を得るが、敵のチャレンジデータセットであるSVAMPに適用すると、性能が良くない。
本稿では,事前学習時にマルチタスクとマルチデコーダを利用する新しいモデルMMTMを提案する。
プレオーダー、インオーダー、ポストオーダーの式ツリーのトラバースを使用してラベルを導出し、マルチタスクフレームワークでタスク固有のデコーダを使用する。
我々は,ローバータモデルから低次元のトランスフォーマーアーキテクチャを活用し,重みを初期化する。
MMTMモデルは,Seq2Seq,GTS,Graph2Treeから得られたアートベースラインモデルの最高の状態を,対角的課題データセットSVAMPで19.4%向上させることで,より優れた数学的推論能力と一般化性を実現する。
関連論文リスト
- Mixed-Query Transformer: A Unified Image Segmentation Architecture [57.32212654642384]
既存の統合イメージセグメンテーションモデルは、複数のタスクにまたがる統一アーキテクチャを採用するが、各データセットに合わせた個別の重みを使用するか、複数のデータセットに1セットの重みを適用するが、1つのタスクに限定される。
マルチタスクとマルチデータセット画像セグメンテーションを一組の重みで統合したアーキテクチャであるMixed-Query Transformer (MQ-Former)を紹介した。
論文 参考訳(メタデータ) (2024-04-06T01:54:17Z) - Pre-Trained Model Recommendation for Downstream Fine-tuning [22.343011779348682]
モデル選択は、市販の事前訓練されたモデルをランク付けし、新しいターゲットタスクに最も適したモデルを選択することを目的としている。
既存のモデル選択テクニックはスコープ内で制約されることが多く、モデルとタスク間の微妙な関係を見落としてしまう傾向があります。
我々は,多種多様な大規模モデルリポジトリを探索する実用的フレームワーク textbfFennec を提案する。
論文 参考訳(メタデータ) (2024-03-11T02:24:32Z) - Testing the Limits of Unified Sequence to Sequence LLM Pretraining on
Diverse Table Data Tasks [2.690048852269647]
本研究では、770Mから11Bのシーケンスからシーケンスモデルにスケールする際のテーブル特定事前学習に対する統一的なアプローチの利点について検討する。
我々の研究は、770Mから11Bのシーケンスからシーケンスモデルにスケールする際、テーブル固有の事前訓練に対する統一的なアプローチの利点を研究する最初の試みである。
論文 参考訳(メタデータ) (2023-10-01T21:06:15Z) - Single-Stage Visual Relationship Learning using Conditional Queries [60.90880759475021]
TraCQは、マルチタスク学習問題とエンティティペアの分布を回避する、シーングラフ生成の新しい定式化である。
我々は,DETRをベースとしたエンコーダ-デコーダ条件付きクエリを用いて,エンティティラベル空間を大幅に削減する。
実験結果から、TraCQは既存のシングルステージシーングラフ生成法よりも優れており、Visual Genomeデータセットの最先端の2段階メソッドを多く上回っていることがわかった。
論文 参考訳(メタデータ) (2023-06-09T06:02:01Z) - IMKGA-SM: Interpretable Multimodal Knowledge Graph Answer Prediction via
Sequence Modeling [3.867363075280544]
マルチモーダル知識グラフリンク予測は,マルチモーダルデータに対するリンク予測タスクの精度と効率を向上させることを目的としている。
シーケンスモデリングによる解釈可能なマルチモーダル知識グラフアンサー予測(IMKGA-SM)の開発
モデルは、異なるサイズのマルチモーダルリンク予測データセットに基づいて、SOTAベースラインよりもはるかに優れたパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-01-06T10:08:11Z) - Multi-Agent Reinforcement Learning is a Sequence Modeling Problem [33.679936867612525]
マルチエージェントトランス (MAT) という新しいアーキテクチャを導入する。
MATは協調型マルチエージェント強化学習(MARL)をSM問題にキャストする。
MATの中心はエンコーダ・デコーダアーキテクチャであり、共同ポリシー探索問題を逐次決定プロセスに変換する。
論文 参考訳(メタデータ) (2022-05-30T09:39:45Z) - Parameter-Efficient Abstractive Question Answering over Tables or Text [60.86457030988444]
QAシステムを求める情報の長期的な野望は、マルチモーダルなコンテキストを推論し、ユーザクエリに対する自然な回答を生成することである。
メモリ集約型事前学習言語モデルは、構造化されていないテキストや構造化テーブルのような特定のモードでQAデータ上のモデルを微調整することで、QAのような下流タスクに適応する。
パラメータ効率の良いアダプタは、トランス層間の小さなタスク固有のボトルネック層を加算し、訓練する。
論文 参考訳(メタデータ) (2022-04-07T10:56:29Z) - Data Augmentation for Abstractive Query-Focused Multi-Document
Summarization [129.96147867496205]
2つのQMDSトレーニングデータセットを提示し,2つのデータ拡張手法を用いて構築する。
これらの2つのデータセットは相補的な性質を持ち、すなわちQMDSCNNは実際のサマリを持つが、クエリはシミュレートされる。
組み合わせたデータセット上にエンドツーエンドのニューラルネットワークモデルを構築し、DUCデータセットに最新の転送結果をもたらします。
論文 参考訳(メタデータ) (2021-03-02T16:57:01Z) - Conversational Question Reformulation via Sequence-to-Sequence
Architectures and Pretrained Language Models [56.268862325167575]
本稿では、列列列構造と事前学習言語モデル(PLM)を用いた会話型質問修正(CQR)の実証的研究について述べる。
我々はPLMを利用して、CQRタスクの目的である最大推定におけるトークン・トークン・トークン・トークンの独立性の強い仮定に対処する。
我々は、最近導入されたCANARDデータセットの微調整PLMをドメイン内タスクとして評価し、TREC 2019 CAsT Trackのデータからドメイン外タスクとしてモデルを検証する。
論文 参考訳(メタデータ) (2020-04-04T11:07:54Z) - Multi-layer Optimizations for End-to-End Data Analytics [71.05611866288196]
代替アプローチを実現するフレームワークであるIFAQ(Iterative Functional Aggregate Queries)を紹介する。
IFAQは、特徴抽出クエリと学習タスクを、IFAQのドメイン固有言語で与えられた1つのプログラムとして扱う。
IFAQ の Scala 実装が mlpack,Scikit,特殊化を数桁で上回り,線形回帰木モデルや回帰木モデルを複数の関係データセット上で処理可能であることを示す。
論文 参考訳(メタデータ) (2020-01-10T16:14:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。