論文の概要: JiuZhang 2.0: A Unified Chinese Pre-trained Language Model for
Multi-task Mathematical Problem Solving
- arxiv url: http://arxiv.org/abs/2306.11027v1
- Date: Mon, 19 Jun 2023 15:45:36 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-21 17:09:41.040587
- Title: JiuZhang 2.0: A Unified Chinese Pre-trained Language Model for
Multi-task Mathematical Problem Solving
- Title(参考訳): jiuzhang 2.0:マルチタスク数学問題解決のための統一中国語事前学習言語モデル
- Authors: Wayne Xin Zhao, Kun Zhou, Beichen Zhang, Zheng Gong, Zhipeng Chen,
Yuanhang Zhou, Ji-Rong Wen, Jing Sha, Shijin Wang, Cong Liu, Guoping Hu
- Abstract要約: マルチタスク数学問題の解法を専門とする統一中国語 PLM である textbfJiuZhang2.0 を提案する。
我々の考えは、中規模のモデルを維持し、マルチタスク設定におけるモデル容量を改善するために、Emphcross-taskの知識共有を利用することである。
- 参考スコア(独自算出の注目度): 77.51817534090789
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Although pre-trained language models~(PLMs) have recently advanced the
research progress in mathematical reasoning, they are not specially designed as
a capable multi-task solver, suffering from high cost for multi-task deployment
(\eg a model copy for a task) and inferior performance on complex mathematical
problems in practical applications. To address these issues, in this paper, we
propose \textbf{JiuZhang~2.0}, a unified Chinese PLM specially for multi-task
mathematical problem solving. Our idea is to maintain a moderate-sized model
and employ the \emph{cross-task knowledge sharing} to improve the model
capacity in a multi-task setting. Specially, we construct a
Mixture-of-Experts~(MoE) architecture for modeling mathematical text, so as to
capture the common mathematical knowledge across tasks. For optimizing the MoE
architecture, we design \emph{multi-task continual pre-training} and
\emph{multi-task fine-tuning} strategies for multi-task adaptation. These
training strategies can effectively decompose the knowledge from the task data
and establish the cross-task sharing via expert networks. In order to further
improve the general capacity of solving different complex tasks, we leverage
large language models~(LLMs) as complementary models to iteratively refine the
generated solution by our PLM, via in-context learning. Extensive experiments
have demonstrated the effectiveness of our model.
- Abstract(参考訳): 事前学習された言語モデル~(PLM)は、最近、数学的推論の研究の進歩を進展させてきたが、それらは有能なマルチタスクソルバとして特別に設計されておらず、マルチタスクデプロイメントのコストが高い(タスクのモデルコピーを除外)。
そこで本稿では,マルチタスク数理問題解決を専門とする中国統一plmである \textbf{jiuzhang~2.0} を提案する。
私たちのアイデアは、中規模のモデルを維持し、マルチタスク環境でモデル能力を改善するために \emph{cross-task knowledge sharing} を採用することです。
特に,数学テキストをモデル化するためのMixture-of-Experts〜(MoE)アーキテクチャを構築し,タスク間の共通的な数学的知識を捉える。
MoEアーキテクチャを最適化するために、マルチタスク適応のための \emph{multi-task continual pre-training} と \emph{multi-task fine-tuning} 戦略を設計する。
これらのトレーニング戦略は、タスクデータから知識を効果的に分解し、エキスパートネットワークを介してタスク間の共有を確立する。
異なる複雑なタスクを解くための一般的な能力を改善するために、我々は大規模言語モデル~〜(LLM)を補完モデルとして活用し、文脈内学習を通じて PLM が生成したソリューションを反復的に洗練する。
広範な実験により,本モデルの有効性が実証された。
関連論文リスト
- Mixture-of-Instructions: Comprehensive Alignment of a Large Language Model through the Mixture of Diverse System Prompting Instructions [7.103987978402038]
我々はMixture-of-Instructions (MoI)と呼ばれる新しいテクニックを紹介する。
MoIは、言語モデルのアライメント効率を高めるために、多様なシステムプロンプトと組み合わせた命令結合戦略を採用している。
提案手法はオープンソースQwen-7B-chatモデルに適用され,Qwen-SFT-MoIの開発が完了した。
論文 参考訳(メタデータ) (2024-04-29T03:58:12Z) - How does Multi-Task Training Affect Transformer In-Context Capabilities? Investigations with Function Classes [6.652837942112205]
大規模言語モデル(LLM)は、テキストとして提供される少数の例に基づいて、目に見えないタスクを実行するという異常な能力を示している。
我々は、ICLモデルによるデータ効率の向上と、より安定した収束を実現するための効果的なカリキュラム学習戦略をいくつか提案する。
実験の結果, ICLモデルでは, 従来の課題を混在させながら, 段階的に難しいタスクを学習することで, 難易度を効果的に学習できることが判明した。
論文 参考訳(メタデータ) (2024-04-04T16:15:23Z) - Making Small Language Models Better Multi-task Learners with
Mixture-of-Task-Adapters [13.6682552098234]
大規模言語モデル(LLM)は、さまざまな自然言語処理(NLP)タスクにおいて、驚くべきゼロショット学習性能を達成した。
マルチタスク学習者に対して,小型言語モデルに基づくmixTure-of-task-adapterを効果的に構築するシステムであるALTERを提案する。
少ない計算コストでアダプタ間の協調を最適化する2段階の学習手法を提案する。
論文 参考訳(メタデータ) (2023-09-20T03:39:56Z) - Musketeer: Joint Training for Multi-task Vision Language Model with Task Explanation Prompts [75.75548749888029]
本稿では,全てのタスクに対してパラメータを共同で訓練し,複数の異種タスク間で完全に共有する視覚言語モデルを提案する。
単一のモデルで、Musteteerは単一のタスクでトレーニングされた強いベースラインに匹敵する結果を得る。
論文 参考訳(メタデータ) (2023-05-11T17:57:49Z) - Mod-Squad: Designing Mixture of Experts As Modular Multi-Task Learners [74.92558307689265]
専門家グループ("スクワッド")にモジュール化された新しいモデルであるMod-Squadを提案する。
単一モデルのトレーニング中に、このマッチングプロセスを最適化する。
13の視覚タスクを持つタスクノミーデータセットと、5つの視覚タスクを持つPASCAL-Contextデータセットの実験は、我々のアプローチの優位性を示している。
論文 参考訳(メタデータ) (2022-12-15T18:59:52Z) - Sparsely Activated Mixture-of-Experts are Robust Multi-Task Learners [67.5865966762559]
本研究では,Mixture-of-Experts (MoE) がマルチタスク学習を改善するかを検討した。
タスク認識ゲーティング関数を考案し、異なるタスクから専門の専門家にサンプルをルーティングする。
これにより、多数のパラメータを持つ疎活性化マルチタスクモデルが得られるが、高密度モデルの計算コストは同じである。
論文 参考訳(メタデータ) (2022-04-16T00:56:12Z) - Controllable Dynamic Multi-Task Architectures [92.74372912009127]
本稿では,そのアーキテクチャと重みを動的に調整し,所望のタスク選択とリソース制約に適合させる制御可能なマルチタスクネットワークを提案する。
本稿では,タスク親和性と分岐正規化損失を利用した2つのハイパーネットの非交互トレーニングを提案し,入力の嗜好を取り入れ,適応重み付き木構造モデルを予測する。
論文 参考訳(メタデータ) (2022-03-28T17:56:40Z) - A Tree-Structured Multi-Task Model Recommender [25.445073413243925]
木構造型マルチタスクアーキテクチャは、マルチタスク学習(MTL)のコンテキストにおいて、複数の視覚タスクに取り組むために採用されている。
本稿では,モデルトレーニングを行なわずにユーザ指定の計算予算を満たしながら高いタスク性能を実現することができる木構造マルチタスクアーキテクチャを提案する。
一般的なMTLベンチマークの大規模な評価は、推奨アーキテクチャが最先端のMTL手法と比較して、競合するタスク精度と計算効率を達成できることを示している。
論文 参考訳(メタデータ) (2022-03-10T00:09:43Z) - Multi-Task Learning with Sequence-Conditioned Transporter Networks [67.57293592529517]
シーケンスコンディショニングと重み付きサンプリングのレンズによるマルチタスク学習の実現を目指している。
合成タスクを対象とした新しいベンチマークであるMultiRavensを提案する。
次に,視覚に基づくエンドツーエンドシステムアーキテクチャであるSequence-Conditioned Transporter Networksを提案する。
論文 参考訳(メタデータ) (2021-09-15T21:19:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。