論文の概要: Multi-Method Self-Training: Improving Code Generation With Text, And
Vice Versa
- arxiv url: http://arxiv.org/abs/2307.10633v1
- Date: Thu, 20 Jul 2023 06:58:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-21 14:19:10.677681
- Title: Multi-Method Self-Training: Improving Code Generation With Text, And
Vice Versa
- Title(参考訳): マルチメソッド自己学習: テキストによるコード生成の改善とその逆
- Authors: Shriyash K. Upadhyay and Etan J. Ginsberg
- Abstract要約: 本稿では,Multi-Method Self-Training (MMST)を導入し,あるメソッドを他のメソッドのフィルタ出力でトレーニングする。
MMSTは,1) 性能の低い手法(最大30%) を改良し,2) より性能のよい手法(最大32.2%) を改良し,3) 関連性のあるタスク(最大10.3%) を改善できることを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models have many methods for solving the same problem. This
introduces novel strengths (different methods may work well for different
problems) and weaknesses (it may be difficult for users to know which method to
use). In this paper, we introduce Multi-Method Self-Training (MMST), where one
method is trained on the filtered outputs of another, allowing us to augment
the strengths and ameliorate the weaknesses of each method. Using a 176B
parameter model trained on both language and code, we show that MMST can 1)
improve the less performant method (up to 30%) making the model easier to use,
2) improve the more performant method (up to 32.2%) making the model more
performant, and 3) improve the performance of related but distinct tasks (up to
10.3%) by improving the ability of the model to generate rationales. We then
conduct ablation analyses to explore why MMST works. We show that MMST
generates more data than traditional self-training, but the improvement in
performance is driven by the use of multiple methods. We also analyze
prompt-engineering and anti-correlated performance between methods as means of
making MMST more effective. We hope the evidence from our paper motivates
machine learning researchers to explore ways in which advances in language
models allow for new forms of training.
- Abstract(参考訳): 大規模言語モデルには、同じ問題を解決する多くの方法がある。
これは、新しい強み(異なる方法が異なる問題にうまく機能する可能性がある)と弱点(どの方法を使うかを知るのが難しいかもしれない)を導入します。
本稿では,Multi-Method Self-Training (MMST)を導入し,各手法の強みを増強し,弱点を緩和する手法を提案する。
言語とコードの両方で訓練された176Bパラメータモデルを用いて、MMSTが可能であることを示す。
1) 性能の低い方法(最大30%)を改善し、モデルを使いやすくする。
2)より高性能な方法(最大32.2%)を改善し、より高性能にする。
3)モデルが合理性を生成する能力を向上させることにより、関連するが異なるタスク(最大10.3%)のパフォーマンスを向上させる。
次に、MMSTがなぜ機能するのかを調べるためにアブレーション分析を行う。
MMSTは従来の自己学習よりも多くのデータを生成するが、性能改善は複数の手法を用いることで促進される。
また,MMSTをより効果的にするために,手法間でのプロンプトエンジニアリングとアンチコラージュ性能を解析した。
われわれの論文の証拠は、機械学習の研究者たちに、言語モデルの進歩が新しい形の訓練を可能にする方法を探求する動機を与えてくれることを願っている。
関連論文リスト
- SIKeD: Self-guided Iterative Knowledge Distillation for mathematical reasoning [49.29200323760457]
大きな言語モデル(LLM)は、推論スキルをより小さなモデルに転送することができる。
より小さなモデルは蒸留時に全ての戦略にLLM分布を適合させるほど表現力に乏しい。
この1つの戦略への依存は、より小さなモデルにおいて、望ましい戦略で困難な推論タスクを解決しようとするときに、課題となる。
論文 参考訳(メタデータ) (2024-10-24T09:29:18Z) - A Comparative Study on Reasoning Patterns of OpenAI's o1 Model [69.08287909042421]
OpenAIのo1モデルは、ほとんどのデータセットで最高のパフォーマンスを実現しています。
また、いくつかの推論ベンチマークについて詳細な分析を行う。
論文 参考訳(メタデータ) (2024-10-17T15:09:03Z) - Diversifying the Expert Knowledge for Task-Agnostic Pruning in Sparse Mixture-of-Experts [75.85448576746373]
本稿では,モデルのパラメータ効率を向上させるために,類似の専門家をグループ化し,グループ化する方法を提案する。
提案手法の有効性を3つの最先端MoEアーキテクチャを用いて検証する。
評価の結果,本手法は自然言語タスクにおいて,他のモデルプルーニング手法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2024-07-12T17:25:02Z) - Towards Reliable AI Model Deployments: Multiple Input Mixup for
Out-of-Distribution Detection [4.985768723667418]
本稿では,OOD(Out-of-Distribution)検出問題の解法を提案する。
本手法は, 単一エポック微調整によるOOD検出性能の向上に有効である。
我々の方法は、ゼロからモデルを訓練する必要がなく、簡単に分類器にアタッチできる。
論文 参考訳(メタデータ) (2023-12-24T15:31:51Z) - MinT: Boosting Generalization in Mathematical Reasoning via Multi-View
Fine-Tuning [53.90744622542961]
数学領域における推論は、小言語モデル(LM)にとって重要な課題である。
多様なアノテーションスタイルで既存の数学的問題データセットを利用する新しい手法を提案する。
実験結果から,LLaMA-7Bモデルが先行手法より優れていることが示された。
論文 参考訳(メタデータ) (2023-07-16T05:41:53Z) - ZhichunRoad at Amazon KDD Cup 2022: MultiTask Pre-Training for
E-Commerce Product Search [4.220439000486713]
検索結果の質を向上させるために,頑健な多言語モデルを提案する。
事前学習の段階では、mlmタスク、分類タスク、コントラスト学習タスクを採用する。
微調整段階では、自信ある学習、指数的移動平均法(EMA)、対人訓練(FGM)、正規化ドロップアウト戦略(R-Drop)を用いる。
論文 参考訳(メタデータ) (2023-01-31T07:31:34Z) - Zero-Shot Learners for Natural Language Understanding via a Unified
Multiple Choice Perspective [26.41585967095811]
ゼロショット学習は、与えられたタスクでモデルをトレーニングすることを目的としており、追加のトレーニングなしで新しい学習タスクに対処できる。
提案手法は、ゼロショット学習を複数選択タスクに変換し、FLANなどの大規模生成モデルで一般的に使用される問題を回避する。
提案手法は,いくつかのベンチマークにおいて最先端の性能を示し,自然言語推論やテキスト分類といったタスクに対して良好な結果をもたらす。
論文 参考訳(メタデータ) (2022-10-16T17:24:06Z) - Few-shot Prompting Towards Controllable Response Generation [49.479958672988566]
まず,モデルのパラメータにアクセスすることなく,モデル生成に対するプロンプトと強化学習(RL)の組み合わせについて検討した。
マルチタスク学習を適用して、モデルが新しいタスクをより良く一般化できるようにします。
実験の結果,提案手法はパラメータにアクセスすることなく,複数のSOTA(State-of-the-art)対話モデルを制御することができることがわかった。
論文 参考訳(メタデータ) (2022-06-08T14:48:06Z) - MoEBERT: from BERT to Mixture-of-Experts via Importance-Guided
Adaptation [68.30497162547768]
本研究では,Mixture-of-Experts構造を用いてモデルキャパシティと推論速度を向上させるMoEBERTを提案する。
自然言語理解と質問応答タスクにおけるMoEBERTの有効性と有効性を検証する。
論文 参考訳(メタデータ) (2022-04-15T23:19:37Z) - WARP: Word-level Adversarial ReProgramming [13.08689221166729]
多くのアプリケーションでは、多くのパラメータを複数のタスクで共有できるように、より小さなパラメータセットをチューニングすることが望ましい。
自動プロンプト生成に関する初期の研究を拡張した逆転プログラミングに基づく代替アプローチを提案する。
提案手法は,SST-2およびMNLIデータセット上で,類似のトレーニング可能なパラメータ数で他の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-01-01T00:41:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。