論文の概要: YODA: Teacher-Student Progressive Learning for Language Models
- arxiv url: http://arxiv.org/abs/2401.15670v1
- Date: Sun, 28 Jan 2024 14:32:15 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-30 17:04:57.831368
- Title: YODA: Teacher-Student Progressive Learning for Language Models
- Title(参考訳): ヨーダ:教師による言語モデルのためのプログレッシブラーニング
- Authors: Jianqiao Lu, Wanjun Zhong, Yufei Wang, Zhijiang Guo, Qi Zhu, Wenyong
Huang, Yanlin Wang, Fei Mi, Baojun Wang, Yasheng Wang, Lifeng Shang, Xin
Jiang, Qun Liu
- Abstract要約: 本稿では,教師が指導するプログレッシブ・ラーニング・フレームワークであるYodaを紹介する。
モデルファインチューニングの有効性を向上させるために,教師の教育過程をエミュレートする。
実験の結果, YODAのデータによるLLaMA2のトレーニングにより, SFTは大幅に向上した。
- 参考スコア(独自算出の注目度): 82.0172215948963
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Although large language models (LLMs) have demonstrated adeptness in a range
of tasks, they still lag behind human learning efficiency. This disparity is
often linked to the inherent human capacity to learn from basic examples,
gradually generalize and handle more complex problems, and refine their skills
with continuous feedback. Inspired by this, this paper introduces YODA, a novel
teacher-student progressive learning framework that emulates the
teacher-student education process to improve the efficacy of model fine-tuning.
The framework operates on an interactive \textit{basic-generalized-harder}
loop. The teacher agent provides tailored feedback on the student's answers,
and systematically organizes the education process. This process unfolds by
teaching the student basic examples, reinforcing understanding through
generalized questions, and then enhancing learning by posing questions with
progressively enhanced complexity. With the teacher's guidance, the student
learns to iteratively refine its answer with feedback, and forms a robust and
comprehensive understanding of the posed questions. The systematic procedural
data, which reflects the progressive learning process of humans, is then
utilized for model training. Taking math reasoning as a testbed, experiments
show that training LLaMA2 with data from YODA improves SFT with significant
performance gain (+17.01\% on GSM8K and +9.98\% on MATH). In addition, we find
that training with curriculum learning further improves learning robustness.
- Abstract(参考訳): 大規模言語モデル(llm)は様々なタスクに適性を示しているが、それでも人間の学習効率に遅れをとっている。
この格差はしばしば、基本的な例から学習し、より複雑な問題を徐々に一般化し、対処し、継続的なフィードバックでスキルを磨き上げる、固有の人間の能力と結びついています。
そこで本研究では,モデルファインチューニングの有効性を高めるために,教師の指導過程をエミュレートする,教師の指導力に富む新しい学習フレームワークであるYodaを紹介する。
このフレームワークはインタラクティブな \textit{basic- Generalized-harder} ループで動作する。
教師エージェントは、生徒の回答に合わせたフィードバックを提供し、教育プロセスを体系的に整理する。
このプロセスは、学生の基本的な例を教え、一般化した質問を通じて理解を強化し、徐々に複雑にされた質問をすることで学習を強化することで展開する。
教師の指導により、学生はフィードバックで回答を反復的に洗練することを学び、提案された質問に対する堅牢で包括的な理解を形成する。
次に、人間の進歩的学習過程を反映した体系的手続きデータを用いてモデルトレーニングを行う。
数学の推論をテストベッドとして用いた実験では、YODAのデータでLLaMA2をトレーニングすると、SFTが大幅に向上する(GSM8Kでは+17.01\%、MATHでは+9.98\%)。
さらに,カリキュラム学習による学習は,学習の堅牢性をさらに向上させる。
関連論文リスト
- When Babies Teach Babies: Can student knowledge sharing outperform Teacher-Guided Distillation on small datasets? [0.0]
我々は,データ効率のよい言語モデル事前学習の限界を推し進めることを目的として,BabyLMチャレンジに提案する。
重み付き相互学習を二段階最適化問題として定式化することにより、生徒の平等な待遇の限界に対処する。
評価の結果、教師なしの手法は教師が指導する手法と一致したり、超えたりできることがわかった。
論文 参考訳(メタデータ) (2024-11-25T15:25:31Z) - Toward In-Context Teaching: Adapting Examples to Students' Misconceptions [54.82965010592045]
本稿ではAdapTと呼ばれる一連のモデルと評価手法を紹介する。
AToMは、学生の過去の信念を共同で推論し、将来の信念の正しさを最適化する適応教育の新しい確率論的モデルである。
本研究は,適応型学習課題の難しさと,それを解決するための学習適応モデルの可能性を両立させるものである。
論文 参考訳(メタデータ) (2024-05-07T17:05:27Z) - Revealing Networks: Understanding Effective Teacher Practices in
AI-Supported Classrooms using Transmodal Ordered Network Analysis [0.9187505256430948]
本研究は,AI教師と連携した数学教室において,システム内学習の伝統的な指標に関連する効果的な教員の実践を理解するために,トランスモーダル順序ネットワーク分析を用いた。
教師の実践を学生の学習率で比較すると,低学率の生徒はモニタリング後,より有意な使用感を示した。
学習率の低い生徒は、高学率の学生と同様の学習行動を示し、教師の正しい試みを繰り返した。
論文 参考訳(メタデータ) (2023-12-17T21:50:02Z) - Empowering Private Tutoring by Chaining Large Language Models [87.76985829144834]
本研究は,最先端の大規模言語モデル(LLM)を活用した,本格的な知的チューリングシステムの開発を探求する。
このシステムは、相互に接続された3つのコアプロセス(相互作用、反射、反応)に分けられる。
各プロセスは LLM ベースのツールと動的に更新されたメモリモジュールによって実装される。
論文 参考訳(メタデータ) (2023-09-15T02:42:03Z) - Teacher-student curriculum learning for reinforcement learning [1.7259824817932292]
強化学習(rl)は、シーケンシャルな意思決定問題に対する一般的なパラダイムである。
深部強化学習手法のサンプル非効率性は,実世界の問題に適用する際の重要な障害である。
そこで我々は,学生が選択した課題の解き方を学習している間に,生徒の課題を選択する教師を同時に訓練する学習環境を提案する。
論文 参考訳(メタデータ) (2022-10-31T14:45:39Z) - Towards Lifelong Learning of Multilingual Text-To-Speech Synthesis [87.75833205560406]
本研究は,多言語テキスト音声(TTS)システムを学習するための生涯学習手法を提案する。
すべての言語からプールされたデータを必要としないため、ストレージと計算の負担が軽減される。
論文 参考訳(メタデータ) (2021-10-09T07:00:38Z) - Iterative Teacher-Aware Learning [136.05341445369265]
人間の教育において、教師と学生はコミュニケーション効率を最大化するために適応的に交流することができる。
本稿では,教師の協調意図を可能性関数に組み込むことができる,勾配最適化に基づく教師認識学習者を提案する。
論文 参考訳(メタデータ) (2021-10-01T00:27:47Z) - Learning by Teaching, with Application to Neural Architecture Search [10.426533624387305]
学習による学習(LBT)と呼ばれる新しいMLフレームワークを提案する。
lbtでは、教師モデルが生徒モデルにうまく学ぶように教えることで自己改善する。
バリデーションデータセットで生徒がどのように振る舞うかに基づいて、教師はモデルを再学習し、生徒が優れたバリデーション性能に達するまで再指導する。
論文 参考訳(メタデータ) (2021-03-11T23:50:38Z) - Learning to Reweight with Deep Interactions [104.68509759134878]
本稿では,教師モデルに内部状態を提供する改良型データ再重み付けアルゴリズムを提案する。
クリーン/ノイズラベルとニューラルマシン翻訳を用いた画像分類実験は、我々のアルゴリズムが従来の手法よりも大幅に改善されていることを実証的に実証した。
論文 参考訳(メタデータ) (2020-07-09T09:06:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。