Fugu-MT 論文翻訳(概要): YODA: Teacher-Student Progressive Learning for Language Models

論文の概要: YODA: Teacher-Student Progressive Learning for Language Models

arxiv url: http://arxiv.org/abs/2401.15670v1
Date: Sun, 28 Jan 2024 14:32:15 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-30 17:04:57.831368
Title: YODA: Teacher-Student Progressive Learning for Language Models
Title（参考訳）: ヨーダ:教師による言語モデルのためのプログレッシブラーニング
Authors: Jianqiao Lu, Wanjun Zhong, Yufei Wang, Zhijiang Guo, Qi Zhu, Wenyong Huang, Yanlin Wang, Fei Mi, Baojun Wang, Yasheng Wang, Lifeng Shang, Xin Jiang, Qun Liu
Abstract要約: 本稿では,教師が指導するプログレッシブ・ラーニング・フレームワークであるYodaを紹介する。モデルファインチューニングの有効性を向上させるために,教師の教育過程をエミュレートする。実験の結果, YODAのデータによるLLaMA2のトレーニングにより, SFTは大幅に向上した。
参考スコア（独自算出の注目度）: 82.0172215948963
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Although large language models (LLMs) have demonstrated adeptness in a range of tasks, they still lag behind human learning efficiency. This disparity is often linked to the inherent human capacity to learn from basic examples, gradually generalize and handle more complex problems, and refine their skills with continuous feedback. Inspired by this, this paper introduces YODA, a novel teacher-student progressive learning framework that emulates the teacher-student education process to improve the efficacy of model fine-tuning. The framework operates on an interactive \textit{basic-generalized-harder} loop. The teacher agent provides tailored feedback on the student's answers, and systematically organizes the education process. This process unfolds by teaching the student basic examples, reinforcing understanding through generalized questions, and then enhancing learning by posing questions with progressively enhanced complexity. With the teacher's guidance, the student learns to iteratively refine its answer with feedback, and forms a robust and comprehensive understanding of the posed questions. The systematic procedural data, which reflects the progressive learning process of humans, is then utilized for model training. Taking math reasoning as a testbed, experiments show that training LLaMA2 with data from YODA improves SFT with significant performance gain (+17.01\% on GSM8K and +9.98\% on MATH). In addition, we find that training with curriculum learning further improves learning robustness.
Abstract（参考訳）: 大規模言語モデル(llm)は様々なタスクに適性を示しているが、それでも人間の学習効率に遅れをとっている。この格差はしばしば、基本的な例から学習し、より複雑な問題を徐々に一般化し、対処し、継続的なフィードバックでスキルを磨き上げる、固有の人間の能力と結びついています。そこで本研究では,モデルファインチューニングの有効性を高めるために,教師の指導過程をエミュレートする,教師の指導力に富む新しい学習フレームワークであるYodaを紹介する。このフレームワークはインタラクティブな \textit{basic- Generalized-harder} ループで動作する。教師エージェントは、生徒の回答に合わせたフィードバックを提供し、教育プロセスを体系的に整理する。このプロセスは、学生の基本的な例を教え、一般化した質問を通じて理解を強化し、徐々に複雑にされた質問をすることで学習を強化することで展開する。教師の指導により、学生はフィードバックで回答を反復的に洗練することを学び、提案された質問に対する堅牢で包括的な理解を形成する。次に、人間の進歩的学習過程を反映した体系的手続きデータを用いてモデルトレーニングを行う。数学の推論をテストベッドとして用いた実験では、YODAのデータでLLaMA2をトレーニングすると、SFTが大幅に向上する(GSM8Kでは+17.01\%、MATHでは+9.98\%)。さらに,カリキュラム学習による学習は,学習の堅牢性をさらに向上させる。

関連論文リスト

MathEDU: Towards Adaptive Feedback for Student Mathematical Problem-Solving [3.2962799070467432]
本稿では,大規模言語モデル(LLM)の学習者の数学的問題解決プロセスの評価と適応的なフィードバックを提供する能力について考察する。モデルが学生の事前回答履歴にアクセス可能なシナリオと、コールドスタートコンテキストをシミュレートするシナリオの2つについて、パーソナライズされた学習を支援するモデルの能力を評価する。
論文参考訳（メタデータ） (2025-05-23T15:59:39Z)
Alice: Proactive Learning with Teacher's Demonstrations for Weak-to-Strong Generalization [69.96794098855938]
Weak-to-strong Generalization (W2SG)は、ますます有能な言語モデル(LLM)を監督するための有望なフレームワークを提供する。伝統的なW2SG手法は受動的学習に依存しており、弱い教師は強い生徒を訓練するためにノイズの多いデモを提供する。教師と生徒の相補的な知識を活用して学習プロセスを強化するフレームワークであるAliceを紹介した。
論文参考訳（メタデータ） (2025-04-09T22:33:06Z)
Dynamic Skill Adaptation for Large Language Models [78.31322532135272]
動的スキル適応(Dynamic Skill Adaptation, DSA)は, 言語モデル(LLM)に新しい複雑なスキルを適応させる適応的かつ動的フレームワークである。各スキルに対して,学習前スキルの詳細な記述を含む教科書的データと,学習前スキルの具体的活用を目標とした演習的データの両方を生成する。 LLAMA や Mistral のような大規模言語モデルを用いた実験は,提案手法が数学推論スキルや社会学習スキルに適応する上で有効であることを示す。
論文参考訳（メタデータ） (2024-12-26T22:04:23Z)
When Babies Teach Babies: Can student knowledge sharing outperform Teacher-Guided Distillation on small datasets? [0.0]
我々は,データ効率のよい言語モデル事前学習の限界を推し進めることを目的として,BabyLMチャレンジに提案する。重み付き相互学習を二段階最適化問題として定式化することにより、生徒の平等な待遇の限界に対処する。評価の結果、教師なしの手法は教師が指導する手法と一致したり、超えたりできることがわかった。
論文参考訳（メタデータ） (2024-11-25T15:25:31Z)
Toward In-Context Teaching: Adapting Examples to Students' Misconceptions [54.82965010592045]
本稿ではAdapTと呼ばれる一連のモデルと評価手法を紹介する。 AToMは、学生の過去の信念を共同で推論し、将来の信念の正しさを最適化する適応教育の新しい確率論的モデルである。本研究は,適応型学習課題の難しさと,それを解決するための学習適応モデルの可能性を両立させるものである。
論文参考訳（メタデータ） (2024-05-07T17:05:27Z)
Revealing Networks: Understanding Effective Teacher Practices in AI-Supported Classrooms using Transmodal Ordered Network Analysis [0.9187505256430948]
本研究は,AI教師と連携した数学教室において,システム内学習の伝統的な指標に関連する効果的な教員の実践を理解するために,トランスモーダル順序ネットワーク分析を用いた。教師の実践を学生の学習率で比較すると,低学率の生徒はモニタリング後,より有意な使用感を示した。学習率の低い生徒は、高学率の学生と同様の学習行動を示し、教師の正しい試みを繰り返した。
論文参考訳（メタデータ） (2023-12-17T21:50:02Z)
Empowering Private Tutoring by Chaining Large Language Models [87.76985829144834]
本研究は,最先端の大規模言語モデル(LLM)を活用した,本格的な知的チューリングシステムの開発を探求する。このシステムは、相互に接続された3つのコアプロセス(相互作用、反射、反応)に分けられる。各プロセスは LLM ベースのツールと動的に更新されたメモリモジュールによって実装される。
論文参考訳（メタデータ） (2023-09-15T02:42:03Z)
Teacher-student curriculum learning for reinforcement learning [1.7259824817932292]
強化学習(rl)は、シーケンシャルな意思決定問題に対する一般的なパラダイムである。深部強化学習手法のサンプル非効率性は,実世界の問題に適用する際の重要な障害である。そこで我々は,学生が選択した課題の解き方を学習している間に,生徒の課題を選択する教師を同時に訓練する学習環境を提案する。
論文参考訳（メタデータ） (2022-10-31T14:45:39Z)
Towards Lifelong Learning of Multilingual Text-To-Speech Synthesis [87.75833205560406]
本研究は,多言語テキスト音声(TTS)システムを学習するための生涯学習手法を提案する。すべての言語からプールされたデータを必要としないため、ストレージと計算の負担が軽減される。
論文参考訳（メタデータ） (2021-10-09T07:00:38Z)
Iterative Teacher-Aware Learning [136.05341445369265]
人間の教育において、教師と学生はコミュニケーション効率を最大化するために適応的に交流することができる。本稿では,教師の協調意図を可能性関数に組み込むことができる,勾配最適化に基づく教師認識学習者を提案する。
論文参考訳（メタデータ） (2021-10-01T00:27:47Z)
Learning by Teaching, with Application to Neural Architecture Search [10.426533624387305]
学習による学習(LBT)と呼ばれる新しいMLフレームワークを提案する。 lbtでは、教師モデルが生徒モデルにうまく学ぶように教えることで自己改善する。バリデーションデータセットで生徒がどのように振る舞うかに基づいて、教師はモデルを再学習し、生徒が優れたバリデーション性能に達するまで再指導する。
論文参考訳（メタデータ） (2021-03-11T23:50:38Z)
Learning to Reweight with Deep Interactions [104.68509759134878]
本稿では,教師モデルに内部状態を提供する改良型データ再重み付けアルゴリズムを提案する。クリーン/ノイズラベルとニューラルマシン翻訳を用いた画像分類実験は、我々のアルゴリズムが従来の手法よりも大幅に改善されていることを実証的に実証した。
論文参考訳（メタデータ） (2020-07-09T09:06:31Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。