Fugu-MT 論文翻訳(概要): Montessori-Instruct: Generate Influential Training Data Tailored for Student Learning

論文の概要: Montessori-Instruct: Generate Influential Training Data Tailored for Student Learning

arxiv url: http://arxiv.org/abs/2410.14208v1
Date: Fri, 18 Oct 2024 06:50:15 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:37.351359
Title: Montessori-Instruct: Generate Influential Training Data Tailored for Student Learning
Title（参考訳）: Montessori-Instruct: 学生学習のためのインフルエントトレーニングデータの生成
Authors: Xiaochuan Li, Zichun Yu, Chenyan Xiong,
Abstract要約: 我々は,教師言語モデルの学習プロセスに向けて,教師言語モデルのデータ合成能力を調整した新しいデータ合成フレームワークであるMontessori-Instructを提案する。モンテッソーリ・インストラクトは標準合成法を18.35%、46.24%で大幅に上回っている。
参考スコア（独自算出の注目度）: 18.5518735004289
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Synthetic data has been widely used to train large language models, but their generative nature inevitably introduces noisy, non-informative, and misleading learning signals. In this paper, we propose Montessori-Instruct, a novel data synthesis framework that tailors the data synthesis ability of the teacher language model toward the student language model's learning process. Specifically, we utilize local data influence of synthetic training data points on students to characterize students' learning preferences. Then, we train the teacher model with Direct Preference Optimization (DPO) to generate synthetic data tailored toward student learning preferences. Experiments with Llama3-8B-Instruct (teacher) and Llama3-8B (student) on Alpaca Eval and MT-Bench demonstrate that Montessori-Instruct significantly outperforms standard synthesis methods by 18.35\% and 46.24\% relatively. Our method also beats data synthesized by a stronger teacher model, GPT-4o. Further analysis confirms the benefits of teacher's learning to generate more influential training data in the student's improved learning, the advantages of local data influence in accurately measuring student preferences, and the robustness of Montessori-Instruct across different student models. Our code and data are open-sourced at https://github.com/cxcscmu/Montessori-Instruct.
Abstract（参考訳）: 合成データは大規模言語モデルの学習に広く用いられてきたが、その生成性は必然的にノイズや非表現性、誤解を招く学習信号を導入している。本稿では,教師言語モデルの学習プロセスに向けて,教師言語モデルのデータ合成能力を調整した新しいデータ合成フレームワークであるMontessori-Instructを提案する。具体的には,生徒の学習嗜好を特徴付けるために,総合的な学習データポイントの局所的影響を利用する。そこで我々は,教師モデルにDPO(Direct Preference Optimization)を適用し,学生の学習嗜好に合わせた合成データを生成する。 Llama3-8B-Instruct (Teacher)とLlama3-8B (Student)によるAlpaca EvalとMT-Benchの実験では、モンテッソリ-Instructが標準合成法を18.35\%と46.24\%で大幅に上回ったことが示されている。また,より強力な教師モデルであるGPT-4oによって合成されたデータにも打ち勝つ。さらに、教師の学習の利点が、生徒の学習改善におけるより影響力のあるトレーニングデータを生成すること、生徒の嗜好を正確に測定する際のローカルデータの影響の利点、および異なる学生モデルにおけるモンテッソーリ・インストラクションの堅牢性を確認する。私たちのコードとデータはhttps://github.com/cxcscmu/Montessori-Instruct.comでオープンソース化されています。

関連論文リスト

DataEnvGym: Data Generation Agents in Teacher Environments with Student Feedback [62.235925602004535]
データ生成エージェントのための教師環境のテストベッドであるDataEnvGymを紹介する。 DataEnvGymはシーケンシャルな意思決定タスクとしてデータ生成をフレーム化する。エージェントの目標は、生徒のパフォーマンスを改善することです。我々は3つの多様なタスク(数学、コード、VQA)をサポートし、複数の学生と教師をテストする。
論文参考訳（メタデータ） (2024-10-08T17:20:37Z)
Is Child-Directed Speech Effective Training Data for Language Models? [34.46268640655943]
GPT-2 と RoBERTa モデルを英語の子供指向音声の29万語で学習する。子どものトレーニングデータのグローバルな発達順序付けやローカルな談話順序付けが、他のデータセットと比較して高いパフォーマンスを支えているかどうかを検証する。これらの結果は、より良いデータから進むのではなく、子供の学習アルゴリズムが現在の言語モデリング技術よりもはるかにデータ効率が高いという仮説を支持している。
論文参考訳（メタデータ） (2024-08-07T08:18:51Z)
AgentInstruct: Toward Generative Teaching with Agentic Flows [12.192372792525726]
我々は、ポストトレーニングに合成データを使うこと、特に、他のモデルに新しいスキルや振る舞いを教えるために、強力なモデルでデータを作成することに重点を置いている。本稿では,多種多様な高品質な合成データを自動生成するエージェントフレームワークであるAgentInstructを紹介する。テキスト編集,創造的執筆,ツール使用,コーディング,理解の理解など,さまざまなスキルを学習するための,2500万対のポストトレーニングデータセットを作成することで,AgentInstructの有用性を実証する。
論文参考訳（メタデータ） (2024-07-03T21:01:12Z)
Toward In-Context Teaching: Adapting Examples to Students' Misconceptions [54.82965010592045]
本稿ではAdapTと呼ばれる一連のモデルと評価手法を紹介する。 AToMは、学生の過去の信念を共同で推論し、将来の信念の正しさを最適化する適応教育の新しい確率論的モデルである。本研究は,適応型学習課題の難しさと,それを解決するための学習適応モデルの可能性を両立させるものである。
論文参考訳（メタデータ） (2024-05-07T17:05:27Z)
YODA: Teacher-Student Progressive Learning for Language Models [82.0172215948963]
本稿では,教師が指導するプログレッシブ・ラーニング・フレームワークであるYodaを紹介する。モデルファインチューニングの有効性を向上させるために,教師の教育過程をエミュレートする。実験の結果, YODAのデータによるLLaMA2のトレーニングにより, SFTは大幅に向上した。
論文参考訳（メタデータ） (2024-01-28T14:32:15Z)
Customizing Synthetic Data for Data-Free Student Learning [6.8080936803807734]
DFKDは、オリジナルトレーニングデータなしで軽量な学生モデルを得ることを目指している。生徒モデルをより効果的に訓練するために、合成データを現在の学生学習能力に合わせてカスタマイズする。本稿では,データ自由学習(CSD)のための合成データのカスタマイズを提案する。
論文参考訳（メタデータ） (2023-07-10T13:17:29Z)
Teaching What You Should Teach: A Data-Based Distillation Method [20.595460553747163]
知識蒸留フレームワークに「教えるべきものを教える」戦略を導入する。本稿では,より効率的かつ合理的な蒸留を支援するために,望まれる増補サンプルを探索するデータベース蒸留手法"TST"を提案する。具体的には,教師の強みと生徒の弱みを補うことを支援する,優先バイアス付きニューラルネットワークベースのデータ拡張モジュールを設計する。
論文参考訳（メタデータ） (2022-12-11T06:22:14Z)
Unsupervised Neural Stylistic Text Generation using Transfer learning and Adapters [66.17039929803933]
応答生成のためのスタイル特化属性を学習するために,モデルパラメータの0.3%しか更新しない新しい転送学習フレームワークを提案する。我々はPERSONALITY-CAPTIONSデータセットからスタイル固有の属性を学習する。
論文参考訳（メタデータ） (2022-10-07T00:09:22Z)
Learning by Teaching, with Application to Neural Architecture Search [10.426533624387305]
学習による学習(LBT)と呼ばれる新しいMLフレームワークを提案する。 lbtでは、教師モデルが生徒モデルにうまく学ぶように教えることで自己改善する。バリデーションデータセットで生徒がどのように振る舞うかに基づいて、教師はモデルを再学習し、生徒が優れたバリデーション性能に達するまで再指導する。
論文参考訳（メタデータ） (2021-03-11T23:50:38Z)
SLADE: A Self-Training Framework For Distance Metric Learning [75.54078592084217]
我々は、追加のラベルのないデータを活用することで、検索性能を向上させるための自己学習フレームワークSLADEを提案する。まず、ラベル付きデータに基づいて教師モデルをトレーニングし、ラベルなしデータに対して擬似ラベルを生成する。次に、最終機能埋め込みを生成するために、ラベルと擬似ラベルの両方で学生モデルをトレーニングします。
論文参考訳（メタデータ） (2020-11-20T08:26:10Z)
Relation-Guided Representation Learning [53.60351496449232]
本稿では,サンプル関係を明示的にモデル化し,活用する表現学習手法を提案する。私たちのフレームワークは、サンプル間の関係をよく保存します。サンプルをサブスペースに埋め込むことにより,本手法が大規模なサンプル外問題に対処可能であることを示す。
論文参考訳（メタデータ） (2020-07-11T10:57:45Z)
Role-Wise Data Augmentation for Knowledge Distillation [48.115719640111394]
知識蒸留(KD)は、ある機械学習モデルから学んだ知識を別の機械学習モデルに転送する一般的な方法である。我々は、知識蒸留を促進するために、異なる役割を持つデータ増強剤を設計する。特別に調整されたデータポイントが、教師の知識をより効果的に生徒に示せることを実証的に見出した。
論文参考訳（メタデータ） (2020-04-19T14:22:17Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。