論文の概要: Find Your Optimal Teacher: Personalized Data Synthesis via Router-Guided Multi-Teacher Distillation
- arxiv url: http://arxiv.org/abs/2510.10925v1
- Date: Mon, 13 Oct 2025 02:36:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 18:06:30.156383
- Title: Find Your Optimal Teacher: Personalized Data Synthesis via Router-Guided Multi-Teacher Distillation
- Title(参考訳): 最適な教師を見つける:ルータ誘導多教師蒸留による個人化データ合成
- Authors: Hengyuan Zhang, Shiping Yang, Xiao Liang, Chenming Shang, Yuxuan Jiang, Chaofan Tao, Jing Xiong, Hayden Kwok-Hay So, Ruobing Xie, Angel X. Chang, Ngai Wong,
- Abstract要約: PerSynは、各学生モデルに適したデータを作成するために、新しいRoute、Generateのパラダイムの下で運用されている。
モデルファミリとスケールの異なる実験は、PerSynが一貫して優れたパフォーマンスまたは同等のパフォーマンスを達成していることを示している。
- 参考スコア(独自算出の注目度): 47.814833568523255
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Training student models on synthetic data generated by strong teacher models is a promising way to distilling the capabilities of teachers. However, recent studies show that stronger models are not always optimal teachers, revealing a mismatch between teacher outputs and student learnability. To address this issue, we propose PerSyn (Personalized data Synthesis), a novel synthesis strategy that operates under a new ``Route then Generate'' paradigm to create data tailored to each student model, enabling it to learn more effectively. Specifically, PerSyn first assigns each prompt to its optimal teacher via a query-level router that jointly considers student learnability and teacher response quality. Each teacher then synthesizes data only for its assigned prompts, making the process more efficient than the conventional ``Generate then Select'' paradigm, where all teachers must generate parallel responses for the entire prompt set before constructing the final dataset. Extensive experiments across different model families and scales demonstrate that PerSyn consistently achieves superior or comparable performance to all baselines in instruct tuning and math reasoning settings. Further analysis verifies the effectiveness of PerSyn and offers extra insights to propel future research.
- Abstract(参考訳): 強力な教師モデルによって生成された合成データを学習する学生モデルは、教師の能力を蒸留する有望な方法である。
しかし、最近の研究では、より強力なモデルが必ずしも最適な教師であるとは限らないことが示されており、教師のアウトプットと学生の学習能力のミスマッチが明らかになっている。
この問題に対処するために,新たな‘Route then Generate’パラダイムの下で機能する新しい合成戦略であるPerSyn(Personalized Data Synthesis)を提案する。
具体的には、PerSynはまず各プロンプトを、学生の学習性と教師の反応品質を共同で検討するクエリレベルルータを介して、最適な教師に割り当てる。
各教師は、割り当てられたプロンプトのためにのみデータを合成し、プロセスが従来の `Generate then Select'' パラダイムよりも効率的になる。
異なるモデルファミリやスケールにわたる大規模な実験により、PerSynはインストラクションチューニングや数学推論の設定において、すべてのベースラインに対して一貫して優れた、あるいは同等のパフォーマンスを達成している。
さらなる分析はPerSynの有効性を検証し、将来の研究を促進するための追加の洞察を提供する。
関連論文リスト
- Montessori-Instruct: Generate Influential Training Data Tailored for Student Learning [18.5518735004289]
我々は,教師言語モデルの学習プロセスに向けて,教師言語モデルのデータ合成能力を調整した新しいデータ合成フレームワークであるMontessori-Instructを提案する。
モンテッソーリ・インストラクトは標準合成法を18.35%、46.24%で大幅に上回っている。
論文 参考訳(メタデータ) (2024-10-18T06:50:15Z) - SynthesizRR: Generating Diverse Datasets with Retrieval Augmentation [55.2480439325792]
トピック分類,感情分析,トーン検出,ユーモアの6つのデータセットの合成について検討した。
その結果,SynthesizRRは語彙や意味の多様性,人文との類似性,蒸留性能を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2024-05-16T12:22:41Z) - YODA: Teacher-Student Progressive Learning for Language Models [82.0172215948963]
本稿では,教師が指導するプログレッシブ・ラーニング・フレームワークであるYodaを紹介する。
モデルファインチューニングの有効性を向上させるために,教師の教育過程をエミュレートする。
実験の結果, YODAのデータによるLLaMA2のトレーニングにより, SFTは大幅に向上した。
論文 参考訳(メタデータ) (2024-01-28T14:32:15Z) - JEDI: Joint Expert Distillation in a Semi-Supervised Multi-Dataset
Student-Teacher Scenario for Video Action Recognition [29.67402932890899]
マルチデータセットに基づく半教師付き学習手法であるJEDIを提案する。
複数の専門家の知識を効率よく組み合わせ、異なるデータセットで学習し、個々のデータセット毎、学生モデルのパフォーマンスをトレーニングし改善する。
論文 参考訳(メタデータ) (2023-08-09T13:09:07Z) - Customizing Synthetic Data for Data-Free Student Learning [6.8080936803807734]
DFKDは、オリジナルトレーニングデータなしで軽量な学生モデルを得ることを目指している。
生徒モデルをより効果的に訓練するために、合成データを現在の学生学習能力に合わせてカスタマイズする。
本稿では,データ自由学習(CSD)のための合成データのカスタマイズを提案する。
論文 参考訳(メタデータ) (2023-07-10T13:17:29Z) - EmbedDistill: A Geometric Knowledge Distillation for Information
Retrieval [83.79667141681418]
大規模なニューラルモデル(トランスフォーマーなど)は、情報検索(IR)のための最先端のパフォーマンスを達成する
本研究では,大規模教師モデルで学習したクエリとドキュメント間の相対的幾何を利用した新しい蒸留手法を提案する。
提案手法は, 両エンコーダ (DE) とクロスエンコーダ (CE) の2種類の教師モデルから, 95~97%の教師性能を維持できる1/10の非対称な学生への蒸留に成功した。
論文 参考訳(メタデータ) (2023-01-27T22:04:37Z) - Synthetic data generation method for data-free knowledge distillation in
regression neural networks [0.0]
知識蒸留は、教師として知られる大きなニューラルネットワークを、学生として知られる小さなニューラルネットワークに圧縮する技術である。
従来, 学生モデルに逆らって学習したジェネレータモデルを用いて, 合成データを生成可能なデータフリー知識蒸留法が提案されてきた。
本研究では, 各種合成データ生成手法の挙動について検討し, 新たな合成データ生成戦略を提案する。
論文 参考訳(メタデータ) (2023-01-11T07:26:00Z) - Distantly-Supervised Named Entity Recognition with Adaptive Teacher
Learning and Fine-grained Student Ensemble [56.705249154629264]
NERモデルの堅牢性を改善するために,自己学習型教員学生フレームワークを提案する。
本稿では,2つの教員ネットワークからなる適応型教員学習を提案する。
微粒な学生アンサンブルは、教師モデルの各フラグメントを、生徒の対応するフラグメントの時間移動平均で更新し、各モデルフラグメントのノイズに対する一貫した予測を強化する。
論文 参考訳(メタデータ) (2022-12-13T12:14:09Z) - Iterative Teacher-Aware Learning [136.05341445369265]
人間の教育において、教師と学生はコミュニケーション効率を最大化するために適応的に交流することができる。
本稿では,教師の協調意図を可能性関数に組み込むことができる,勾配最適化に基づく教師認識学習者を提案する。
論文 参考訳(メタデータ) (2021-10-01T00:27:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。