論文の概要: Sparse Teachers Can Be Dense with Knowledge
- arxiv url: http://arxiv.org/abs/2210.03923v1
- Date: Sat, 8 Oct 2022 05:25:34 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-11 14:49:27.953992
- Title: Sparse Teachers Can Be Dense with Knowledge
- Title(参考訳): まばらな教師は知識に密集し
- Authors: Yi Yang, Chen Zhang, Dawei Song
- Abstract要約: 本稿では,各教師パラメータに対する総合的知識スコアの指導の下で,スパースな教師のトリックを提案する。
学生が親しみやすいパラメータを除去しながら、表現的パラメータを確実に保持することを目的としている。
GLUEベンチマークの実験では、提案された疎外教師は知識に密着し、魅力的なパフォーマンスを持つ学生に導かれることが示されている。
- 参考スコア(独自算出の注目度): 35.83646432932867
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in distilling pretrained language models have discovered
that, besides the expressiveness of knowledge, the student-friendliness should
be taken into consideration to realize a truly knowledgable teacher. Based on a
pilot study, we find that over-parameterized teachers can produce expressive
yet student-unfriendly knowledge, and are thus limited in overall
knowledgableness. To remove the parameters that result in
student-unfriendliness, we propose a sparse teacher trick under the guidance of
an overall knowledgable score for each teacher parameter. The knowledgable
score is essentially an interpolation of the expressiveness and
student-friendliness scores. The aim is to ensure that the expressive
parameters are retained while the student-unfriendly ones are removed.
Extensive experiments on the GLUE benchmark show that the proposed sparse
teachers can be dense with knowledge and lead to students with compelling
performance in comparison with a series of competitive baselines.
- Abstract(参考訳): プレトレーニング言語モデルの蒸留の最近の進歩は、知識の表現性以外にも、真に理解可能な教師を実現するために、学生の親しみを考慮すべきである。
パイロット実験の結果,過剰なパラメータを持つ教師は,表現力に富み,生徒にやさしい知識を生み出すことができることがわかった。
そこで,生徒の親しみの結果として得られるパラメータを取り除くために,教師のパラメータごとに学習可能な総合スコアを指導する教師のトリックを提案する。
knowledgableスコアは、基本的に表現力と学生フレンドリーなスコアの補間である。
学生が親しみやすいパラメータを除去しながら、表現的パラメータを確実に保持することを目的としている。
glueベンチマークの広範な実験により,提案する教師は知識に密接な関係にあり,競争ベースラインと比較し,説得力のある成績を示すことができることが示された。
関連論文リスト
- Representational Alignment Supports Effective Machine Teaching [81.19197059407121]
我々は,機械教育の知見と実践的なコミュニケーションを,表現的アライメントに関する文献と統合する。
教師の精度から表現的アライメントを遠ざける教師付き学習環境を設計する。
論文 参考訳(メタデータ) (2024-06-06T17:48:24Z) - Can Language Models Teach Weaker Agents? Teacher Explanations Improve
Students via Personalization [84.86241161706911]
教師のLLMは、実際に生徒の推論に介入し、パフォーマンスを向上させることができることを示す。
また,マルチターンインタラクションでは,教師による説明が一般化され,説明データから学習されることを示す。
教師のミスアライメントが学生の成績をランダムな確率に低下させることを、意図的に誤解させることで検証する。
論文 参考訳(メタデータ) (2023-06-15T17:27:20Z) - Computationally Identifying Funneling and Focusing Questions in
Classroom Discourse [24.279653100481863]
本稿では,授業談話におけるファネリングと集中型質問を計算的に検出するタスクを提案する。
ファネリングと集中型質問にラベル付けされた2,348の教師発話の注釈付きデータセットをリリースする。
我々の最高のモデルである教師付きRoBERTaモデルは、データセットに微調整され、人間の専門家ラベルと.76の強い線形相関と、ポジティブな教育結果を持つ。
論文 参考訳(メタデータ) (2022-07-08T01:28:29Z) - Better Teacher Better Student: Dynamic Prior Knowledge for Knowledge
Distillation [70.92135839545314]
本研究では,教師の持つ特徴の一部を,特徴蒸留前の先行知識として統合した動的事前知識(DPK)を提案する。
DPKは,教員モデルと生徒モデルのパフォーマンスを正に相関させ,より大きな教員を適用することで生徒の精度をさらに高めることができる。
論文 参考訳(メタデータ) (2022-06-13T11:52:13Z) - Generalized Knowledge Distillation via Relationship Matching [53.69235109551099]
よく訓練されたディープニューラルネットワーク(いわゆる「教師」)の知識は、同様のタスクを学ぶのに有用である。
知識蒸留は教師から知識を抽出し、対象モデルと統合する。
教師に学生と同じ仕事をさせる代わりに、一般のラベル空間から訓練を受けた教師の知識を借りる。
論文 参考訳(メタデータ) (2022-05-04T06:49:47Z) - Does Knowledge Distillation Really Work? [106.38447017262183]
知識蒸留は学生の一般化を改善することができるが、一般的に理解されているようには機能しない。
学生が教師に合わない理由として,最適化の難しさがあげられる。
論文 参考訳(メタデータ) (2021-06-10T17:44:02Z) - Distilling Knowledge via Intermediate Classifier Heads [0.5584060970507505]
知識蒸留は、事前訓練されたより大きな教師モデルのガイドを用いて、リソース限定の学生モデルを訓練するためのトランスファーラーニングアプローチである。
キャパシティギャップの影響を軽減するため,中間頭部による知識蒸留を導入する。
種々の教師と学生のペアとデータセットに関する実験により,提案手法が標準知識蒸留法よりも優れていることを示した。
論文 参考訳(メタデータ) (2021-02-28T12:52:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。