論文の概要: Who Taught You That? Tracing Teachers in Model Distillation
- arxiv url: http://arxiv.org/abs/2502.06659v1
- Date: Mon, 10 Feb 2025 16:48:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-11 14:32:41.171844
- Title: Who Taught You That? Tracing Teachers in Model Distillation
- Title(参考訳): 誰がそれをやったのか? モデル蒸留で教師を追跡中
- Authors: Somin Wadhwa, Chantal Shaib, Silvio Amir, Byron C. Wallace,
- Abstract要約: 学生の先生はアウトプットに基づいて特定できますか?
本稿では, 要約, 質問応答, 指示追従を含む実作業蒸留の目標について検討する。
語彙的特徴を用いた識別モデルの設計を行う。
- 参考スコア(独自算出の注目度): 23.566776089005963
- License:
- Abstract: Model distillation -- using outputs from a large teacher model to teach a small student model -- is a practical means of creating efficient models for a particular task. We ask: Can we identify a students' teacher based on its outputs? Such "footprints" left by teacher LLMs would be interesting artifacts. Beyond this, reliable teacher inference may have practical implications as actors seek to distill specific capabilities of massive proprietary LLMs into deployed smaller LMs, potentially violating terms of service. We consider practical task distillation targets including summarization, question answering, and instruction-following. We assume a finite set of candidate teacher models, which we treat as blackboxes. We design discriminative models that operate over lexical features. We find that $n$-gram similarity alone is unreliable for identifying teachers, but part-of-speech (PoS) templates preferred by student models mimic those of their teachers.
- Abstract(参考訳): モデルの蒸留 -- 大規模な教師モデルからの出力を使用して、小さな学生モデルを教える -- は、特定のタスクのために効率的なモデルを作成する実践的な手段である。
学生の先生はアウトプットに基づいて特定できますか?
教師のLLMが残したこのような「フットプリント」は興味深い人工物である。
さらに、信頼性の高い教師の推論は、アクターが大規模プロプライエタリなLDMの特定の能力をより小さなLMに蒸留し、サービス規約に違反している可能性があるため、実践的な意味を持つ可能性がある。
本稿では, 要約, 質問応答, 指示追従を含む実作業蒸留の目標について検討する。
候補となる教師モデルの有限集合を仮定し、ブラックボックスとして扱う。
語彙的特徴を用いた識別モデルの設計を行う。
教師を識別するには$n$-gramの類似性だけでは信頼できないが,学生モデルで好まれるPoSテンプレートは教師を模倣している。
関連論文リスト
- Exploring and Enhancing the Transfer of Distribution in Knowledge Distillation for Autoregressive Language Models [62.5501109475725]
知識蒸留(KD)は、より小さな学生モデルを模倣するように訓練することで、大きな教師モデルを圧縮する技術である。
本稿では、教師ネットワークが小さなオンラインモジュールを統合し、学生モデルと同時学習するオンライン知識蒸留(OKD)について紹介する。
OKDは、様々なモデルアーキテクチャやサイズにおけるリードメソッドのパフォーマンスを達成または超え、トレーニング時間を最大4倍に短縮する。
論文 参考訳(メタデータ) (2024-09-19T07:05:26Z) - Aligning Teacher with Student Preferences for Tailored Training Data Generation [40.85451525264779]
StudenT PreferencEs を用いた Aligning TeacheR という ARTE を提案する。
具体的には,教師モデルから質問文と合理性を抽出し,これらの質問文と合理性に関する学生の嗜好を収集する。
最後に,教師モデルと協調する第1ステップを繰り返すことで,対象課題における生徒モデルに適した訓練例を提示する。
論文 参考訳(メタデータ) (2024-06-27T14:51:17Z) - PLaD: Preference-based Large Language Model Distillation with Pseudo-Preference Pairs [47.35598271306371]
大きな言語モデル(LLM)は、様々なタスクにおいて印象的な機能を示しているが、その膨大なパラメータサイズは、リソース制約のある設定での適用性を制限している。
知識蒸留(KD)は、大規模な教師モデルからコンパクトな学生モデルに専門知識を移すことによって、実行可能なソリューションを提供する。
PLaD は新規な嗜好に基づく LLM 蒸留フレームワークである。
論文 参考訳(メタデータ) (2024-06-05T03:08:25Z) - Toward In-Context Teaching: Adapting Examples to Students' Misconceptions [54.82965010592045]
本稿ではAdapTと呼ばれる一連のモデルと評価手法を紹介する。
AToMは、学生の過去の信念を共同で推論し、将来の信念の正しさを最適化する適応教育の新しい確率論的モデルである。
本研究は,適応型学習課題の難しさと,それを解決するための学習適応モデルの可能性を両立させるものである。
論文 参考訳(メタデータ) (2024-05-07T17:05:27Z) - Large Language Models are In-context Teachers for Knowledge Reasoning [8.869111204842248]
本研究では,教師が無意味な事例の推論を学生に教えるため,インコンテクスト教育(ICT)について検討する。
我々は,大規模言語モデル (LLM) が,人間と比較して,自己や他のLLMに対して,より効果的なテキスト内教師として機能するかどうかを問う。
論文 参考訳(メタデータ) (2023-11-12T23:14:43Z) - Representation Consolidation for Training Expert Students [54.90754502493968]
マルチヘッド多タスク蒸留法は,タスク固有の教師の表現を集約し,下流のパフォーマンスを向上させるのに十分であることを示す。
また,本手法では,複数のドメインで訓練された複数の教師の表現的知識を1つのモデルに組み合わせることができる。
論文 参考訳(メタデータ) (2021-07-16T17:58:18Z) - One Teacher is Enough? Pre-trained Language Model Distillation from
Multiple Teachers [54.146208195806636]
本稿では,事前学習型言語モデル圧縮のためのMT-BERTという多言語知識蒸留フレームワークを提案する。
MT-BERTは、複数の教師PLMから高品質な学生モデルを訓練できることを示す。
PLMの圧縮におけるMT-BERTの有効性を3つのベンチマークデータセットで検証した。
論文 参考訳(メタデータ) (2021-06-02T08:42:33Z) - Reinforced Multi-Teacher Selection for Knowledge Distillation [54.72886763796232]
知識蒸留はモデル圧縮の一般的な方法です。
現在の方法は、蒸留全体の教師モデルに固定重量を割り当てます。
既存のメソッドのほとんどは、すべての教師モデルに等しい重みを割り当てます。
本論文では,学習例の複雑性や生徒モデル能力の違いから,教師モデルとの違いを学習することで,生徒モデルの蒸留性能の向上が期待できることを考察する。
論文 参考訳(メタデータ) (2020-12-11T08:56:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。