論文の概要: On Teacher Hacking in Language Model Distillation
- arxiv url: http://arxiv.org/abs/2502.02671v1
- Date: Tue, 04 Feb 2025 19:26:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-06 14:29:31.672426
- Title: On Teacher Hacking in Language Model Distillation
- Title(参考訳): 言語モデル蒸留における教師のハッキングについて
- Authors: Daniil Tiapkin, Daniele Calandriello, Johan Ferret, Sarah Perrin, Nino Vieillard, Alexandre Ramé, Mathieu Blondel,
- Abstract要約: 我々は,教師のハッキングと呼ばれる同様の現象が,知識蒸留中に起こりうるかどうかを考察する。
これは、教師LMがそれ自体が真の分布の完全な近似であるからである。
オンラインデータ生成技術は、教師のハッキングを効果的に軽減する。
- 参考スコア(独自算出の注目度): 61.19867259475047
- License:
- Abstract: Post-training of language models (LMs) increasingly relies on the following two stages: (i) knowledge distillation, where the LM is trained to imitate a larger teacher LM, and (ii) reinforcement learning from human feedback (RLHF), where the LM is aligned by optimizing a reward model. In the second RLHF stage, a well-known challenge is reward hacking, where the LM over-optimizes the reward model. Such phenomenon is in line with Goodhart's law and can lead to degraded performance on the true objective. In this paper, we investigate whether a similar phenomenon, that we call teacher hacking, can occur during knowledge distillation. This could arise because the teacher LM is itself an imperfect approximation of the true distribution. To study this, we propose a controlled experimental setup involving: (i) an oracle LM representing the ground-truth distribution, (ii) a teacher LM distilled from the oracle, and (iii) a student LM distilled from the teacher. Our experiments reveal the following insights. When using a fixed offline dataset for distillation, teacher hacking occurs; moreover, we can detect it by observing when the optimization process deviates from polynomial convergence laws. In contrast, employing online data generation techniques effectively mitigates teacher hacking. More precisely, we identify data diversity as the key factor in preventing hacking. Overall, our findings provide a deeper understanding of the benefits and limitations of distillation for building robust and efficient LMs.
- Abstract(参考訳): 言語モデル(LM)のポストトレーニングは、次の2つの段階に依存している。
一 知識蒸留であって、より大きな教員のLMを模倣する訓練を施し、
(II)人間フィードバックからの強化学習(RLHF)では,報酬モデルの最適化によりLMが整列する。
第2のRLHF段階では、LMが報酬モデルを過度に最適化する報酬ハックがよく知られている。
このような現象はグッドハートの法則と一致しており、真の目的に対する劣化したパフォーマンスにつながる可能性がある。
本稿では,教師のハッキングと呼ばれる同様の現象が,知識蒸留中に発生するかどうかを考察する。
これは、教師LMがそれ自体が真の分布の完全な近似であるからである。
そこで本研究では, 制御された実験装置を提案する。
一 地勢分布を表すオラクルLM
二 宣誓供述書から蒸留した教師LM及び
(三)教師から蒸留した学生LM。
実験の結果,以下の知見が得られた。
蒸留に固定されたオフラインデータセットを使用すると、教師のハッキングが発生し、最適化プロセスが多項式収束法則から逸脱したことを観察することで検出できる。
対照的に、オンラインデータ生成技術を利用することは、教師のハッキングを効果的に軽減する。
より正確には、データの多様性がハッキングを防ぐ重要な要素だと考えています。
総じて, 本研究は, 蒸留の利点と限界をより深く理解し, 堅牢かつ効率的な LM の構築に役立てるものである。
関連論文リスト
- Pre-training Distillation for Large Language Models: A Design Space Exploration [54.67324039434781]
予習蒸留は、大きな教師モデルからより小さな学生モデルに知識を移すことを目的としている。
我々は, プレトレーニング蒸留の設計空間を探索し, より良い構成を求める実験を行った。
我々は, 設計分野の探究が, 予修蒸留の今後の実践に影響を及ぼすことを期待している。
論文 参考訳(メタデータ) (2024-10-21T17:16:13Z) - Knowledge Distillation with Refined Logits [31.205248790623703]
本稿では,現在のロジット蒸留法の限界に対処するため,Refined Logit Distillation (RLD)を導入する。
我々のアプローチは、高性能な教師モデルでさえ誤った予測をすることができるという観察に動機づけられている。
本手法は,教師からの誤解を招く情報を,重要なクラス相関を保ちながら効果的に排除することができる。
論文 参考訳(メタデータ) (2024-08-14T17:59:32Z) - Multi-Granularity Semantic Revision for Large Language Model Distillation [66.03746866578274]
LLM蒸留における多粒性セマンティックリビジョン法を提案する。
シーケンスレベルでは、シーケンス修正と再生戦略を提案する。
トークンレベルでは、蒸留目的関数として、Kulback-Leibler損失を補正する分布適応クリッピングを設計する。
スパンレベルでは、シーケンスのスパン前処理を利用して、スパン内の確率相関を計算し、教師と学生の確率相関を一貫性に制約する。
論文 参考訳(メタデータ) (2024-07-14T03:51:49Z) - Can Small Language Models Help Large Language Models Reason Better?: LM-Guided Chain-of-Thought [51.240387516059535]
タスク推論において,ブラックボックスの大きな (>10B) LMを導くために,軽量 (すなわち 1B) 言語モデル (LM) を利用する新しいフレームワーク LM-Guided CoT を導入する。
1)知識蒸留と2)合理性指向とタスク指向の報酬信号からの強化学習を通してモデルを最適化する。
論文 参考訳(メタデータ) (2024-04-04T12:46:37Z) - Democratizing Reasoning Ability: Tailored Learning from Large Language
Model [97.4921006089966]
そこで我々は,そのような推論能力をより小さなLMに蒸留する,適切な学習手法を提案する。
対話型多ラウンド学習パラダイムを構築することにより,理科教員としてのLLMの可能性を活用する。
より小さなLMの推論可能性を活用するために,学生が自作ミスから学習する動機付けを目的とした自己回帰学習を提案する。
論文 参考訳(メタデータ) (2023-10-20T07:50:10Z) - SCOTT: Self-Consistent Chain-of-Thought Distillation [68.40232422158569]
大規模言語モデル(LM)は、チェーン・オブ・シークレット・プロンプトを通じて予測のための自由テキスト論理を生成する。
そこで本研究では,教師モデルから,小規模で自己整合的なCoTモデルを学習するための忠実な知識蒸留法を提案する。
忠実蒸留を確実にするために,教師生成の合理性を用いて,反実的推論目的の学生LMを学習する。
論文 参考訳(メタデータ) (2023-05-03T03:47:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。