論文の概要: Advantage-Guided Distillation for Preference Alignment in Small Language Models
- arxiv url: http://arxiv.org/abs/2502.17927v1
- Date: Tue, 25 Feb 2025 07:47:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-26 18:41:02.196537
- Title: Advantage-Guided Distillation for Preference Alignment in Small Language Models
- Title(参考訳): 小言語モデルにおける優先調整のためのアドバンテージガイド付き蒸留法
- Authors: Shiping Gao, Fanqi Wan, Jiajian Guo, Xiaojun Quan, Qifan Wang,
- Abstract要約: そこで本研究では,小言語モデルのアライメントプロセスの指針として,教師のLLMを活用することを提案する。
実験の結果、これらの2つの手法は、SLMのアライメントを良好に改善し、より大きなものとの性能ギャップを狭めることを示した。
- 参考スコア(独自算出の注目度): 37.1672515839325
- License:
- Abstract: Alignment techniques enable Large Language Models (LLMs) to generate outputs that align with human preferences and play a crucial role in their effectiveness. However, their impact often diminishes when applied to Small Language Models (SLMs), likely due to the limited capacity of these models. Instead of directly applying existing alignment techniques to SLMs, we propose to utilize a well-aligned teacher LLM to guide the alignment process for these models, thereby facilitating the transfer of the teacher's knowledge of human preferences to the student model. To achieve this, we first explore a straightforward approach, Dual-Constrained Knowledge Distillation (DCKD), that employs knowledge distillation with two KL-divergence constraints from the aligned teacher to the unaligned student. To further enhance the student's ability to distinguish between preferred and dispreferred responses, we then propose Advantage-Guided Distillation for Preference Alignment (ADPA), which leverages an advantage function from the aligned teacher to deliver more nuanced, distribution-level reward signals for the student's alignment. Our experimental results show that these two approaches appreciably improve the alignment of SLMs and narrow the performance gap with larger counterparts. Among them, ADPA demonstrates superior performance and achieves even greater effectiveness when integrated with DCKD. Our code is available at https://github.com/SLIT-AI/ADPA.
- Abstract(参考訳): 調整技術により、Large Language Models (LLM) は人間の好みに合わせて出力を生成し、その効果において重要な役割を果たすことができる。
しかしながら、Small Language Models (SLM) に適用すると、その影響は減少することが多い。
本研究では,従来のアライメント技術を直接SLMに適用するのではなく,これらのモデルのアライメントプロセスのガイドとして,教師の人間の好みに関する知識を学生モデルに伝達することを提案する。
そこで我々はまず, 教師から生徒へのKL分割制約を2つ有する知識蒸留(DCKD)を導入する, 直接的アプローチであるDual-Constrained Knowledge Distillation(DCKD)について検討する。
さらに, 学生の好ましくない反応と好ましくない反応を区別する能力を高めるために, 教師の優位性を利用して, 生徒のアライメントに対して, よりニュアンスな分布レベルの報酬信号を提供するAdvantage-Guided Distillation for Preference Alignment (ADPA)を提案する。
実験の結果、これらの2つの手法は、SLMのアライメントを良好に改善し、より大きなものとの性能ギャップを狭めることを示した。
その中でもADPAは優れた性能を示し、DCKDと統合するとさらに有効性を発揮する。
私たちのコードはhttps://github.com/SLIT-AI/ADPA.comで公開されています。
関連論文リスト
- Capturing Nuanced Preferences: Preference-Aligned Distillation for Small Language Models [22.613040767122225]
教師の選好知識を全ての潜在的選好に対する確率分布としてモデル化した選好適応蒸留フレームワークを提案する。
4つの主流アライメントベンチマークの実験では、PADが既存のアプローチよりも一貫して、大幅に優れていることが示されている。
論文 参考訳(メタデータ) (2025-02-20T05:18:23Z) - TAS: Distilling Arbitrary Teacher and Student via a Hybrid Assistant [52.0297393822012]
異質な教師と学生間の機能的知識の伝達を容易にするために,橋梁としてアシスタントモデルを導入する。
提案した設計原理の中では, クロスアーキテクチャ帰納バイアスとモジュール関数の利点を組み合わせたアシスタントモデルが提案されている。
提案手法は, CNN, ViT, 空間KDの同種モデルペアと任意の異種組み合わせを用いて評価する。
論文 参考訳(メタデータ) (2024-10-16T08:02:49Z) - Direct Preference Knowledge Distillation for Large Language Models [73.50849692633953]
大規模言語モデル(LLM)のためのDPKD(Direct Preference Knowledge Distillation)を提案する。
我々はLLMのKDを、暗黙の報酬と逆のKL分岐からなる最適化と目的の2段階に再構成する。
実験と理論的解析により,KDにおける暗黙の報酬と出力選好の価値と効果を証明した。
論文 参考訳(メタデータ) (2024-06-28T09:23:40Z) - Adversarial Moment-Matching Distillation of Large Language Models [3.9160947065896803]
知識蒸留(KD)は、より大きな教師モデルで学生モデルを導くのに非常に効果的であることが示されている。
そこで本稿では,モーメントマッチング距離を推定し,学生のポリシーを最適化して最小化するための逆トレーニングアルゴリズムを提案する。
タスクに依存しない指示追従実験とタスク固有の実験の両方の結果から,本手法の有効性が示された。
論文 参考訳(メタデータ) (2024-06-05T05:27:29Z) - PLaD: Preference-based Large Language Model Distillation with Pseudo-Preference Pairs [47.35598271306371]
大きな言語モデル(LLM)は、様々なタスクにおいて印象的な機能を示しているが、その膨大なパラメータサイズは、リソース制約のある設定での適用性を制限している。
知識蒸留(KD)は、大規模な教師モデルからコンパクトな学生モデルに専門知識を移すことによって、実行可能なソリューションを提供する。
PLaD は新規な嗜好に基づく LLM 蒸留フレームワークである。
論文 参考訳(メタデータ) (2024-06-05T03:08:25Z) - Self-Refine Instruction-Tuning for Aligning Reasoning in Language Models [0.8133739801185272]
小さい言語モデルと大きい言語モデルの間の推論能力のアライメントは、主にスーパーバイザード・ファイン・チューニング(SFT)を通して行われる。
そこで本研究では,より小さな言語モデルを用いて自己定義する自己記述型指導手法を提案する。
コモンセンスと数学の推論タスクで得られた結果は、このアプローチがドメイン内とドメイン外の両方のシナリオでインストラクションチューニングを著しく上回っていることを示している。
論文 参考訳(メタデータ) (2024-05-01T09:10:27Z) - Weakly Supervised Semantic Segmentation via Alternative Self-Dual
Teaching [82.71578668091914]
本稿では,分類とマスク・リファインメント・コンポーネントを統合された深層モデルに組み込む,コンパクトな学習フレームワークを確立する。
本稿では,高品質な知識相互作用を促進するために,新たな自己双対学習(ASDT)機構を提案する。
論文 参考訳(メタデータ) (2021-12-17T11:56:56Z) - Contrastive Distillation on Intermediate Representations for Language
Model Compression [89.31786191358802]
本稿では,中間表現に関するコントラスト蒸留(Contrastive Distillation on Intermediate Representation, CoDIR)について, 基本知識蒸留フレームワークとして提案する。
ポジティブなサンプルと大量のネガティブなサンプルを区別することを学ぶことで、CoDIRは教師の隠れた層におけるリッチな情報の利用を促進する。
CoDIRは、事前学習と微調整の両方の段階で大規模言語モデルに容易に適用でき、GLUEベンチマークで最高性能を達成できる。
論文 参考訳(メタデータ) (2020-09-29T17:31:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。