論文の概要: Capturing Nuanced Preferences: Preference-Aligned Distillation for Small Language Models
- arxiv url: http://arxiv.org/abs/2502.14272v1
- Date: Thu, 20 Feb 2025 05:18:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-21 14:29:48.765862
- Title: Capturing Nuanced Preferences: Preference-Aligned Distillation for Small Language Models
- Title(参考訳): 栄養素の選好を捉える:小言語モデルに対する嗜好に適応した蒸留
- Authors: Yanggan Gu, Junzhuo Li, Sirui Huang, Xin Zou, Zhenghua Li, Xuming Hu,
- Abstract要約: 教師の選好知識を全ての潜在的選好に対する確率分布としてモデル化した選好適応蒸留フレームワークを提案する。
4つの主流アライメントベンチマークの実験では、PADが既存のアプローチよりも一貫して、大幅に優れていることが示されている。
- 参考スコア(独自算出の注目度): 22.613040767122225
- License:
- Abstract: Aligning small language models (SLMs) with human values typically involves distilling preference knowledge from large language models (LLMs). However, existing distillation methods model preference knowledge in teacher LLMs by comparing pairwise responses, overlooking the extent of difference between responses. This limitation hinders student SLMs from capturing the nuanced preferences for multiple responses. In this paper, we propose a Preference-Aligned Distillation (PAD) framework, which models teacher's preference knowledge as a probability distribution over all potential preferences, thereby providing more nuanced supervisory signals. Our insight in developing PAD is rooted in the demonstration that language models can serve as reward functions, reflecting their intrinsic preferences. Based on this, PAD comprises three key steps: (1) sampling diverse responses using high-temperature; (2) computing rewards for both teacher and student to construct their intrinsic preference; and (3) training the student's intrinsic preference distribution to align with the teacher's. Experiments on four mainstream alignment benchmarks demonstrate that PAD consistently and significantly outperforms existing approaches, achieving over 20\% improvement on AlpacaEval 2 and Arena-Hard, indicating superior alignment with human preferences. Notably, on MT-Bench, using the \textsc{Gemma} model family, the student trained by PAD surpasses its teacher, further validating the effectiveness of our PAD.
- Abstract(参考訳): 人的価値を持つ小さな言語モデル(SLM)の調整は通常、大きな言語モデル(LLM)から好みの知識を蒸留する。
しかし, 従来の蒸留法では, 相互応答を比較することで, 教師のLLMにおける嗜好知識をモデル化している。
この制限により、学生のSLMは、複数の応答に対する微妙な好みをキャプチャすることを妨げる。
本稿では,教師の選好知識を全ての潜在的選好の確率分布としてモデル化し,よりニュアンスな監視信号を提供する,選好調整蒸留(Preference-Aligned Distillation,PAD)フレームワークを提案する。
PADの開発に関する私たちの洞察は、言語モデルが報酬関数として機能し、本質的な嗜好を反映する、という実証に根ざしています。
PADは,(1)高温を用いた多様な応答の抽出,(2)教師と学生が本質的な嗜好を構築するための計算報酬,(3)教師に合わせた本質的な嗜好分布の学習,という3つの重要なステップから構成される。
4つの主流アライメントベンチマークの実験では、PADが既存のアプローチを一貫して大幅に上回り、AlpacaEval 2 と Arena-Hard を 20 % 改善した。
特に MT-Bench では PAD で訓練した生徒は MT-Bench で textsc{Gemma} モデルファミリを用いて, 教師を超越して PAD の有効性を検証した。
関連論文リスト
- Joint Training for Selective Prediction [5.662924503089369]
選択予測法は、分類器の出力をいつ採用するか、人間に延期するかを決定する。
以前の方法の1つは、エンジニアリングされた特徴に基づいて遅延モデルを学習することである。
分類器モジュールが使用する学習表現と学習遅延ポリシーを同時に最適化する新しい共同学習手法を提案する。
論文 参考訳(メタデータ) (2024-10-31T15:28:26Z) - Beyond Bradley-Terry Models: A General Preference Model for Language Model Alignment [51.14207112118503]
我々は、優先順位を効率的に捉えるために、応答を潜在空間に埋め込むアプローチである選好埋め込みを導入する。
また、人間からのフィードバックから報酬に基づく強化学習を一般化する嗜好スコアに基づく一般選好最適化(GPO)を提案する。
提案手法は,基礎モデルの微妙な人的価値との整合性を高めることができる。
論文 参考訳(メタデータ) (2024-10-03T04:22:55Z) - Multi-Type Preference Learning: Empowering Preference-Based Reinforcement Learning with Equal Preferences [12.775486996512434]
嗜好に基づく強化学習は、エージェント行動に関する人間教師の嗜好から直接学習する。
既存のPBRL法はしばしば明示的な選好から学習し、教師が平等な選好を選択する可能性を無視している。
そこで本稿では,PBRL手法であるMulti-Type Preference Learning (MTPL)を提案する。
論文 参考訳(メタデータ) (2024-09-11T13:43:49Z) - Interactive DualChecker for Mitigating Hallucinations in Distilling Large Language Models [7.632217365130212]
大規模言語モデル(LLM)は、さまざまな機械学習(ML)タスクにまたがる例外的な機能を示している。
これらのモデルは、特に不完全な知識を持つ領域において幻覚を生み出すことができる。
幻覚を緩和し,教師モデルと学生モデルの両方のパフォーマンスを向上させるために設計された,革新的なフレームワークであるDualCheckerを紹介する。
論文 参考訳(メタデータ) (2024-08-22T12:04:04Z) - Secrets of RLHF in Large Language Models Part II: Reward Modeling [134.97964938009588]
本稿では,データセットにおける不正確で曖昧な嗜好の影響を軽減するために,一連の新しい手法を紹介する。
また、選択された応答と拒否された応答を区別する報酬モデルの有用性を高めるために、対照的な学習を導入する。
論文 参考訳(メタデータ) (2024-01-11T17:56:59Z) - RLCD: Reinforcement Learning from Contrastive Distillation for Language Model Alignment [121.45689748315125]
Reinforcement Learning from Contrastive Distillation (RLCD) は、人間のフィードバックを使わずに言語モデルを調整する方法である。
RLCDは2つの対照的なモデル出力から選好ペアを生成し、1つは、与えられた原則に従うように設計された正のプロンプトを使用し、もう1つは、それらに違反するように設計された負のプロンプトを使用する。
次に、選好ペアを用いて選好モデルを訓練し、強化学習によりベース非整合言語モデルを改善する。
論文 参考訳(メタデータ) (2023-07-24T17:23:22Z) - Training Language Models with Language Feedback at Scale [50.70091340506957]
我々は、より情報的な言語フィードバックを利用する新しいアプローチであるLanguage Feedback (ILF)から学習を導入する。
ILFは3つのステップから成り、まず言語モデルを入力に条件付けし、最初のLM出力を出力し、改善を生成する。
理論的には、ILFは人間からのフィードバックによる強化学習と同様、ベイズ推論とみなすことができる。
論文 参考訳(メタデータ) (2023-03-28T17:04:15Z) - SKDBERT: Compressing BERT via Stochastic Knowledge Distillation [17.589678394344475]
我々は、SKDBERTと呼ばれるコンパクトなBERTスタイルの言語モデルを得るための知識蒸留(SKD)を提案する。
各イテレーションにおいて、SKDは、複数の教師モデルと複数レベルの能力を持つ教師モデルからなる事前定義された教師アンサンブルから教師モデルをサンプリングし、知識を1対1で学生モデルに伝達する。
GLUEベンチマークの実験結果によると、SKDBERT は BERT$_rm BASE$ モデルのサイズを 40% 削減し、言語理解の99.5% のパフォーマンスを維持し、100%高速である。
論文 参考訳(メタデータ) (2022-11-26T03:18:55Z) - On the Role of Bidirectionality in Language Model Pre-Training [85.14614350372004]
本研究では,次のトークン予測,テキスト入力,ゼロショットプライミング,微調整における双方向性の役割について検討する。
最大6.7Bのパラメータを持つモデルをトレーニングし、スケールで一貫性のある相違点を見つけます。
論文 参考訳(メタデータ) (2022-05-24T02:25:05Z) - Contrastive Distillation on Intermediate Representations for Language
Model Compression [89.31786191358802]
本稿では,中間表現に関するコントラスト蒸留(Contrastive Distillation on Intermediate Representation, CoDIR)について, 基本知識蒸留フレームワークとして提案する。
ポジティブなサンプルと大量のネガティブなサンプルを区別することを学ぶことで、CoDIRは教師の隠れた層におけるリッチな情報の利用を促進する。
CoDIRは、事前学習と微調整の両方の段階で大規模言語モデルに容易に適用でき、GLUEベンチマークで最高性能を達成できる。
論文 参考訳(メタデータ) (2020-09-29T17:31:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。