Fugu-MT 論文翻訳(概要): Zephyr: Direct Distillation of LM Alignment

論文の概要: Zephyr: Direct Distillation of LM Alignment

arxiv url: http://arxiv.org/abs/2310.16944v1
Date: Wed, 25 Oct 2023 19:25:16 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-27 23:47:01.573112
Title: Zephyr: Direct Distillation of LM Alignment
Title（参考訳）: Zephyr: LMアライメントの直接蒸留
Authors: Lewis Tunstall, Edward Beeching, Nathan Lambert, Nazneen Rajani, Kashif Rasul, Younes Belkada, Shengyi Huang, Leandro von Werra, Cl\'ementine Fourrier, Nathan Habib, Nathan Sarrazin, Omar Sanseviero, Alexander M. Rush, and Thomas Wolf
Abstract要約: ユーザ意図に合わせた,より小さな言語モデルの実現を目指しています。従来の研究では、より大規模なモデルに教師付き微調整(dSFT)を適用することにより、タスクの精度が大幅に向上することが示されている。蒸留直接選好最適化(dDPO)を用いて,意図のアライメントを大幅に改善したチャットモデルを学習する。
参考スコア（独自算出の注目度）: 59.03530095974505
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We aim to produce a smaller language model that is aligned to user intent. Previous research has shown that applying distilled supervised fine-tuning (dSFT) on larger models significantly improves task accuracy; however, these models are unaligned, i.e. they do not respond well to natural prompts. To distill this property, we experiment with the use of preference data from AI Feedback (AIF). Starting from a dataset of outputs ranked by a teacher model, we apply distilled direct preference optimization (dDPO) to learn a chat model with significantly improved intent alignment. The approach requires only a few hours of training without any additional sampling during fine-tuning. The final result, Zephyr-7B, sets the state-of-the-art on chat benchmarks for 7B parameter models, and requires no human annotation. In particular, results on MT-Bench show that Zephyr-7B surpasses Llama2-Chat-70B, the best open-access RLHF-based model. Code, models, data, and tutorials for the system are available at https://github.com/huggingface/alignment-handbook.
Abstract（参考訳）: ユーザ意図に合わせた,より小さな言語モデルの実現を目指しています。従来の研究では、蒸留された教師付き微調整(dSFT)をより大きなモデルに適用するとタスクの精度が大幅に向上することが示されているが、これらのモデルは不整合である。この特性を抽出するために,AIF(AI Feedback)の嗜好データを用いて実験を行った。教師モデルによってランク付けされた出力のデータセットから始め、蒸留直接選好最適化(dDPO)を適用して、意図のアライメントを大幅に改善したチャットモデルを学習する。このアプローチは、微調整の間、追加のサンプリングなしで、わずか数時間のトレーニングを必要とする。最後の結果であるzephyr-7bは、7bパラメータモデルのチャットベンチマークを最先端に設定し、人間のアノテーションを必要としない。特にMT-Benchの結果は、Zephyr-7BがLlama2-Chat-70Bを超えることを示している。システムのコード、モデル、データ、チュートリアルはhttps://github.com/huggingface/alignment-handbook.comにある。

関連論文リスト

Aligning Frozen LLMs by Reinforcement Learning: An Iterative Reweight-then-Optimize Approach [65.6966065843227]
Iterative Reweight-then-IROは、凍結ベースモデルのRLスタイルアライメントを実行するフレームワークである。テスト時には、値関数を使用して、検索ベースの最適化プロセスを介してベースモデル生成をガイドする。特に、ユーザは、OpenAIの強化微調整(RFT)と同様、自身のデータセットにモデルをアライメントするためにIROを適用することができる。
論文参考訳（メタデータ） (2025-06-21T21:49:02Z)
SPRec: Self-Play to Debias LLM-based Recommendation [23.875509546540904]
大規模言語モデル(LLM)はレコメンデーションシステムにおいて大きな注目を集めている。 SPRecは、過剰勧告を緩和し、追加のデータや手動による介入を必要とせずに公平性を向上させるために設計された新しいセルフプレイフレームワークである。
論文参考訳（メタデータ） (2024-12-12T12:53:30Z)
HelpSteer2-Preference: Complementing Ratings with Preferences [45.01567242039055]
リワードモデルは、指示に従うためにモデルを整列させるのに不可欠である。データに適切にマッチする場合、どちらのアプローチも他方よりも優れているという証拠が不足している。そこで我々はBradley-huggingとRegression reward Modelingを組み合わせた新しい手法を提案する。
論文参考訳（メタデータ） (2024-10-02T06:05:52Z)
Just Say What You Want: Only-prompting Self-rewarding Online Preference Optimization [64.34767799614328]
現在の自己回帰アプローチは、差別者の判断能力に大きく依存している。本稿では,判断能力に頼らずに嗜好データセットを生成する,新たな自己回帰型オンラインアルゴリズムを提案する。
論文参考訳（メタデータ） (2024-09-26T04:41:08Z)
Preference Alignment with Flow Matching [23.042382086241364]
優先フローマッチング(PFM)は、好みに基づく強化学習(PbRL)のための新しいフレームワークである事前訓練されたモデルの任意のクラスへの好みの統合を合理化する。提案手法の標準PbRL目標との整合性を支持する理論的知見を提供する。
論文参考訳（メタデータ） (2024-05-30T08:16:22Z)
Self-Exploring Language Models: Active Preference Elicitation for Online Alignment [88.56809269990625]
本研究では, 分布域外領域を積極的に探索するために, 潜在的に高次応答に対して楽観的に偏りを呈する2段階的客観性を提案する。実験の結果,Zephyr-7B-SFTとLlama-3-8B-Instructモデルで微調整した場合,SELM(Self-Exploring Language Models)は命令追従ベンチマークの性能を大幅に向上させることがわかった。
論文参考訳（メタデータ） (2024-05-29T17:59:07Z)
Getting More Juice Out of the SFT Data: Reward Learning from Human Demonstration Improves SFT for LLM Alignment [65.15914284008973]
我々は、報酬モデルと政策モデルを同時に構築するために、逆強化学習(IRL)技術を活用することを提案する。提案アルゴリズムはIRL問題の定常解に収束することを示す。その結果,アライメントプロセス全体を通じて報酬学習を活用することは有益であることが示唆された。
論文参考訳（メタデータ） (2024-05-28T07:11:05Z)
Self-Play Preference Optimization for Language Model Alignment [75.83359213697854]
近年の進歩は、嗜好の確率で直接作業することで、人間の嗜好をより正確に反映できることを示している。本稿では,言語モデルアライメントのためのセルフプレイ方式を提案する。我々の手法はSPPO(Self-Play Preference Optimization)と呼ばれ、繰り返しポリシー更新を利用してナッシュ均衡を確実に近似する。
論文参考訳（メタデータ） (2024-05-01T17:59:20Z)
Dissecting Human and LLM Preferences [80.55271307662365]
人間は誤りに敏感ではなく、自分の姿勢を支持する反応を好んでおり、モデルが限界を認めている場合、明確な嫌悪を示します。 GPT-4-Turboのような先進的なLCMは、より正確さ、明快さ、無害さを強調している。嗜好に基づく評価は意図的に操作可能であることを示す。
論文参考訳（メタデータ） (2024-02-17T14:34:31Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。