論文の概要: Learn Your Reference Model for Real Good Alignment
- arxiv url: http://arxiv.org/abs/2404.09656v2
- Date: Tue, 21 May 2024 15:04:12 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-22 18:02:40.429904
- Title: Learn Your Reference Model for Real Good Alignment
- Title(参考訳): リアルアライメントのための参照モデルを学ぶ
- Authors: Alexey Gorbatovski, Boris Shaposhnikov, Alexey Malakhov, Nikita Surnachev, Yaroslav Aksenov, Ian Maksimov, Nikita Balagansky, Daniil Gavrilov,
- Abstract要約: アライメント問題の複雑さは、既存の手法が不安定であると考えられるという事実に起因している。
本稿では,信頼領域 (TR-DPO, TR-IPO, TR-KTO) と呼ばれる新しい手法を提案する。
最も注目すべきは、Reddit TL;DRタスクで事前訓練されたPythia 6.9Bモデルを使ってTRメソッドとベースラインを並べて自動比較する場合、勝利率の違いはDPOが8.4%、IPOが14.3%、KTOが15%に達することである。
- 参考スコア(独自算出の注目度): 3.091688550418396
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The complexity of the alignment problem stems from the fact that existing methods are considered unstable. Reinforcement Learning from Human Feedback (RLHF) addresses this issue by minimizing the KL divergence between the trained policy and the initial supervised fine-tuned policy (SFT) to avoid generating out-of-domain samples for the reward model (RM). Recently, many methods have emerged that shift from online to offline optimization, reformulating the RLHF objective and removing the reward model (DPO, IPO, KTO). Despite eliminating the reward model and the challenges it posed, these algorithms are still constrained in terms of closeness of the trained policy to the SFT one. In our paper, we argue that this implicit limitation in the offline optimization methods leads to suboptimal results. To address this issue, we propose a class of new methods called Trust Region (TR-DPO, TR-IPO, TR-KTO), which update the reference policy during training. With this straightforward update approach, we demonstrate the effectiveness of the new paradigm of language model alignment against the classical one on the Anthropic-HH and Reddit TL;DR datasets. Most notably, when automatically comparing TR methods and baselines side by side using pretrained Pythia 6.9B models on the Reddit TL;DR task, the difference in win rates reaches 8.4% for DPO, 14.3% for IPO, and 15% for KTO. Finally, by assessing model response ratings grounded on criteria such as coherence, correctness, helpfulness, and harmlessness, we demonstrate that our proposed methods significantly outperform existing techniques.
- Abstract(参考訳): アライメント問題の複雑さは、既存の手法が不安定であると考えられるという事実に起因している。
Reinforcement Learning from Human Feedback (RLHF)は、トレーニングされたポリシーと初期教師付き微調整ポリシー(SFT)とのKLのばらつきを最小化し、報酬モデル(RM)のドメイン外サンプルの生成を避けることでこの問題に対処する。
近年、オンラインからオフラインへの移行、RLHFの目標の修正、報酬モデル(DPO、IPO、KTO)の削除など、多くの方法が登場している。
報酬モデルとそれがもたらした課題を排除したにもかかわらず、これらのアルゴリズムはSFTに対する訓練されたポリシーの密接さという点で制限されている。
本稿では、オフライン最適化手法におけるこの暗黙の制限が、最適以下の結果をもたらすことを論じる。
そこで本研究では,信頼領域(TR-DPO,TR-IPO,TR-KTO)と呼ばれる新たな手法を提案する。
この簡単な更新アプローチでは、従来の言語モデルアライメントのパラダイムが、Anthropic-HHとReddit TL;DRデータセット上で有効であることを示す。
最も注目すべきは、Reddit TL;DRタスクで事前訓練されたPythia 6.9Bモデルを使ってTRメソッドとベースラインを並べて自動比較する場合、勝利率の違いはDPOが8.4%、IPOが14.3%、KTOが15%に達することである。
最後に,コヒーレンス,正当性,有用性,無害性などの基準に基づくモデル応答の評価により,提案手法が既存手法より有意に優れていることを示す。
関連論文リスト
- SePPO: Semi-Policy Preference Optimization for Diffusion Alignment [67.8738082040299]
本稿では、報酬モデルやペアの人間注釈データに頼ることなく、DMと好みを一致させる選好最適化手法を提案する。
テキスト・ツー・イメージとテキスト・ツー・ビデオのベンチマークでSePPOを検証する。
論文 参考訳(メタデータ) (2024-10-07T17:56:53Z) - Contrastive Policy Gradient: Aligning LLMs on sequence-level scores in a supervised-friendly fashion [44.95386817008473]
コントラストポリシーグラディエント(Contrastive Policy Gradient, COPG)は、単純かつ数学的に原理化された新しいRLアルゴリズムである。
本稿では,直接アライメント手法のIPO(アイデンティティ優先最適化)と古典的政策勾配を一般化する手法を提案する。
提案したCOPGをおもちゃのバンディット問題で実験し,その特性を説明するとともに,要約タスクでLLMを微調整する。
論文 参考訳(メタデータ) (2024-06-27T14:03:49Z) - SAIL: Self-Improving Efficient Online Alignment of Large Language Models [56.59644677997827]
人間のフィードバックからの強化学習は、大きな言語モデルを人間の好みに合わせるための重要な方法である。
近年の文献では、オンラインRLHF法の設計に焦点が当てられているが、統一された概念的定式化はいまだに欠けている。
提案手法は,計算オーバーヘッドを最小限に抑えたオープンソースデータセットのアライメント性能を著しく向上させる。
論文 参考訳(メタデータ) (2024-06-21T18:05:35Z) - Self-Play with Adversarial Critic: Provable and Scalable Offline Alignment for Language Models [44.38073745307387]
本研究では,大規模言語モデル(LLM)とオフラインの嗜好データとの整合性について検討する。
オフラインRL文献から平均的な悲観的手法にインスパイアされた,セルフプレイによる新たなオフライン優先最適化手法であるSPACを提案する。
論文 参考訳(メタデータ) (2024-06-06T17:23:49Z) - Self-Augmented Preference Optimization: Off-Policy Paradigms for Language Model Alignment [104.18002641195442]
既存のペアデータを必要としない、効果的でスケーラブルなトレーニングパラダイムである自己拡張型優先度最適化(SAPO)を導入する。
負の反応を自律的に生成するセルフプレイの概念に基づいて、我々はさらに、データ探索とエクスプロイトを強化するために、非政治的な学習パイプラインを組み込む。
論文 参考訳(メタデータ) (2024-05-31T14:21:04Z) - Optimal Baseline Corrections for Off-Policy Contextual Bandits [61.740094604552475]
オンライン報酬指標の偏りのないオフライン推定を最適化する意思決定ポリシーを学習することを目指している。
学習シナリオにおける同値性に基づく単一のフレームワークを提案する。
我々のフレームワークは、分散最適非バイアス推定器の特徴付けを可能にし、それに対する閉形式解を提供する。
論文 参考訳(メタデータ) (2024-05-09T12:52:22Z) - Model-based trajectory stitching for improved behavioural cloning and
its applications [7.462336024223669]
トラジェクティブ・スティッチング(TS)は、元のデータで切断された状態のペアを縫い合わせることで、新しいトラジェクトリを生成する。
古い軌道を新しい軌道に置き換える反復的プロセスが、基礎となる行動方針を漸進的に改善することを示した。
論文 参考訳(メタデータ) (2022-12-08T14:18:04Z) - Supported Policy Optimization for Offline Reinforcement Learning [74.1011309005488]
オフライン強化学習(RL)に対する政策制約手法は、通常、パラメータ化や正規化を利用する。
規則化手法は学習方針と行動方針の分岐を減少させる。
本稿では、密度に基づくサポート制約の理論的定式化から直接導出した支援政策最適化(SPOT)について述べる。
論文 参考訳(メタデータ) (2022-02-13T07:38:36Z) - COMBO: Conservative Offline Model-Based Policy Optimization [120.55713363569845]
ディープニューラルネットワークのような複雑なモデルによる不確実性推定は困難であり、信頼性が低い。
我々は,サポート外状態動作の値関数を正規化するモデルベースオフラインRLアルゴリズムCOMBOを開発した。
従来のオフラインモデルフリーメソッドやモデルベースメソッドと比べて、comboは一貫してパフォーマンスが良いことが分かりました。
論文 参考訳(メタデータ) (2021-02-16T18:50:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。