論文の概要: Are PPO-ed Language Models Hackable?
- arxiv url: http://arxiv.org/abs/2406.02577v1
- Date: Tue, 28 May 2024 23:28:28 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-09 15:49:54.090774
- Title: Are PPO-ed Language Models Hackable?
- Title(参考訳): PPOベースの言語モデルはハック可能か?
- Authors: Suraj Anand, David Getzen,
- Abstract要約: 本稿では,肯定的な感情言語生成の制御における報酬の効果を検討することを目的とする。
人間のフィードバックに基づく報酬モデルのオンライントレーニングの代わりに、静的学習された感情分類器を用いる。
また、トレーニング後にモデルの重みとアクティベーションがエンドユーザに露出する環境についても検討する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Numerous algorithms have been proposed to $\textit{align}$ language models to remove undesirable behaviors. However, the challenges associated with a very large state space and creating a proper reward function often result in various jailbreaks. Our paper aims to examine this effect of reward in the controlled setting of positive sentiment language generation. Instead of online training of a reward model based on human feedback, we employ a statically learned sentiment classifier. We also consider a setting where our model's weights and activations are exposed to an end-user after training. We examine a pretrained GPT-2 through the lens of mechanistic interpretability before and after proximal policy optimization (PPO) has been applied to promote positive sentiment responses. Using these insights, we (1) attempt to "hack" the PPO-ed model to generate negative sentiment responses and (2) add a term to the reward function to try and alter `negative' weights.
- Abstract(参考訳): 好ましくない振る舞いを取り除くために、$\textit{align}$言語モデルに多くのアルゴリズムが提案されている。
しかし、非常に大きな州空間と適切な報酬関数を作成することに関連する課題は、しばしば様々なジェイルブレイクを引き起こす。
本稿では,肯定的な感情言語生成の制御における報酬の効果を検討することを目的とする。
人間のフィードバックに基づく報酬モデルのオンライントレーニングの代わりに、静的学習された感情分類器を用いる。
また、トレーニング後にモデルの重みとアクティベーションがエンドユーザに露出する環境についても検討する。
近位政策最適化(PPO)の前後の機械的解釈可能性のレンズを用いて,事前学習したGPT-2を検証し,肯定的な感情応答を促進させた。
これらの知見を用いて、(1)PPO-edモデルを「ハック」して負の感情反応を生成し、(2)報酬関数に項を加えて「負の」重みを変えようとする。
関連論文リスト
- Steering Without Side Effects: Improving Post-Deployment Control of Language Models [61.99293520621248]
言語モデル(LM)は、デプロイ後予期せず振る舞うことが示されている。
KL-then-steer (KTS) は, その利点を保ちながら, 操舵の副作用を低減する技術である。
本手法はLlama-2-chat-7Bモデルと比較して44%のジェイルブレイク攻撃を防ぐ。
論文 参考訳(メタデータ) (2024-06-21T01:37:39Z) - Aligning Large Language Models by On-Policy Self-Judgment [49.31895979525054]
大規模言語モデルと人間の嗜好を整合させる既存のアプローチは、オンライン学習のために別々の報酬モデル(RM)を必要とするトレードオフに直面しています。
本稿では,オンライン学習を行う新たなアライメントフレームワークSELF-JUDGEを提案する。
また, さらなる評価を行なわずに, サンプリング自体がさらなる性能向上に寄与することを示した。
論文 参考訳(メタデータ) (2024-02-17T11:25:26Z) - Helping or Herding? Reward Model Ensembles Mitigate but do not Eliminate Reward Hacking [62.146953368613815]
リワードモデルは、言語モデルアプリケーションを人間の好みに合わせる上で重要な役割を果たす。
自然な緩和とは、報酬モデルの集合を訓練し、より堅牢な報酬推定を得るためにモデル出力を集約することである。
報酬アンサンブルのすべての報酬モデルが類似したエラーパターンを示すため、報酬アンサンブルは報酬ハックを排除しないことを示す。
論文 参考訳(メタデータ) (2023-12-14T18:59:04Z) - Language Model Alignment with Elastic Reset [8.503863369800191]
一般的に使用されるテストメトリクスは、報酬とドリフトの間の異なるアルゴリズムのトレードオフを測定するには不十分である、と私たちは主張する。
我々は,トレーニング目標を明示的に変更することなく,ドリフトを少なくして高い報酬を達成する新しいアルゴリズムであるElastic Resetを提案する。
我々は、Elastic Resetを用いた微調整言語モデルが、小さなスケールのピボット変換ベンチマークで最先端のパフォーマンスをもたらすことを実証した。
論文 参考訳(メタデータ) (2023-12-06T22:53:34Z) - Learning Optimal Advantage from Preferences and Mistaking it for Reward [43.58066500250688]
最近の研究は、人間の嗜好はこれらのセグメントに蓄積された報酬またはその部分的なリターンに基づいて生成されると仮定している。
本研究は, 後悔から生じる部分的回帰に基づいて, 嗜好を仮定した結果について検討する。
本論文は,人間の嗜好の仕方に乏しいにもかかわらず,部分回帰選好モデル下での学習が実際になぜうまく機能するのかを概観する。
論文 参考訳(メタデータ) (2023-10-03T21:58:24Z) - Fine-Grained Human Feedback Gives Better Rewards for Language Model
Training [108.25635150124539]
言語モデル(LM)は、しばしば偽、有毒、無関係な出力を生成するなど、望ましくないテキスト生成の振る舞いを示す。
本研究では,2つの点において微細な報酬関数から学習と学習を可能にするフレームワークであるFine-Grained RLHFを紹介する。
論文 参考訳(メタデータ) (2023-06-02T17:11:37Z) - A State Augmentation based approach to Reinforcement Learning from Human
Preferences [20.13307800821161]
優先に基づく強化学習は、クエリされたトラジェクトリペアのバイナリフィードバックを利用することで、この問題を解決しようとする。
本稿では,エージェントの報酬モデルが堅牢である状態拡張手法を提案する。
論文 参考訳(メタデータ) (2023-02-17T07:10:50Z) - Language Model Pre-training on True Negatives [109.73819321246062]
差別的事前訓練言語モデル(PLM)は、故意に破損した言語から原文を予測することを学ぶ。
既存のPLMは、すべての破損したテキストを検査せずに同等に否定的に扱う。
我々は、偽陰性予測に対処し、真陰性に関する事前学習言語モデルを促進するために、強化された事前学習手法を設計する。
論文 参考訳(メタデータ) (2022-12-01T12:24:19Z) - g2pW: A Conditional Weighted Softmax BERT for Polyphone Disambiguation
in Mandarin [0.3211619859724084]
多音不明瞭化は、マンダリン・グラテム・音素変換において最も重要な課題である。
本稿では,学習可能なソフトマックスウェイトを適応させて,ポリフォニックな特徴を持つBERTの出力を条件付ける,g2pWという新しい手法を提案する。
実験の結果,g2pWはCPPデータセット上の既存の手法よりも優れていた。
論文 参考訳(メタデータ) (2022-03-20T02:28:25Z) - Semi-supervised reward learning for offline reinforcement learning [71.6909757718301]
トレーニングエージェントは通常、報酬機能が必要ですが、報酬は実際にはほとんど利用できず、エンジニアリングは困難で手間がかかります。
限定されたアノテーションから学習し,ラベルなしデータを含む半教師付き学習アルゴリズムを提案する。
シミュレーションロボットアームを用いた実験では,動作のクローン化が大幅に向上し,真理の報奨によって達成される性能に近づいた。
論文 参考訳(メタデータ) (2020-12-12T20:06:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。