論文の概要: Proximal Policy Optimization Actual Combat: Manipulating Output
Tokenizer Length
- arxiv url: http://arxiv.org/abs/2308.05585v1
- Date: Thu, 10 Aug 2023 13:50:17 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-11 12:19:07.268397
- Title: Proximal Policy Optimization Actual Combat: Manipulating Output
Tokenizer Length
- Title(参考訳): プロクサマル政策最適化現実のコンバット:アウトプット・トケナイザー長の操作
- Authors: Miao Fan, Chen Hu, Shuchang Zhou
- Abstract要約: 本稿では,PPOの有効性を検証する報酬モデルとして,Glodenを用いたシンプルなタスクを提案する。
実験により、PPOは、このタイプのタスクにおいて、出力トークン化剤の長さをある程度操作するだけでなく、報酬モデル効果の影響が排除されたら、訓練を円滑に行うことが確認された。
- 参考スコア(独自算出の注目度): 14.672652734183423
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The Reinforcement Learning from Human Feedback (RLHF) plays a pivotal role in
shaping the impact of large language models (LLMs), contributing significantly
to controlling output toxicity and selecting output styles, particularly as
LLMs often harbor misleading content, highlighting the urgency to align them
with human values for secure AI systems. The RLHF, characterized by complexity,
instability, and sensitivity to hyperparameters, makes the evaluation of the
reward model for complex tasks challenging, thereby further complicating the
use of Proximal Policy Optimization (PPO). In this paper, we introduce a simple
task designed to employ Gloden as a reward model that validates the
effectiveness of PPO and inspires it, primarily explaining the task of
utilizing PPO to manipulate the tokenizer length of the output generated by the
model. Experiments confirm that PPO is not only effective in manipulating the
output tokenizer length to a certain extent in this type of task but also
exhibits facilitated training once the influence of the reward model effect is
excluded, making it an exciting development.
- Abstract(参考訳): ヒューマンフィードバック(rlhf)からの強化学習は、大規模言語モデル(llm)の影響を形作る上で重要な役割を担っており、特にllmは誤解を招くコンテンツを保持し、セキュアなaiシステムのための人間的価値と一致させる緊急性を強調しているため、アウトプット毒性の制御とアウトプットスタイルの選択に大きく寄与している。
RLHFは、高パラメータに対する複雑性、不安定性、感度を特徴とし、複雑なタスクに対する報酬モデルの評価を困難にし、PPO(Proximal Policy Optimization)の使用をさらに複雑にする。
本稿では,PPOの有効性を検証する報奨モデルとしてGlodenを用いたシンプルなタスクを提案する。
実験により、PPOは、このタイプのタスクにおいて、出力トークン化剤の長さをある程度操作するだけでなく、報酬モデルの効果が排除されたら、訓練を円滑に行い、エキサイティングな発展をもたらすことが確認された。
関連論文リスト
- Enhancing Q-Learning with Large Language Model Heuristics [0.0]
大規模言語モデル(LLM)はゼロショット学習を実現することができるが、一般的には単純なタスクに限られる。
強化学習におけるQ関数の学習を支援するために,LLMを用いたtextbfLLM-guided Q-learningを提案する。
提案アルゴリズムは,非効率探索を回避し,サンプリング効率を向上し,複雑な制御タスクに適している。
論文 参考訳(メタデータ) (2024-05-06T10:42:28Z) - Learning Off-policy with Model-based Intrinsic Motivation For Active Online Exploration [15.463313629574111]
本稿では,連続制御タスクにおけるサンプル効率の高い探索手法について検討する。
本稿では,予測モデルと非政治学習要素を組み込んだRLアルゴリズムを提案する。
パラメーターのオーバーヘッドを発生させずに本質的な報酬を導き出す。
論文 参考訳(メタデータ) (2024-03-31T11:39:11Z) - Entropy-Regularized Token-Level Policy Optimization for Large Language
Models [76.02428537504323]
大規模言語モデル(LLM)は、対話的な意思決定タスクにおいてインテリジェントなエージェントとして期待されている。
本稿では,トークンレベルでのLLMの最適化に適したエントロピー拡張RL法である,エントロピー正規化トークンレベル最適化(ETPO)を導入する。
その結果,ETPO は CodeLlama-7B モデルで有効な性能向上を実現し,RLHF から受け継いだ変種 PPO ベースラインを超越していることがわかった。
論文 参考訳(メタデータ) (2024-02-09T07:45:26Z) - Secrets of RLHF in Large Language Models Part I: PPO [81.01936993929127]
大規模言語モデル (LLMs) は、人工知能の進歩のためのブループリントを定式化した。
人間のフィードバックによる強化学習(RLHF)がこの追求を支える重要な技術パラダイムとして出現する。
本稿では、RLHFの枠組みを解明し、PPOの内部構造を再評価し、PPOアルゴリズムを構成する部分が政策エージェントの訓練にどのように影響するかを考察する。
論文 参考訳(メタデータ) (2023-07-11T01:55:24Z) - Fine-Tuning Language Models with Advantage-Induced Policy Alignment [80.96507425217472]
大規模言語モデルと人間の嗜好を整合させる新しいアルゴリズムを提案する。
言語タスクにおいてPPOを常に上回り、大きなマージンを持つことを示す。
また,損失関数の設計を支援する理論的正当性も提供する。
論文 参考訳(メタデータ) (2023-06-04T01:59:40Z) - Direct Preference Optimization: Your Language Model is Secretly a Reward
Model [126.78737228677025]
本稿では,RLHFにおける報酬モデルの新たなパラメータ化について紹介する。
DPO(Direct Preference Optimization)と呼ばれる結果のアルゴリズムは、安定的で、性能が高く、計算的にも軽量である。
我々の実験は、DPOが人間の好みに合わせて微調整できるだけでなく、既存の方法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-05-29T17:57:46Z) - On Proximal Policy Optimization's Heavy-tailed Gradients [150.08522793940708]
近位政策最適化による報酬関数の勾配の重み付き性質について検討した。
本稿では,標準的なppoクリッピングの効果について検討し,グラデーションの重み付けを相殺する効果があることを示した。
3つのクリッピングトリックの代替として,高次元ロバストな推定器であるGMOMをPPOに組み込むことを提案する。
論文 参考訳(メタデータ) (2021-02-20T05:51:28Z) - Exploiting Submodular Value Functions For Scaling Up Active Perception [60.81276437097671]
アクティブな知覚タスクでは、エージェントは1つ以上の隠れ変数の不確実性を減少させる感覚行動を選択することを目的としている。
部分的に観測可能なマルコフ決定過程(POMDP)は、そのような問題に対する自然なモデルを提供する。
エージェントが利用できるセンサーの数が増えるにつれて、POMDP計画の計算コストは指数関数的に増加する。
論文 参考訳(メタデータ) (2020-09-21T09:11:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。