Fugu-MT 論文翻訳(概要): Proximal Policy Optimization Actual Combat: Manipulating Output Tokenizer Length

論文の概要: Proximal Policy Optimization Actual Combat: Manipulating Output Tokenizer Length

arxiv url: http://arxiv.org/abs/2308.05585v1
Date: Thu, 10 Aug 2023 13:50:17 GMT
ステータス: 翻訳完了
システム内更新日: 2023-08-11 12:19:07.268397
Title: Proximal Policy Optimization Actual Combat: Manipulating Output Tokenizer Length
Title（参考訳）: プロクサマル政策最適化現実のコンバット:アウトプット・トケナイザー長の操作
Authors: Miao Fan, Chen Hu, Shuchang Zhou
Abstract要約: 本稿では,PPOの有効性を検証する報酬モデルとして,Glodenを用いたシンプルなタスクを提案する。実験により、PPOは、このタイプのタスクにおいて、出力トークン化剤の長さをある程度操作するだけでなく、報酬モデル効果の影響が排除されたら、訓練を円滑に行うことが確認された。
参考スコア（独自算出の注目度）: 14.672652734183423
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The Reinforcement Learning from Human Feedback (RLHF) plays a pivotal role in shaping the impact of large language models (LLMs), contributing significantly to controlling output toxicity and selecting output styles, particularly as LLMs often harbor misleading content, highlighting the urgency to align them with human values for secure AI systems. The RLHF, characterized by complexity, instability, and sensitivity to hyperparameters, makes the evaluation of the reward model for complex tasks challenging, thereby further complicating the use of Proximal Policy Optimization (PPO). In this paper, we introduce a simple task designed to employ Gloden as a reward model that validates the effectiveness of PPO and inspires it, primarily explaining the task of utilizing PPO to manipulate the tokenizer length of the output generated by the model. Experiments confirm that PPO is not only effective in manipulating the output tokenizer length to a certain extent in this type of task but also exhibits facilitated training once the influence of the reward model effect is excluded, making it an exciting development.
Abstract（参考訳）: ヒューマンフィードバック(rlhf)からの強化学習は、大規模言語モデル(llm)の影響を形作る上で重要な役割を担っており、特にllmは誤解を招くコンテンツを保持し、セキュアなaiシステムのための人間的価値と一致させる緊急性を強調しているため、アウトプット毒性の制御とアウトプットスタイルの選択に大きく寄与している。 RLHFは、高パラメータに対する複雑性、不安定性、感度を特徴とし、複雑なタスクに対する報酬モデルの評価を困難にし、PPO(Proximal Policy Optimization)の使用をさらに複雑にする。本稿では,PPOの有効性を検証する報奨モデルとしてGlodenを用いたシンプルなタスクを提案する。実験により、PPOは、このタイプのタスクにおいて、出力トークン化剤の長さをある程度操作するだけでなく、報酬モデルの効果が排除されたら、訓練を円滑に行い、エキサイティングな発展をもたらすことが確認された。

関連論文リスト

LAPO: Internalizing Reasoning Efficiency via Length-Adaptive Policy Optimization [48.91511514636768]
本稿では,外部制約から固有モデル能力へ推論長制御を変換するフレームワークであるLongth-Adaptive Policy Optimization (LAPO)を提案する。 LAPOは、2段階の強化学習プロセスを通じて適切な推論深度を理解することができる。数学的推論ベンチマークの実験では、LAPOはトークンの使用量を最大40.9%削減し、精度は2.3%向上した。
論文参考訳（メタデータ） (2025-07-21T16:14:41Z)
Truncated Proximal Policy Optimization [43.965892659920364]
Truncated Proximal Policy Optimization (T-PPO)は、ポリシー更新と長さ制限された応答生成を合理化することで、トレーニング効率を向上させる。不完全な応答から導かれる利点推定のための拡張一般化アドバンテージ推定(EGAE)を提案する。我々は,32Bベースモデルを用いたAIME 2024におけるT-PPOの有効性と有効性を示した。
論文参考訳（メタデータ） (2025-06-18T01:21:38Z)
A Simple and Effective Reinforcement Learning Method for Text-to-Image Diffusion Fine-tuning [61.403275660120606]
強化学習(Reinforcement Learning, RL)に基づく微調整は, 拡散モデルとブラックボックスの目的を整合させる強力なアプローチとして登場した。拡散微調整のための新しいRLであるLOOP(Left-one-out PPO)を提案する。以上の結果から, LOOPは様々なブラックボックス対象の拡散モデルを効果的に改善し, 計算効率と性能のバランスを良くすることを示す。
論文参考訳（メタデータ） (2025-03-02T13:43:53Z)
Hierarchical Preference Optimization: Learning to achieve goals via feasible subgoals prediction [71.81851971324187]
本研究は階層型強化学習(HRL)の新しいアプローチである階層型優先度最適化(HPO)を導入する。 HPOは、複雑なロボット制御タスクを解く際に、非定常性と非実用的なサブゴール生成の問題に対処する。挑戦的なロボットナビゲーションと操作タスクの実験はHPOの素晴らしいパフォーマンスを示しており、ベースラインよりも最大35%改善されている。
論文参考訳（メタデータ） (2024-11-01T04:58:40Z)
Sample-Efficient Reinforcement Learning with Temporal Logic Objectives: Leveraging the Task Specification to Guide Exploration [13.053013407015628]
本稿では,不確実な力学を持つシステムに対する最適制御ポリシーの学習問題に対処する。本稿では,競争的アプローチよりもはるかに高速に制御ポリシーを学習できる高速化されたRLアルゴリズムを提案する。
論文参考訳（メタデータ） (2024-10-16T00:53:41Z)
Extracting Heuristics from Large Language Models for Reward Shaping in Reinforcement Learning [28.077228879886402]
強化学習(Reinforcement Learning, RL)は、報酬領域におけるサンプルの非効率性に悩まされ、移行時にはさらにその問題が顕著になる。サンプル効率を改善するために、報酬形成はRLエージェントが最適なポリシーに迅速に収束するのに役立つ本質的な報酬を導入するためのよく研究されたアプローチである。
論文参考訳（メタデータ） (2024-05-24T03:53:57Z)
Entropy-Regularized Token-Level Policy Optimization for Language Agent Reinforcement [67.1393112206885]
大規模言語モデル(LLM)は、対話的な意思決定タスクにおいてインテリジェントなエージェントとして期待されている。本稿では,トークンレベルでのLLMの最適化に適したエントロピー拡張RL法である,エントロピー正規化トークンレベル最適化(ETPO)を導入する。我々は,データサイエンスコード生成を多段階対話型タスクのシリーズとしてモデル化したシミュレーション環境におけるETPOの有効性を評価する。
論文参考訳（メタデータ） (2024-02-09T07:45:26Z)
Secrets of RLHF in Large Language Models Part I: PPO [81.01936993929127]
大規模言語モデル (LLMs) は、人工知能の進歩のためのブループリントを定式化した。人間のフィードバックによる強化学習(RLHF)がこの追求を支える重要な技術パラダイムとして出現する。本稿では、RLHFの枠組みを解明し、PPOの内部構造を再評価し、PPOアルゴリズムを構成する部分が政策エージェントの訓練にどのように影響するかを考察する。
論文参考訳（メタデータ） (2023-07-11T01:55:24Z)
Fine-Tuning Language Models with Advantage-Induced Policy Alignment [80.96507425217472]
大規模言語モデルと人間の嗜好を整合させる新しいアルゴリズムを提案する。言語タスクにおいてPPOを常に上回り、大きなマージンを持つことを示す。また,損失関数の設計を支援する理論的正当性も提供する。
論文参考訳（メタデータ） (2023-06-04T01:59:40Z)
Direct Preference Optimization: Your Language Model is Secretly a Reward Model [119.65409513119963]
本稿では,RLHFにおける報酬モデルの新たなパラメータ化について紹介する。 DPO(Direct Preference Optimization)と呼ばれる結果のアルゴリズムは、安定的で、性能が高く、計算的にも軽量である。我々の実験は、DPOが人間の好みに合わせて微調整できるだけでなく、既存の方法よりも優れていることを示す。
論文参考訳（メタデータ） (2023-05-29T17:57:46Z)
Exploiting Submodular Value Functions For Scaling Up Active Perception [60.81276437097671]
アクティブな知覚タスクでは、エージェントは1つ以上の隠れ変数の不確実性を減少させる感覚行動を選択することを目的としている。部分的に観測可能なマルコフ決定過程(POMDP)は、そのような問題に対する自然なモデルを提供する。エージェントが利用できるセンサーの数が増えるにつれて、POMDP計画の計算コストは指数関数的に増加する。
論文参考訳（メタデータ） (2020-09-21T09:11:36Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。