論文の概要: Self-Supervised On-Policy Reinforcement Learning via Contrastive Proximal Policy Optimisation
- arxiv url: http://arxiv.org/abs/2605.13554v1
- Date: Wed, 13 May 2026 13:58:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-14 23:30:28.089968
- Title: Self-Supervised On-Policy Reinforcement Learning via Contrastive Proximal Policy Optimisation
- Title(参考訳): コントラスト的政策最適化による自己監督型オン・ポリティクス強化学習
- Authors: Asim Osman, Sasha Abramowitz, Mark Bergh, Ulrich Armel Mbou Sob, Ruan John de Kock, Omayma Mahjoub, Oussama Hidaoui, Noah De Nicola, Arnol Manuel Fokam, Felix Chalumeau, Daniel Rajaonarivonivelomanantsoa, Siddarth Singh, Refiloe Shabe, Juan Claude Formanek, Simon Verster Du Toit, Arnu Pretorius,
- Abstract要約: CPPO(Contrastive Proximal Policy optimisation)を紹介する。
CPPOは、コントラストQ値から直接ポリシーの利点を導き出す、政治上のコントラストRLアルゴリズムである。
連続・離散・単エージェント・協調マルチエージェントタスクにおけるCPPOの評価を行った。
- 参考スコア(独自算出の注目度): 3.8479372725359418
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Contrastive reinforcement learning (CRL) learns goal-conditioned Q-values through a contrastive objective over state-action and goal representations, removing the need for hand-crafted reward functions. Despite impressive success in achieving viable self-supervised learning in RL, all existing CRL algorithms rely on off-policy optimisation and are mostly constrained to continuous action spaces, with little research invested in discrete environments. This leaves CRL disconnected from widely used and effective, modern on-policy training pipelines adopted across both single-agent and multi-agent RL in continuous and discrete environments. To establish a first connection, we introduce Contrastive Proximal Policy Optimisation (CPPO). CPPO is an on-policy contrastive RL algorithm that derives policy advantages directly from contrastive Q-values and optimises them via the standard PPO objective, without requiring a reward function or a replay buffer. We evaluate CPPO across continuous and discrete, single-agent and cooperative multi-agent tasks. Whilst the existence of an on-policy approach is inherently useful, we observe that \textbf{CPPO not only significantly outperforms the previous CRL baselines in 14 out of 18 tasks, but also matches or exceeds PPO's performance, which uses hand-crafted dense rewards, in 12 out of the 18 tasks tested.}
- Abstract(参考訳): コントラスト強化学習(CRL)は、状態行動や目標表現に対する対照的な目的を通じて、目標条件付きQ値を学び、手作りの報酬関数の必要性を取り除く。
RLで実行可能な自己教師型学習を実現するという驚くべき成功にもかかわらず、既存のCRLアルゴリズムはすべて、政治外の最適化に依存しており、主に連続的な行動空間に制約されており、離散環境にはほとんど投資されていない。
これによりCRLは、単一エージェントと複数エージェントのRLの両方で、連続的および離散的な環境で採用されている、広く使用され、効果的で近代的なオンライントレーニングパイプラインから切り離される。
第1の接続を確立するため,我々はCPPO(Contrastive Proximal Policy Optimisation)を導入する。
CPPOは、コントラストQ値から直接ポリシーの利点を導出し、報酬関数やリプレイバッファを必要とせず、標準のPPO目標によって最適化する、政治上のコントラストRLアルゴリズムである。
連続・離散・単エージェント・協調マルチエージェントタスクにおけるCPPOの評価を行った。
オンライン型アプローチの存在は本質的に有用であるが,従来のCRLベースラインを18タスク中14タスクで大きく上回るだけでなく,手作りの高密度報酬を用いたPPOのパフォーマンスを18タスク中12タスク中12タスクで上回っている。
※
関連論文リスト
- Rethinking the Trust Region in LLM Reinforcement Learning [72.25890308541334]
PPO(Proximal Policy Optimization)は、大規模言語モデル(LLM)のデファクト標準アルゴリズムとして機能する。
より原則的な制約でクリッピングを代用する多変量確率ポリシー最適化(DPPO)を提案する。
DPPOは既存の方法よりも優れたトレーニングと効率を実現し、RLベースの微調整のためのより堅牢な基盤を提供する。
論文 参考訳(メタデータ) (2026-02-04T18:59:04Z) - Information Gain-based Policy Optimization: A Simple and Effective Approach for Multi-Turn LLM Agents [28.145430029174577]
大規模言語モデル(LLM)ベースのエージェントは、外部環境と対話する能力を高めるために強化学習(RL)でますます訓練されている。
既存のアプローチは通常、最終回答でのみ提供される結果に基づく報酬に依存します。
本稿では,情報ゲインに基づくポリシー最適化(IGPO)を提案する。
論文 参考訳(メタデータ) (2025-10-16T17:59:32Z) - Agentic Reinforcement Learning with Implicit Step Rewards [92.26560379363492]
大規模言語モデル (LLMs) は強化学習 (agentic RL) を用いた自律的エージェントとして発展している。
我々は,標準RLアルゴリズムとシームレスに統合された一般的なクレジット割り当て戦略であるエージェントRL(iStar)について,暗黙的なステップ報酬を導入する。
我々は,WebShopとVisualSokobanを含む3つのエージェントベンチマークと,SOTOPIAにおける検証不可能な報酬とのオープンなソーシャルインタラクションについて評価した。
論文 参考訳(メタデータ) (2025-09-23T16:15:42Z) - Adversarial Policy Optimization for Offline Preference-based Reinforcement Learning [8.087699764574788]
オフライン優先型強化学習(PbRL)のための効率的なアルゴリズムを提案する。
APPOは、明示的な信頼セットに頼ることなく、サンプルの複雑性境界を保証する。
我々の知る限り、APPOは統計的効率と実用性の両方を提供する最初のオフラインPbRLアルゴリズムである。
論文 参考訳(メタデータ) (2025-03-07T10:35:01Z) - Diffusion-based Reinforcement Learning via Q-weighted Variational Policy Optimization [55.97310586039358]
拡散モデルは強化学習(Reinforcement Learning, RL)において、その強力な表現力と多モード性に対して広く注目を集めている。
モデルなし拡散に基づくオンラインRLアルゴリズムQ-weighted Variational Policy Optimization (QVPO)を提案する。
具体的には、ある条件下でのオンラインRLにおける政策目標の厳密な下限を証明できるQ重み付き変動損失を導入する。
また,オンラインインタラクションにおける拡散ポリシのばらつきを低減し,サンプル効率を向上させるための効率的な行動ポリシーも開発している。
論文 参考訳(メタデータ) (2024-05-25T10:45:46Z) - REBEL: Reinforcement Learning via Regressing Relative Rewards [59.68420022466047]
生成モデルの時代における最小限のRLアルゴリズムであるREBELを提案する。
理論的には、自然ポリシーグラディエントのような基本的なRLアルゴリズムはREBELの変種と見なすことができる。
我々はREBELが言語モデリングと画像生成に一貫したアプローチを提供し、PPOやDPOとより強くあるいは類似した性能を実現することを発見した。
論文 参考訳(メタデータ) (2024-04-25T17:20:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。