論文の概要: Partial Policy Gradients for RL in LLMs
- arxiv url: http://arxiv.org/abs/2603.06138v1
- Date: Fri, 06 Mar 2026 10:47:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-09 13:17:45.517613
- Title: Partial Policy Gradients for RL in LLMs
- Title(参考訳): LLMにおけるRLの部分的政策勾配
- Authors: Puneet Mathur, Branislav Kveton, Subhojyoti Mukherjee, Viet Dac Lai,
- Abstract要約: 政策勾配における政策構造をモデル化するための自然なアプローチを提案する。
より小さな部分集合はより単純なポリシーを表しており、経験的勾配推定がより正確であるため、より確実に学習することができる。
我々は,複数のペルソナ・アライメントの会話問題に対して,経験的な政策評価を行った。
- 参考スコア(独自算出の注目度): 43.33467583837307
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Reinforcement learning is a framework for learning to act sequentially in an unknown environment. We propose a natural approach for modeling policy structure in policy gradients. The key idea is to optimize for a subset of future rewards: smaller subsets represent simpler policies, which can be learned more reliably because their empirical gradient estimates are more accurate. Our approach allows for modeling and comparison of different policy classes, including full planning, greedy, K-step lookahead, and segment policies. We evaluate the policies empirically on multiple persona-alignment conversational problems. Different policies excel in different problems, reflecting their different characteristics and highlighting the importance of our studied policy class.
- Abstract(参考訳): 強化学習(Reinforcement learning)は、未知の環境で連続的に行動する学習のためのフレームワークである。
政策勾配における政策構造をモデル化するための自然なアプローチを提案する。
より小さな部分集合はより単純なポリシーを表現し、経験的勾配推定がより正確であるため、より確実に学習することができる。
我々のアプローチは、完全な計画、欲求、Kステップルックアヘッド、セグメントポリシーを含む、異なるポリシークラスをモデリングおよび比較することができる。
我々は,複数のペルソナ・アライメントの会話問題に対して,経験的な政策評価を行った。
異なる政策は異なる問題を反映し、異なる特徴を反映し、我々の研究した政策クラスの重要性を強調する。
関連論文リスト
- Learning Policy Representations for Steerable Behavior Synthesis [80.4542176039074]
マルコフ決定プロセス(MDP)を前提として,テスト時の行動ステアリングを促進するために,さまざまなポリシーの表現を学習する。
これらの表現は、セットベースアーキテクチャを用いて、様々なポリシーに対して均一に近似できることを示す。
変動生成法を用いてスムーズな潜伏空間を導出し,さらにコントラスト学習により、潜伏距離が値関数の差と一致するように形成する。
論文 参考訳(メタデータ) (2026-01-29T21:52:06Z) - Contrastive Policy Gradient: Aligning LLMs on sequence-level scores in a supervised-friendly fashion [43.77763433288893]
コントラストポリシーグラディエント(Contrastive Policy Gradient, COPG)は、単純かつ数学的に原理化された新しいRLアルゴリズムである。
本稿では,直接アライメント手法のIPO(アイデンティティ優先最適化)と古典的政策勾配を一般化する手法を提案する。
提案したCOPGをおもちゃのバンディット問題で実験し,その特性を説明するとともに,要約タスクでLLMを微調整する。
論文 参考訳(メタデータ) (2024-06-27T14:03:49Z) - Learning Optimal Deterministic Policies with Stochastic Policy Gradients [62.81324245896716]
政策勾配法(PG法)は連続強化学習(RL法)問題に対処する手法として成功している。
一般的には、収束(ハイパー)政治は、決定論的バージョンをデプロイするためにのみ学習される。
本稿では,サンプルの複雑性とデプロイされた決定論的ポリシのパフォーマンスのトレードオフを最適化するために,学習に使用する探索レベルの調整方法を示す。
論文 参考訳(メタデータ) (2024-05-03T16:45:15Z) - Towards A Unified Policy Abstraction Theory and Representation Learning
Approach in Markov Decision Processes [39.94472154078338]
本稿では,異なるレベルでの政策特徴に関連する3種類の政策抽象化を含む統一的な政策抽象化理論を提案する。
そして、それらを3つの政策指標に一般化し、政策の距離(すなわち類似性)を定量化する。
実証実験では,政策の差異を識別し,政策の一般化を伝達する上で,提案した政策指標と表現の有効性について検討する。
論文 参考訳(メタデータ) (2022-09-16T03:41:50Z) - Constructing a Good Behavior Basis for Transfer using Generalized Policy
Updates [63.58053355357644]
そこで我々は,優れた政策集合を学習する問題を考察し,組み合わせることで,目に見えない多種多様な強化学習タスクを解くことができることを示した。
理論的には、独立したポリシーのセットと呼ぶ、特定の多様なポリシーのセットにアクセスできることによって、ハイレベルなパフォーマンスを即時に達成できることが示される。
論文 参考訳(メタデータ) (2021-12-30T12:20:46Z) - Policy Evaluation Networks [50.53250641051648]
我々は,簡潔な埋め込みにおいて重要なポリシー情報を保持できる,スケーラブルで差別化可能なフィンガープリント機構を導入する。
実験の結果、これらの3つの要素を組み合わせることで、トレーニングデータを生成するものよりも優れたポリシーを作成できることが示された。
論文 参考訳(メタデータ) (2020-02-26T23:00:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。