論文の概要: Improving Reward-Conditioned Policies for Multi-Armed Bandits using Normalized Weight Functions
- arxiv url: http://arxiv.org/abs/2406.10795v1
- Date: Sun, 16 Jun 2024 03:43:55 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-18 20:51:13.769547
- Title: Improving Reward-Conditioned Policies for Multi-Armed Bandits using Normalized Weight Functions
- Title(参考訳): 正規化重み関数を用いたマルチアーマッドバンドの逆条件改善
- Authors: Kai Xu, Farid Tajaddodianfar, Ben Allison,
- Abstract要約: 最近提案された報酬条件付き政策(RCP)は、強化学習において魅力的な代替手段を提供する。
従来の手法と比較して,RCPは収束が遅く,収束時に期待される報酬が劣っていることを示す。
我々は、この手法を一般化された余分化と呼び、その利点は、低い報酬に条件付けられた政策に対する負の重み付けが、結果の政策をそれらとより区別することができることである。
- 参考スコア(独自算出の注目度): 8.90692770076582
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently proposed reward-conditioned policies (RCPs) offer an appealing alternative in reinforcement learning. Compared with policy gradient methods, policy learning in RCPs is simpler since it is based on supervised learning, and unlike value-based methods, it does not require optimization in the action space to take actions. However, for multi-armed bandit (MAB) problems, we find that RCPs are slower to converge and have inferior expected rewards at convergence, compared with classic methods such as the upper confidence bound and Thompson sampling. In this work, we show that the performance of RCPs can be enhanced by constructing policies through the marginalization of rewards using normalized weight functions, whose sum or integral equal $1$, although the function values may be negative. We refer to this technique as generalized marginalization, whose advantage is that negative weights for policies conditioned on low rewards can make the resulting policies more distinct from them. Strategies to perform generalized marginalization in MAB with discrete action spaces are studied. Through simulations, we demonstrate that the proposed technique improves RCPs and makes them competitive with classic methods, showing superior performance on challenging MABs with large action spaces and sparse reward signals.
- Abstract(参考訳): 最近提案された報酬条件付き政策(RCP)は、強化学習において魅力的な代替手段を提供する。
ポリシー勾配法と比較して、RCPのポリシー学習は教師付き学習に基づいているため簡単であり、価値に基づく手法とは異なり、アクション空間におけるアクションの最適化は不要である。
しかし,マルチアームバンディット(MAB)問題では,RCPは収束が遅く,収束時に期待される報酬が劣ることがわかった。
本研究では,関数値が負の値であっても,和や積分が1ドルと等しい正規化重み関数を用いて報酬の余剰化を通じてポリシーを構築することにより,RCPの性能を向上させることができることを示す。
我々は、この手法を一般化された余分化と呼び、その利点は、低い報酬に条件付けられた政策に対する負の重み付けが、結果の政策をそれらとより区別することができることである。
離散的な作用空間を持つMABにおける一般化された限界化を行うための戦略について検討した。
シミュレーションにより,提案手法はRCPを改良し,従来の手法と競合することを示した。
関連論文リスト
- Contrastive Policy Gradient: Aligning LLMs on sequence-level scores in a supervised-friendly fashion [44.95386817008473]
コントラストポリシーグラディエント(Contrastive Policy Gradient, COPG)は、単純かつ数学的に原理化された新しいRLアルゴリズムである。
本稿では,直接アライメント手法のIPO(アイデンティティ優先最適化)と古典的政策勾配を一般化する手法を提案する。
提案したCOPGをおもちゃのバンディット問題で実験し,その特性を説明するとともに,要約タスクでLLMを微調整する。
論文 参考訳(メタデータ) (2024-06-27T14:03:49Z) - WARP: On the Benefits of Weight Averaged Rewarded Policies [66.95013068137115]
ウェイトアベレード・リワード・ポリシー(WARP)という新しいアライメント戦略を導入する。
WARPは重量空間のポリシーを3つの異なる段階でマージする。
GEMMAポリシによる実験では、WARPが品質とアライメントを改善し、他のオープンソースLLMよりも優れています。
論文 参考訳(メタデータ) (2024-06-24T16:24:34Z) - Policy Gradient with Active Importance Sampling [55.112959067035916]
政策勾配法(PG法)はISの利点を大いに生かし、以前に収集したサンプルを効果的に再利用することができる。
しかし、ISは歴史的サンプルを再重み付けするための受動的ツールとしてRLに採用されている。
我々は、政策勾配のばらつきを減らすために、サンプルを収集する最良の行動ポリシーを模索する。
論文 参考訳(メタデータ) (2024-05-09T09:08:09Z) - Learning Optimal Deterministic Policies with Stochastic Policy Gradients [62.81324245896716]
政策勾配法(PG法)は連続強化学習(RL法)問題に対処する手法として成功している。
一般的には、収束(ハイパー)政治は、決定論的バージョンをデプロイするためにのみ学習される。
本稿では,サンプルの複雑性とデプロイされた決定論的ポリシのパフォーマンスのトレードオフを最適化するために,学習に使用する探索レベルの調整方法を示す。
論文 参考訳(メタデータ) (2024-05-03T16:45:15Z) - Potential-Based Reward Shaping For Intrinsic Motivation [4.798097103214276]
内在的モチベーション(IM)報酬形成手法は、環境における最適な政策のセットを不注意に変更し、最適以下の行動を引き起こす。
PBRSの拡張として、より一般的な関数集合の下で最適なポリシーの集合を保存することを証明した。
また、最適ポリシーのセットを変更することなく、IM報酬をポテンシャルベースの形式に変換する方法であるPBIM(Em potential-based Intrinsic Motivation)を提案する。
論文 参考訳(メタデータ) (2024-02-12T05:12:09Z) - Handling Cost and Constraints with Off-Policy Deep Reinforcement
Learning [2.793095554369282]
政治外学習の最も一般的な方法は、学習された状態アクション(Q$)値関数が選択されたデータのバッチに対して最大化されるポリシー改善ステップである。
我々は、この戦略を「混合符号」報酬関数を持つ環境で再考する。
この2つ目のアプローチは、混合符号の報酬を持つ連続的な行動空間に適用した場合、リセットによって拡張された最先端の手法よりも一貫して、著しく優れる。
論文 参考訳(メタデータ) (2023-11-30T16:31:04Z) - Semi-On-Policy Training for Sample Efficient Multi-Agent Policy
Gradients [51.749831824106046]
本稿では,オンライン政策グラデーション手法のサンプル非効率性に効果的かつ効率的な手法として,セミ・オン・ポリティ(SOP)トレーニングを導入する。
提案手法は,様々なSMACタスクにおいて,最先端の値ベース手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2021-04-27T19:37:01Z) - State Augmented Constrained Reinforcement Learning: Overcoming the
Limitations of Learning with Rewards [88.30521204048551]
制約付き強化学習の一般的な定式化には、与えられた閾値に個別に蓄積しなければならない複数の報酬が含まれる。
ここでは,任意の重み付けされた報酬の線形結合によって,所望の最適政策を誘導できない簡単な例を示す。
この研究は、ラグランジュ乗算器で状態を増大させ、原始双対法を再解釈することで、この欠点に対処する。
論文 参考訳(メタデータ) (2021-02-23T21:07:35Z) - Difference Rewards Policy Gradients [17.644110838053134]
本稿では,分散化政策の学習を可能にするために,差分報酬とポリシを組み合わせた新しいアルゴリズムを提案する。
報酬関数を直接区別することで、Dr.ReinforceはQ-関数の学習に伴う困難を避けることができる。
差分報酬を推定するために用いられる追加報酬ネットワークを学習するDr.Reinforceのバージョンの有効性を示す。
論文 参考訳(メタデータ) (2020-12-21T11:23:17Z) - Reward-Conditioned Policies [100.64167842905069]
模倣学習には、ほぼ最適の専門家データが必要である。
実演なしで指導的学習を通じて効果的な政策を学べるか?
政策探索の原則的手法として,このようなアプローチを導出する方法を示す。
論文 参考訳(メタデータ) (2019-12-31T18:07:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。