論文の概要: Semi-pessimistic Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2505.19002v1
- Date: Sun, 25 May 2025 06:47:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:42.826079
- Title: Semi-pessimistic Reinforcement Learning
- Title(参考訳): 半悲観的強化学習
- Authors: Jin Zhu, Xin Zhou, Jiaang Yao, Gholamali Aminian, Omar Rivasplata, Simon Little, Lexin Li, Chengchun Shi,
- Abstract要約: 本稿では,豊富なラベルのないデータを活用する半悲観的RL法を提案する。
報酬関数の下位境界を求めるため、学習プロセスをかなり単純化する。
膨大なラベルのないデータを使用する場合、保証された改善を享受するが、はるかに制限的な条件を必要とする。
- 参考スコア(独自算出の注目度): 14.86779635383123
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Offline reinforcement learning (RL) aims to learn an optimal policy from pre-collected data. However, it faces challenges of distributional shift, where the learned policy may encounter unseen scenarios not covered in the offline data. Additionally, numerous applications suffer from a scarcity of labeled reward data. Relying on labeled data alone often leads to a narrow state-action distribution, further amplifying the distributional shift, and resulting in suboptimal policy learning. To address these issues, we first recognize that the volume of unlabeled data is typically substantially larger than that of labeled data. We then propose a semi-pessimistic RL method to effectively leverage abundant unlabeled data. Our approach offers several advantages. It considerably simplifies the learning process, as it seeks a lower bound of the reward function, rather than that of the Q-function or state transition function. It is highly flexible, and can be integrated with a range of model-free and model-based RL algorithms. It enjoys the guaranteed improvement when utilizing vast unlabeled data, but requires much less restrictive conditions. We compare our method with a number of alternative solutions, both analytically and numerically, and demonstrate its clear competitiveness. We further illustrate with an application to adaptive deep brain stimulation for Parkinson's disease.
- Abstract(参考訳): オフライン強化学習(RL)は、事前収集データから最適なポリシーを学ぶことを目的としている。
しかし、学習したポリシーがオフラインデータにカバーされない未知のシナリオに遭遇する可能性がある、分散シフトの課題に直面している。
さらに、多くのアプリケーションがラベル付き報酬データの不足に悩まされている。
ラベル付きデータのみを頼りにすることで、状態-行動の分布が狭くなり、さらに分布シフトが増幅され、最適以下の政策学習がもたらされる。
これらの問題に対処するために、ラベル付きデータのボリュームがラベル付きデータのボリュームよりも典型的にかなり大きいことを最初に認識する。
次に、豊富なラベルのないデータを効果的に活用する半悲観的RL法を提案する。
私たちのアプローチにはいくつかの利点があります。
Q-関数や状態遷移関数よりも報酬関数の低い境界を求めるため、学習プロセスをかなり単純化する。
柔軟性が高く、モデルフリーおよびモデルベースRLアルゴリズムと統合することができる。
膨大なラベルのないデータを使用する場合、保証された改善を享受するが、はるかに制限的な条件を必要とする。
解析的にも数値的にも,本手法をいくつかの代替解と比較し,その明らかな競合性を示す。
さらに、パーキンソン病に対する適応的な深部脳刺激への応用について述べる。
関連論文リスト
- Asymmetric Co-Training for Source-Free Few-Shot Domain Adaptation [5.611768906855499]
SFFSDAシナリオに特化して設計された非対称コトレーニング(ACT)手法を提案する。
ターゲットモデルをトレーニングするために、2段階の最適化プロセスを使用します。
本研究は,少数のラベル付き対象データのみを用いた事前学習モデルの適用により,実用的で信頼性の高い解が得られることを示唆する。
論文 参考訳(メタデータ) (2025-02-20T02:58:45Z) - Fine-Tuning Language Models with Reward Learning on Policy [68.70065254564642]
人間からのフィードバックからの強化学習(RLHF)は、大きな言語モデル(LLM)を人間の好みに合わせる効果的なアプローチとして現れている。
その人気にもかかわらず、(固定された)報酬モデルが不正確な流通に悩まされることがある。
本稿では、政策サンプルを用いて報酬モデルを洗練し、流通を継続する、教師なしのフレームワークであるポリシーに関する報酬学習(RLP)を提案する。
論文 参考訳(メタデータ) (2024-03-28T10:02:10Z) - Pessimistic Causal Reinforcement Learning with Mediators for Confounded Offline Data [17.991833729722288]
我々は新しいポリシー学習アルゴリズム PESsimistic CAusal Learning (PESCAL) を提案する。
我々のキーとなる観察は、システム力学における作用の効果を媒介する補助変数を組み込むことで、Q-関数の代わりに媒介物分布関数の下位境界を学習することは十分であるということである。
提案するアルゴリズムの理論的保証とシミュレーションによる有効性の実証、および主要な配車プラットフォームからのオフラインデータセットを利用した実世界の実験を提供する。
論文 参考訳(メタデータ) (2024-03-18T14:51:19Z) - Adversarial Imitation Learning On Aggregated Data [0.0]
逆強化学習(IRL: Inverse Reinforcement Learning)は、いくつかの専門家による実証から最適なポリシーを学習し、適切な報酬関数を指定するという面倒なプロセスを避ける。
本稿では,AILAD(Adversarial Imitation Learning on Aggregated Data)と呼ばれる動的適応手法を用いて,これらの要件を除去する手法を提案する。
非線型報酬関数とそれに付随する最適ポリシーの両方を、敵対的枠組みを用いて共役的に学習する。
論文 参考訳(メタデータ) (2023-11-14T22:13:38Z) - Federated Offline Reinforcement Learning [55.326673977320574]
マルチサイトマルコフ決定プロセスモデルを提案する。
我々は,オフラインRLを対象とした最初のフェデレーション最適化アルゴリズムを設計する。
提案アルゴリズムでは,学習ポリシーの準最適性は,データが分散していないような速度に匹敵する,理論的保証を与える。
論文 参考訳(メタデータ) (2022-06-11T18:03:26Z) - How to Leverage Unlabeled Data in Offline Reinforcement Learning [125.72601809192365]
オフライン強化学習(RL)は、静的データセットから制御ポリシーを学ぶことができるが、標準のRLメソッドと同様に、移行毎に報酬アノテーションを必要とする。
1つの自然な解決策は、ラベル付けされたデータから報酬関数を学習し、ラベル付けされていないデータをラベル付けすることである。
ラベルのないデータに単純に報酬をゼロにする方が、効果的なデータ共有につながる。
論文 参考訳(メタデータ) (2022-02-03T18:04:54Z) - Local Learning Matters: Rethinking Data Heterogeneity in Federated
Learning [61.488646649045215]
フェデレートラーニング(FL)は、クライアントのネットワーク(エッジデバイス)でプライバシ保護、分散ラーニングを行うための有望な戦略である。
論文 参考訳(メタデータ) (2021-11-28T19:03:39Z) - False Correlation Reduction for Offline Reinforcement Learning [115.11954432080749]
本稿では,実効的かつ理論的に証明可能なアルゴリズムであるオフラインRLに対するfalSe Correlation Reduction (SCORE)を提案する。
SCOREは、標準ベンチマーク(D4RL)において、様々なタスクにおいて3.1倍の高速化でSoTA性能を達成することを実証的に示す。
論文 参考訳(メタデータ) (2021-10-24T15:34:03Z) - Is Pessimism Provably Efficient for Offline RL? [104.00628430454479]
優先度を収集したデータセットに基づいて最適なポリシーを学ぶことを目的としたオフライン強化学習(RL)について検討する。
ペナルティ関数として不確かさ量化器を組み込んだ値反復アルゴリズム(pevi)の悲観的変種を提案する。
論文 参考訳(メタデータ) (2020-12-30T09:06:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。