論文の概要: Provably Efficient Reward Transfer in Reinforcement Learning with Discrete Markov Decision Processes
- arxiv url: http://arxiv.org/abs/2503.13414v3
- Date: Wed, 22 Oct 2025 17:22:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:04.634648
- Title: Provably Efficient Reward Transfer in Reinforcement Learning with Discrete Markov Decision Processes
- Title(参考訳): 離散マルコフ決定過程を用いた強化学習における確率的回帰移動
- Authors: Kevin Vora, Yu Zhang,
- Abstract要約: 我々は、強化学習における報酬適応(RA)のための新しいソリューションを提案する。
本稿では,Q関数の操作によるRAに対する新しいアプローチを提案する。
この手法を "Q-Manipulation" (Q-M) と呼ぶ。
- 参考スコア(独自算出の注目度): 2.9388795721577328
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we propose a new solution to reward adaptation (RA) in reinforcement learning, where the agent adapts to a target reward function based on one or more existing source behaviors learned a priori under the same domain dynamics but different reward functions. While learning the target behavior from scratch is possible, it is often inefficient given the available source behaviors. Our work introduces a new approach to RA through the manipulation of Q-functions. Assuming the target reward function is a known function of the source reward functions, we compute bounds on the Q-function and present an iterative process (akin to value iteration) to tighten these bounds. Such bounds enable action pruning in the target domain before learning even starts. We refer to this method as "Q-Manipulation" (Q-M). The iteration process assumes access to a lite-model, which is easy to provide or learn. We formally prove that Q-M, under discrete domains, does not affect the optimality of the returned policy and show that it is provably efficient in terms of sample complexity in a probabilistic sense. Q-M is evaluated in a variety of synthetic and simulation domains to demonstrate its effectiveness, generalizability, and practicality.
- Abstract(参考訳): そこで本研究では,エージェントが対象の報酬関数に適応する強化学習における報酬適応(RA)の新しい手法を提案する。
ターゲットの振る舞いをスクラッチから学ぶことは可能だが、利用可能なソースの振る舞いを考えると、しばしば非効率である。
本研究は,Q関数の操作によるRAに対する新しいアプローチを提案する。
対象の報酬関数がソースの報酬関数の既知の関数であると仮定すると、Q-函数上の有界関数を計算し、これらの有界関数を締め付けるための反復過程(値反復)を提示する。
このようなバウンダリは、学習を開始する前にターゲットドメインでアクションプルーニングを可能にする。
この手法を「Q-Manipulation」(Q-M)と呼ぶ。
イテレーションプロセスは、提供や学習が容易なライトモデルへのアクセスを前提とします。
離散領域の下では、Q-Mが返却ポリシーの最適性に影響を与えないことを正式に証明し、確率論的意味においてサンプル複雑性の点で証明可能な効率であることを示す。
Q-Mは、その有効性、一般化可能性、実用性を示すために、様々な合成およびシミュレーション領域で評価される。
関連論文リスト
- Recursive Reward Aggregation [51.552609126905885]
本稿では,報酬関数の変更を不要としたフレキシブルな行動アライメントのための代替手法を提案する。
マルコフ決定過程(MDP)の代数的視点を導入することにより、ベルマン方程式が報酬の生成と集約から自然に現れることを示す。
我々のアプローチは決定論的および決定論的設定の両方に適用され、価値に基づくアルゴリズムとアクター批判的アルゴリズムとシームレスに統合される。
論文 参考訳(メタデータ) (2025-07-11T12:37:20Z) - Outcome-Based Online Reinforcement Learning: Algorithms and Fundamental Limits [58.63897489864948]
結果に基づくフィードバックによる強化学習は、根本的な課題に直面します。
適切なアクションにクレジットを割り当てるには?
本稿では,一般関数近似を用いたオンラインRLにおけるこの問題の包括的解析を行う。
論文 参考訳(メタデータ) (2025-05-26T17:44:08Z) - Improving the Effectiveness of Potential-Based Reward Shaping in Reinforcement Learning [0.5524804393257919]
報酬形成の有効性を向上させるために,ポテンシャル関数の線形シフトがいかに簡単なかを示す。
正および負の報酬形成値を正しく割り当てるための連続ポテンシャル関数の理論的制限を示す。
論文 参考訳(メタデータ) (2025-02-03T12:32:50Z) - Boosting Soft Q-Learning by Bounding [4.8748194765816955]
任意の値関数推定が最適値関数上の二辺境界の導出にも利用できることを示す。
派生したバウンダリは、トレーニングパフォーマンスを高めるための新しいアプローチにつながります。
論文 参考訳(メタデータ) (2024-06-26T03:02:22Z) - REBEL: Reward Regularization-Based Approach for Robotic Reinforcement Learning from Human Feedback [61.54791065013767]
報酬関数と人間の嗜好の相違は、現実世界で破滅的な結果をもたらす可能性がある。
近年の手法は、人間の嗜好から報酬関数を学習することで、不適応を緩和することを目的としている。
本稿では,ロボットRLHFフレームワークにおける報酬正規化の新たな概念を提案する。
論文 参考訳(メタデータ) (2023-12-22T04:56:37Z) - Basis for Intentions: Efficient Inverse Reinforcement Learning using
Past Experience [89.30876995059168]
逆強化学習(IRL) - エージェントの報酬関数をその振る舞いを観察することから推測する。
本稿では、エージェントの報酬関数を観察することのできないIRLの問題に対処する。
論文 参考訳(メタデータ) (2022-08-09T17:29:49Z) - Dynamics-Aware Comparison of Learned Reward Functions [21.159457412742356]
報酬関数を学習する能力は、現実世界にインテリジェントエージェントを配置する上で重要な役割を果たす。
リワード関数は通常、最適化されたポリシーの振舞いを考慮することで比較されるが、このアプローチは報酬関数の欠陥を最適化に使用するポリシー探索アルゴリズムのそれと混同する。
そこで我々はDARD(Dynamics-Aware Reward Distance)を提案する。
論文 参考訳(メタデータ) (2022-01-25T03:48:00Z) - Offline Reinforcement Learning with Implicit Q-Learning [85.62618088890787]
現行のオフライン強化学習手法では、トレーニング中に見つからない行動の価値を問い合わせて、ポリシーを改善する必要がある。
本稿では,データセット外の動作を評価する必要のないオフラインRL手法を提案する。
この方法により、学習したポリシーは、一般化によってデータの最良の振る舞いを大幅に改善することができる。
論文 参考訳(メタデータ) (2021-10-12T17:05:05Z) - Outcome-Driven Reinforcement Learning via Variational Inference [95.82770132618862]
我々は、報酬を最大化する問題ではなく、望ましい結果を達成するための行動を推測する問題として、強化学習に関する新たな視点について論じる。
結果として得られる結果指向推論の問題を解決するため, 定型的報酬関数を導出する新しい変分推論定式を制定する。
我々は,この手法が報酬機能の設計を不要とし,効果的なゴール指向行動へと導くことを実証的に示す。
論文 参考訳(メタデータ) (2021-04-20T18:16:21Z) - Replacing Rewards with Examples: Example-Based Policy Search via
Recursive Classification [133.20816939521941]
標準的なマルコフ決定プロセス形式では、ユーザーは報酬関数を書き留めてタスクを指定する。
多くのシナリオでは、ユーザーはタスクを単語や数字で記述できないが、タスクが解決された場合の世界がどのように見えるかを簡単に示すことができる。
この観察に動機づけられた制御アルゴリズムは、成功した結果状態の例だけを考慮すれば、成功する結果につながる確率の高い状態を訪問することを目的としている。
論文 参考訳(メタデータ) (2021-03-23T16:19:55Z) - Off-Dynamics Reinforcement Learning: Training for Transfer with Domain
Classifiers [138.68213707587822]
強化学習におけるドメイン適応のためのシンプルで実践的で直感的なアプローチを提案する。
報酬関数を変更することで、力学の違いを補うことで、この目標を達成することができることを示す。
我々のアプローチは、連続状態とアクションを持つドメインに適用でき、ダイナミックスの明示的なモデルを学ぶ必要がない。
論文 参考訳(メタデータ) (2020-06-24T17:47:37Z) - Quantifying Differences in Reward Functions [24.66221171351157]
2つの報酬関数間の差を直接定量化するために、等価・ポリティ不変比較(EPIC)距離を導入する。
EPIC は、常に同じ最適ポリシーを導出する報酬関数の同値類において不変であることを示す。
論文 参考訳(メタデータ) (2020-06-24T17:35:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。