論文の概要: Reward Adaptation Via Q-Manipulation
- arxiv url: http://arxiv.org/abs/2503.13414v1
- Date: Mon, 17 Mar 2025 17:42:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-18 12:34:14.907015
- Title: Reward Adaptation Via Q-Manipulation
- Title(参考訳): Q-Manipulationによる逆適応
- Authors: Kevin Vora, Yu Zhang,
- Abstract要約: 本稿では、学習エージェントが1つまたは複数の既存行動に基づいて目標報酬関数に適応する問題である報酬適応(RA)に対する新しい解決策を提案する。
我々の研究は、Q-関数の操作によるRAに対する新しいアプローチを表している。
Q-Manipulation (Q-M) と呼ばれる手法について述べる。
- 参考スコア(独自算出の注目度): 3.8065968624597324
- License:
- Abstract: In this paper, we propose a new solution to reward adaptation (RA), the problem where the learning agent adapts to a target reward function based on one or multiple existing behaviors learned a priori under the same domain dynamics but different reward functions. Learning the target behavior from scratch is possible but often inefficient given the available source behaviors. Our work represents a new approach to RA via the manipulation of Q-functions. Assuming that the target reward function is a known function of the source reward functions, our approach to RA computes bounds of the Q function. We introduce an iterative process to tighten the bounds, similar to value iteration. This enables action pruning in the target domain before learning even starts. We refer to such a method as Q-Manipulation (Q-M). We formally prove that our pruning strategy does not affect the optimality of the returned policy while empirically show that it improves the sample complexity. Q-M is evaluated in a variety of synthetic and simulation domains to demonstrate its effectiveness, generalizability, and practicality.
- Abstract(参考訳): 本稿では,学習エージェントが対象の報酬関数に適応する問題である報酬適応(RA)の新たな解を提案する。
ターゲットの振る舞いをスクラッチから学ぶことは可能だが、利用可能なソースの振る舞いを考えると、しばしば非効率である。
我々の研究は、Q-関数の操作によるRAに対する新しいアプローチを表している。
対象の報奨関数がソースの報奨関数の既知の関数であると仮定すると、RAに対する我々のアプローチはQ関数の境界を計算する。
価値の反復と同様、バウンダリを締め付けるための反復的なプロセスを導入します。
これにより、学習を開始する前にターゲットドメインでアクションプルーニングが可能になる。
このような手法をQ-Manipulation (Q-M) と呼ぶ。
我々は,本手法がサンプルの複雑さを改善することを実証的に示しながら,返却方針の最適性に影響を及ぼさないことを正式に証明する。
Q-Mは、その有効性、一般化可能性、実用性を示すために、様々な合成およびシミュレーション領域で評価される。
関連論文リスト
- Improving the Effectiveness of Potential-Based Reward Shaping in Reinforcement Learning [0.5524804393257919]
報酬形成の有効性を向上させるために,ポテンシャル関数の線形シフトがいかに簡単なかを示す。
正および負の報酬形成値を正しく割り当てるための連続ポテンシャル関数の理論的制限を示す。
論文 参考訳(メタデータ) (2025-02-03T12:32:50Z) - Boosting Soft Q-Learning by Bounding [4.8748194765816955]
任意の値関数推定が最適値関数上の二辺境界の導出にも利用できることを示す。
派生したバウンダリは、トレーニングパフォーマンスを高めるための新しいアプローチにつながります。
論文 参考訳(メタデータ) (2024-06-26T03:02:22Z) - REBEL: Reward Regularization-Based Approach for Robotic Reinforcement Learning from Human Feedback [61.54791065013767]
報酬関数と人間の嗜好の相違は、現実世界で破滅的な結果をもたらす可能性がある。
近年の手法は、人間の嗜好から報酬関数を学習することで、不適応を緩和することを目的としている。
本稿では,ロボットRLHFフレームワークにおける報酬正規化の新たな概念を提案する。
論文 参考訳(メタデータ) (2023-12-22T04:56:37Z) - Basis for Intentions: Efficient Inverse Reinforcement Learning using
Past Experience [89.30876995059168]
逆強化学習(IRL) - エージェントの報酬関数をその振る舞いを観察することから推測する。
本稿では、エージェントの報酬関数を観察することのできないIRLの問題に対処する。
論文 参考訳(メタデータ) (2022-08-09T17:29:49Z) - Dynamics-Aware Comparison of Learned Reward Functions [21.159457412742356]
報酬関数を学習する能力は、現実世界にインテリジェントエージェントを配置する上で重要な役割を果たす。
リワード関数は通常、最適化されたポリシーの振舞いを考慮することで比較されるが、このアプローチは報酬関数の欠陥を最適化に使用するポリシー探索アルゴリズムのそれと混同する。
そこで我々はDARD(Dynamics-Aware Reward Distance)を提案する。
論文 参考訳(メタデータ) (2022-01-25T03:48:00Z) - Offline Reinforcement Learning with Implicit Q-Learning [85.62618088890787]
現行のオフライン強化学習手法では、トレーニング中に見つからない行動の価値を問い合わせて、ポリシーを改善する必要がある。
本稿では,データセット外の動作を評価する必要のないオフラインRL手法を提案する。
この方法により、学習したポリシーは、一般化によってデータの最良の振る舞いを大幅に改善することができる。
論文 参考訳(メタデータ) (2021-10-12T17:05:05Z) - Outcome-Driven Reinforcement Learning via Variational Inference [95.82770132618862]
我々は、報酬を最大化する問題ではなく、望ましい結果を達成するための行動を推測する問題として、強化学習に関する新たな視点について論じる。
結果として得られる結果指向推論の問題を解決するため, 定型的報酬関数を導出する新しい変分推論定式を制定する。
我々は,この手法が報酬機能の設計を不要とし,効果的なゴール指向行動へと導くことを実証的に示す。
論文 参考訳(メタデータ) (2021-04-20T18:16:21Z) - Replacing Rewards with Examples: Example-Based Policy Search via
Recursive Classification [133.20816939521941]
標準的なマルコフ決定プロセス形式では、ユーザーは報酬関数を書き留めてタスクを指定する。
多くのシナリオでは、ユーザーはタスクを単語や数字で記述できないが、タスクが解決された場合の世界がどのように見えるかを簡単に示すことができる。
この観察に動機づけられた制御アルゴリズムは、成功した結果状態の例だけを考慮すれば、成功する結果につながる確率の高い状態を訪問することを目的としている。
論文 参考訳(メタデータ) (2021-03-23T16:19:55Z) - Off-Dynamics Reinforcement Learning: Training for Transfer with Domain
Classifiers [138.68213707587822]
強化学習におけるドメイン適応のためのシンプルで実践的で直感的なアプローチを提案する。
報酬関数を変更することで、力学の違いを補うことで、この目標を達成することができることを示す。
我々のアプローチは、連続状態とアクションを持つドメインに適用でき、ダイナミックスの明示的なモデルを学ぶ必要がない。
論文 参考訳(メタデータ) (2020-06-24T17:47:37Z) - Quantifying Differences in Reward Functions [24.66221171351157]
2つの報酬関数間の差を直接定量化するために、等価・ポリティ不変比較(EPIC)距離を導入する。
EPIC は、常に同じ最適ポリシーを導出する報酬関数の同値類において不変であることを示す。
論文 参考訳(メタデータ) (2020-06-24T17:35:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。