論文の概要: Personalized Path Recourse for Reinforcement Learning Agents
- arxiv url: http://arxiv.org/abs/2312.08724v3
- Date: Sun, 03 Nov 2024 09:16:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-05 14:42:55.586638
- Title: Personalized Path Recourse for Reinforcement Learning Agents
- Title(参考訳): 強化学習エージェントのためのパーソナライズされたパスレコース
- Authors: Dat Hong, Tong Wang,
- Abstract要約: 目標は、エージェントの本来のパスと高い類似性を確保しながら、望ましい目標を達成するために、与えられた行動経路を編集することである。
このようなパーソナライズされたパスを生成するために、パーソナライズされたリコースエージェントを訓練する。
提案手法は強化学習と教師あり学習設定の両方に適用できる。
- 参考スコア(独自算出の注目度): 4.768286204382179
- License:
- Abstract: This paper introduces Personalized Path Recourse, a novel method that generates recourse paths for a reinforcement learning agent. The goal is to edit a given path of actions to achieve desired goals (e.g., better outcomes compared to the agent's original path) while ensuring a high similarity to the agent's original paths and being personalized to the agent. Personalization refers to the extent to which the new path is tailored to the agent's observed behavior patterns from their policy function. We train a personalized recourse agent to generate such personalized paths, which are obtained using reward functions that consider the goal, similarity, and personalization. The proposed method is applicable to both reinforcement learning and supervised learning settings for correcting or improving sequences of actions or sequences of data to achieve a pre-determined goal. The method is evaluated in various settings. Experiments show that our model not only recourses for a better outcome but also adapts to different agents' behavior.
- Abstract(参考訳): 本稿では,強化学習エージェントのためのリコースパスを生成する新しい手法であるパーソナライズドパス・リコースを紹介する。
目的は、エージェントの本来のパスと高い類似性を確保し、エージェントにパーソナライズされたまま、望ましい目標を達成するために、与えられたアクションのパス(例えば、エージェントの本来のパスよりも良い結果)を編集することである。
パーソナライゼーション(Personalization)とは、新しいパスがエージェントのポリシー機能から観察された行動パターンに合わせて調整される範囲を指す。
我々は、目標、類似性、パーソナライゼーションを考慮した報酬関数を用いて得られるパーソナライズされたパスを生成するために、パーソナライズされたリコースエージェントを訓練する。
提案手法は、事前決定された目標を達成するために、行動の順序やデータの順序を修正または改善するための強化学習と教師付き学習設定の両方に適用できる。
この方法は様々な設定で評価される。
実験により、我々のモデルはより良い結果をもたらすだけでなく、異なるエージェントの行動にも適応することが示された。
関連論文リスト
- From Novice to Expert: LLM Agent Policy Optimization via Step-wise Reinforcement Learning [62.54484062185869]
本稿では,エージェントの強化学習プロセスの最適化にステップワイド報酬を利用するStepAgentを紹介する。
エージェント反射とポリシー調整を容易にする暗黙の逆・逆の強化学習手法を提案する。
論文 参考訳(メタデータ) (2024-11-06T10:35:11Z) - Transfer Reinforcement Learning in Heterogeneous Action Spaces using Subgoal Mapping [9.81076530822611]
本稿では,専門家エージェントポリシーと学習者エージェントポリシーのサブゴールマッピングを学習する手法を提案する。
タスクの分散のために,Long Short Term Memory (LSTM) ネットワークをトレーニングすることで,このサブゴールマッピングを学習する。
提案手法は,与えられたタスクの分布に基づくサブゴールマッピングを効果的に発見できることを実証する。
論文 参考訳(メタデータ) (2024-10-18T14:08:41Z) - A State Augmentation based approach to Reinforcement Learning from Human
Preferences [20.13307800821161]
優先に基づく強化学習は、クエリされたトラジェクトリペアのバイナリフィードバックを利用することで、この問題を解決しようとする。
本稿では,エージェントの報酬モデルが堅牢である状態拡張手法を提案する。
論文 参考訳(メタデータ) (2023-02-17T07:10:50Z) - A Fully Controllable Agent in the Path Planning using Goal-Conditioned
Reinforcement Learning [0.0]
経路計画において、経路は、エージェントが様々な目標に達することが重要であるなど、変数の数によって異なる場合がある。
経路計画における完全制御可能なエージェントのための新しい強化学習フレームワークを提案する。
論文 参考訳(メタデータ) (2022-05-20T05:18:03Z) - Explaining Reinforcement Learning Policies through Counterfactual
Trajectories [147.7246109100945]
人間の開発者は、RLエージェントがテスト時にうまく機能することを検証しなければならない。
本手法では, エージェントの挙動をより広い軌道分布で示すことにより, エージェントの挙動を分布変化下で表現する。
本研究では,2つのエージェント検証タスクのうちの1つに対して,ベースライン法よりも優れたスコアを得られることを示す。
論文 参考訳(メタデータ) (2022-01-29T00:52:37Z) - Contrastive Explanations for Comparing Preferences of Reinforcement
Learning Agents [16.605295052893986]
報酬関数が単純でない複雑なタスクでは、報酬関数に対する個々の目的の影響を調整することで、多重強化学習(RL)ポリシーを訓練することができる。
この研究では、同じタスクで訓練された2つのポリシーの振る舞いを、目的において異なる好みで比較します。
本稿では,2つのRLエージェントの嗜好の相反する結果の相違から生じる行動の差異を識別する手法を提案する。
論文 参考訳(メタデータ) (2021-12-17T11:57:57Z) - You Mostly Walk Alone: Analyzing Feature Attribution in Trajectory
Prediction [52.442129609979794]
軌道予測のための最近の深層学習手法は有望な性能を示す。
そのようなブラックボックスモデルが実際にどのモデルを予測するために使うのかは、まだ不明である。
本稿では,モデル性能に対する異なるキューの貢献度を定量化する手法を提案する。
論文 参考訳(メタデータ) (2021-10-11T14:24:15Z) - Adversarial Intrinsic Motivation for Reinforcement Learning [60.322878138199364]
政策状態の訪問分布と目標分布とのワッサースタイン-1距離が強化学習タスクに有効に活用できるかどうかを検討する。
我々のアプローチは、AIM (Adversarial Intrinsic Motivation) と呼ばれ、このワッサーシュタイン-1距離をその双対目的を通して推定し、補足報酬関数を計算する。
論文 参考訳(メタデータ) (2021-05-27T17:51:34Z) - Outcome-Driven Reinforcement Learning via Variational Inference [95.82770132618862]
我々は、報酬を最大化する問題ではなく、望ましい結果を達成するための行動を推測する問題として、強化学習に関する新たな視点について論じる。
結果として得られる結果指向推論の問題を解決するため, 定型的報酬関数を導出する新しい変分推論定式を制定する。
我々は,この手法が報酬機能の設計を不要とし,効果的なゴール指向行動へと導くことを実証的に示す。
論文 参考訳(メタデータ) (2021-04-20T18:16:21Z) - Automatic Curriculum Learning through Value Disagreement [95.19299356298876]
新しい未解決タスクを継続的に解決することが、多様な行動を学ぶための鍵です。
エージェントが複数の目標を達成する必要があるマルチタスク領域では、トレーニング目標の選択はサンプル効率に大きな影響を与える可能性がある。
そこで我々は,エージェントが解決すべき目標のための自動カリキュラムを作成することを提案する。
提案手法は,13のマルチゴールロボットタスクと5つのナビゲーションタスクにまたがって評価し,現在の最先端手法よりも高い性能を示す。
論文 参考訳(メタデータ) (2020-06-17T03:58:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。