論文の概要: A State Representation for Diminishing Rewards
- arxiv url: http://arxiv.org/abs/2309.03710v1
- Date: Thu, 7 Sep 2023 13:38:36 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-08 12:58:48.761364
- Title: A State Representation for Diminishing Rewards
- Title(参考訳): 報酬を減らすための状態表現
- Authors: Ted Moskovitz, Samo Hromadka, Ahmed Touati, Diana Borsa, Maneesh
Sahani
- Abstract要約: マルチタスク強化学習(RL)における一般的な設定は、エージェントが固定分布からランダムにサンプリングされた様々な定常報酬関数に迅速に適応することを要求する。
自然界では、シーケンシャルなタスクは滅多に独立せず、代わりに報酬刺激の可利用性と主観的な認識に基づいて優先順位を変えることを反映している。
我々は、この設定でポリシー評価に必要とされる$lambda$ representation(lambda$R)を紹介します。
- 参考スコア(独自算出の注目度): 20.945260614372327
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: A common setting in multitask reinforcement learning (RL) demands that an
agent rapidly adapt to various stationary reward functions randomly sampled
from a fixed distribution. In such situations, the successor representation
(SR) is a popular framework which supports rapid policy evaluation by
decoupling a policy's expected discounted, cumulative state occupancies from a
specific reward function. However, in the natural world, sequential tasks are
rarely independent, and instead reflect shifting priorities based on the
availability and subjective perception of rewarding stimuli. Reflecting this
disjunction, in this paper we study the phenomenon of diminishing marginal
utility and introduce a novel state representation, the $\lambda$
representation ($\lambda$R) which, surprisingly, is required for policy
evaluation in this setting and which generalizes the SR as well as several
other state representations from the literature. We establish the $\lambda$R's
formal properties and examine its normative advantages in the context of
machine learning, as well as its usefulness for studying natural behaviors,
particularly foraging.
- Abstract(参考訳): マルチタスク強化学習(rl)における共通設定は、エージェントが固定分布からランダムにサンプリングされた様々な定常報酬関数に迅速に適応することを要求する。
このような状況下では、後継代表(sr)は、政策の期待値、累積状態の占有を特定の報酬機能から切り離して、迅速な政策評価を支援する一般的な枠組みである。
しかし、自然界では、シーケンシャルなタスクは滅多に独立せず、報酬刺激の可利用性と主観的な認識に基づいて優先順位のシフトを反映している。
そこで,本論文では,辺縁的有用性を低下させる現象を考察し,新しい状態表現である$\lambda$ representation (\lambda$r) を導入する。
我々は、$\lambda$Rの形式的特性を確立し、機械学習の文脈における規範的な利点と、自然行動の研究、特に採餌に有用性を検討する。
関連論文リスト
- Off-Policy Maximum Entropy RL with Future State and Action Visitation Measures [1.75493501156941]
本稿では,政策が訪れた状態と行動の分布に基づく,新たな最大エントロピー強化学習フレームワークを提案する。
それぞれの州と行動について、本質的な報酬は、次のステップで訪れた州と行動の割引された分配の相対的なエントロピーである。
論文 参考訳(メタデータ) (2024-12-09T16:56:06Z) - Interpretable Reward Redistribution in Reinforcement Learning: A Causal
Approach [45.83200636718999]
強化学習における大きな課題は、将来の報酬にどの状態-作用ペアが責任を持つかを決定することである。
我々は、因果的な観点から、状態と行動の貢献を明示的にモデル化し、解釈可能な報酬の再分配をもたらすことを提案する。
実験の結果,本手法は最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2023-05-28T21:51:38Z) - Reward Collapse in Aligning Large Language Models [64.98482888193267]
著者らは,ランキングに基づくアプローチがテキストの報酬分布をもたらす経験的観察である「テクストトレワード崩壊現象」について検討した。
実験結果から,提案手法により,報酬モデルのトレーニングにおいて,報酬の崩壊が著しく軽減されることが示唆された。
論文 参考訳(メタデータ) (2023-05-28T02:12:00Z) - Learning Symbolic Representations for Reinforcement Learning of
Non-Markovian Behavior [23.20013012953065]
我々は、状態-作用履歴の学習自動化を支援する有用な状態抽象化を自動的に発見する方法を示す。
その結果、最先端のRLよりもはるかに少ない環境サンプルで最適なポリシーを学習できるエンドツーエンドのアルゴリズムが得られた。
論文 参考訳(メタデータ) (2023-01-08T00:47:19Z) - Rewards Encoding Environment Dynamics Improves Preference-based
Reinforcement Learning [4.969254618158096]
本研究では、報酬関数(REED)の符号化環境ダイナミクスにより、最先端の嗜好に基づくRLフレームワークに必要な選好ラベルの数を劇的に減らすことを示す。
一部のドメインでは、REEDベースの報酬関数は、基礎的真理報酬に基づいて訓練されたポリシーより優れたポリシーをもたらす。
論文 参考訳(メタデータ) (2022-11-12T00:34:41Z) - Benefits of Permutation-Equivariance in Auction Mechanisms [90.42990121652956]
競売人の収益を最大化しつつ、競売人の過去の後悔を最小限にする競売メカニズムは、経済学において重要であるが複雑な問題である。
ニューラルネットワークによる最適なオークションメカニズムの学習を通じて、注目すべき進歩が達成されている。
論文 参考訳(メタデータ) (2022-10-11T16:13:25Z) - Temporally Extended Successor Representations [0.9176056742068812]
後続表現の時間的に拡張された変化を t-SR と呼ぶ。
t-SRは、原始的なアクションリピートの上に後続表現を構築することによって、時間的に拡張されたアクションの期待状態遷移ダイナミクスをキャプチャする。
動的報酬構造を持つ環境では、t-SRは後継表現の柔軟性と時間的に拡張された動作によって得られる抽象化の両方を活用することができることを示す。
論文 参考訳(メタデータ) (2022-09-25T22:08:08Z) - Policy Gradient Bayesian Robust Optimization for Imitation Learning [49.881386773269746]
我々は、期待される性能とリスクのバランスをとるために、新しいポリシー勾配スタイルのロバスト最適化手法PG-BROILを導出する。
その結果,PG-BROILはリスクニュートラルからリスク・アバースまでの行動のファミリを創出できる可能性が示唆された。
論文 参考訳(メタデータ) (2021-06-11T16:49:15Z) - Policy Mirror Descent for Regularized Reinforcement Learning: A
Generalized Framework with Linear Convergence [60.20076757208645]
本稿では,正規化RLを解くためのGPMDアルゴリズムを提案する。
我々は,このアルゴリズムが次元自由な方法で,全範囲の学習率に線形に収束することを実証した。
論文 参考訳(メタデータ) (2021-05-24T02:21:34Z) - DisCo RL: Distribution-Conditioned Reinforcement Learning for
General-Purpose Policies [116.12670064963625]
分散条件強化学習(DisCo RL)と呼ばれるオフポリシーアルゴリズムを開発し、コンテキストポリシーを効率的に学習します。
DisCo RLをさまざまなロボット操作タスクで評価し、新しい目標分布への一般化を必要とするタスクの以前の方法を大幅に上回っていることを発見しました。
論文 参考訳(メタデータ) (2021-04-23T16:51:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。