Fugu-MT 論文翻訳(概要): Pairwise Weights for Temporal Credit Assignment

論文の概要: Pairwise Weights for Temporal Credit Assignment

arxiv url: http://arxiv.org/abs/2102.04999v1
Date: Tue, 9 Feb 2021 18:06:29 GMT
ステータス: 翻訳完了
システム内更新日: 2021-02-10 15:16:00.028683
Title: Pairwise Weights for Temporal Credit Assignment
Title（参考訳）: Pairwise Weights for Temporal Credit Assignment
Authors: Zeyu Zheng, Risto Vuorio, Richard Lewis, Satinder Singh
Abstract要約: 州で取られた行動は、将来の報奨としてどのくらいの信用(または責任)を得るべきか? これは強化学習(RL)における基本的な信用割当問題である政策の通常のRLトレーニングにおいて,これらの重み関数を学習するためのメタグラディエントな手順を開発する。私たちの経験的研究は、競合するアプローチよりも優れたパフォーマンスを達成するためのポリシーの学習中に、これらのペアウェイト関数を学習することがしばしば可能であることを示している。
参考スコア（独自算出の注目度）: 20.532698866345964
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: How much credit (or blame) should an action taken in a state get for a future reward? This is the fundamental temporal credit assignment problem in Reinforcement Learning (RL). One of the earliest and still most widely used heuristics is to assign this credit based on a scalar coefficient $\lambda$ (treated as a hyperparameter) raised to the power of the time interval between the state-action and the reward. In this empirical paper, we explore heuristics based on more general pairwise weightings that are functions of the state in which the action was taken, the state at the time of the reward, as well as the time interval between the two. Of course it isn't clear what these pairwise weight functions should be, and because they are too complex to be treated as hyperparameters we develop a metagradient procedure for learning these weight functions during the usual RL training of a policy. Our empirical work shows that it is often possible to learn these pairwise weight functions during learning of the policy to achieve better performance than competing approaches.
Abstract（参考訳）: 州の行動が将来の報酬を得るには、どのくらいの信用(または責任)が必要ですか? これは強化学習(RL)における基本的な時間的信用割当問題である。最も早く、まだ最も広く使用されているヒューリスティックスの1つは、状態作用と報酬の間の時間間隔のパワーに引き上げられたスカラー係数$\lambda$(ハイパーパラメータとして処理される)に基づいてこのクレジットを割り当てることである。本稿では,アクションが取られた状態,報酬の時点の状態,および2つの状態の間の時間間隔である,より一般的なペアワイズ重み付けに基づくヒューリスティックスについて検討する。もちろん、これらのペアワイズ重み関数がどのようなもので、ハイパーパラメータとして扱うには複雑すぎるため、ポリシーの通常のrlトレーニング中にこれらの重み関数を学ぶためのメタグラデーション手順を開発します。私たちの実証的な研究は、競合するアプローチよりも優れたパフォーマンスを達成するためにポリシーの学習中にこれらのペアワイズウェイト関数を学ぶことがしばしば可能であることを示しています。

関連論文リスト

Agent-Temporal Credit Assignment for Optimal Policy Preservation in Sparse Multi-Agent Reinforcement Learning [14.003793644193605]
マルチエージェント環境では、エージェントはスパースや遅れたグローバル報酬のために最適なポリシーを学ぶのに苦労することが多い。本稿では,エージェント・テンポラル・アジェント・リワード再分配(TAR$2$)を導入し,エージェント・テンポラル・クレジット割り当て問題に対処する新しいアプローチを提案する。 TAR$2$は、粗末なグローバル報酬をタイムステップ固有の報酬に分解し、エージェント固有の報酬を計算します。
論文参考訳（メタデータ） (2024-12-19T12:05:13Z)
VinePPO: Refining Credit Assignment in RL Training of LLMs [66.80143024475635]
我々は,言語環境の柔軟性を利用してモンテカルロをベースとした推定値を計算する,簡単なアプローチであるVinePPOを提案する。本手法は,MATHおよびGSM8Kデータセット間のPPOおよび他のベースラインをウォールクロック時間以下で連続的に上回る。
論文参考訳（メタデータ） (2024-10-02T15:49:30Z)
Hindsight PRIORs for Reward Learning from Human Preferences [3.4990427823966828]
嗜好に基づく強化学習(PbRL)では、政策行動に対する嗜好フィードバックから報酬を学習することで報酬関数を手渡す必要がなくなる。 PbRLへの現在のアプローチは、行動のどの部分が優先に最も寄与しているかを決定することに固有の信用割当問題に対処しない。我々は、世界モデルを用いて軌道内の状態重要度を近似し、報酬を国家重要度に比例するように誘導する信用割当戦略(Hindsight PRIOR)を導入する。
論文参考訳（メタデータ） (2024-04-12T21:59:42Z)
Iterated $Q$-Network: Beyond One-Step Bellman Updates in Deep Reinforcement Learning [19.4531905603925]
i-QNは、アクション値関数の調整されたシーケンスを学習することで、複数の連続したベルマン更新を可能にする、原則化されたアプローチである。 i-QNは理論的に根拠があり、値ベースおよびアクター批判的手法でシームレスに使用できることを示す。
論文参考訳（メタデータ） (2024-03-04T15:07:33Z)
Prediction and Control in Continual Reinforcement Learning [39.30411018922005]
時間差(TD)学習は、RLエージェントが有用なポリシーを抽出するために使用する値関数の見積を更新するためにしばしば使用される。本稿では,値関数を異なる時間スケールで更新する2つのコンポーネントに分解する。
論文参考訳（メタデータ） (2023-12-18T19:23:42Z)
Handling Cost and Constraints with Off-Policy Deep Reinforcement Learning [2.793095554369282]
政治外学習の最も一般的な方法は、学習された状態アクション(Q$)値関数が選択されたデータのバッチに対して最大化されるポリシー改善ステップである。我々は、この戦略を「混合符号」報酬関数を持つ環境で再考する。この2つ目のアプローチは、混合符号の報酬を持つ連続的な行動空間に適用した場合、リセットによって拡張された最先端の手法よりも一貫して、著しく優れる。
論文参考訳（メタデータ） (2023-11-30T16:31:04Z)
STARC: A General Framework For Quantifying Differences Between Reward Functions [55.33869271912095]
我々は、STARCメトリックと呼ばれるすべての報酬関数の空間上の擬計量のクラスを提供する。以上の結果から,STARCは最悪の後悔に対して上界と下界の両方を誘導することがわかった。また、以前の研究によって提案された報酬指標に関するいくつかの問題も特定します。
論文参考訳（メタデータ） (2023-09-26T20:31:19Z)
Would I have gotten that reward? Long-term credit assignment by counterfactual contribution analysis [50.926791529605396]
モデルベース信用代入アルゴリズムの新たなファミリーであるCOCOA(Counterfactual Contribution Analysis)を紹介する。我々のアルゴリズムは、その後の報酬を得る際の行動の貢献度を測定することによって、正確な信用割当を実現する。
論文参考訳（メタデータ） (2023-06-29T09:27:27Z)
Offline Reinforcement Learning with Implicit Q-Learning [85.62618088890787]
現行のオフライン強化学習手法では、トレーニング中に見つからない行動の価値を問い合わせて、ポリシーを改善する必要がある。本稿では,データセット外の動作を評価する必要のないオフラインRL手法を提案する。この方法により、学習したポリシーは、一般化によってデータの最良の振る舞いを大幅に改善することができる。
論文参考訳（メタデータ） (2021-10-12T17:05:05Z)
Synthetic Returns for Long-Term Credit Assignment [25.55079294859312]
エージェントが州間の関連と任意の距離の将来の報酬を学習する状態関連学習を提案します。私たちのimpalaベースのsrエージェントがatariスキーを25倍高速で解決できることを示しました。
論文参考訳（メタデータ） (2021-02-24T17:43:02Z)
Temporal-Logic-Based Reward Shaping for Continuing Learning Tasks [57.17673320237597]
継続タスクにおいて、平均回帰強化学習は、より一般的な割引報酬の定式化よりも適切な問題定式化である可能性がある。本稿では,平均回帰学習のための最初の報酬形成フレームワークを提案する。これは、標準的な仮定の下では、元の報酬関数の下での最適ポリシーを復元できることを証明している。
論文参考訳（メタデータ） (2020-07-03T05:06:57Z)
Experience Replay with Likelihood-free Importance Weights [123.52005591531194]
本研究は,現在の政策の定常分布下での経験を生かし,その可能性に基づいて,その経験を再評価することを提案する。提案手法は,ソフトアクタ批判 (SAC) とツイン遅延Deep Deterministic Policy gradient (TD3) の2つの競合手法に実証的に適用する。
論文参考訳（メタデータ） (2020-06-23T17:17:44Z)
Hierarchical Reinforcement Learning as a Model of Human Task Interleaving [60.95424607008241]
我々は、強化学習によって駆動される監督制御の階層モデルを開発する。このモデルは、タスクインターリービングの既知の経験的効果を再現する。その結果、階層的RLがタスクインターリービングのもっともらしいモデルとして支持された。
論文参考訳（メタデータ） (2020-01-04T17:53:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。