論文の概要: Modularity in Reinforcement Learning via Algorithmic Independence in
Credit Assignment
- arxiv url: http://arxiv.org/abs/2106.14993v1
- Date: Mon, 28 Jun 2021 21:29:13 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-30 15:46:44.244365
- Title: Modularity in Reinforcement Learning via Algorithmic Independence in
Credit Assignment
- Title(参考訳): クレデンシャルアサインメントにおけるアルゴリズム独立による強化学習のモジュール性
- Authors: Michael Chang, Sidhant Kaushik, Sergey Levine, Thomas L. Griffiths
- Abstract要約: 提案手法は, 事前決定の順序に対して, スパース変化のみを必要とする伝達問題に対して, 政策段階の手法よりも, より標本効率が高いことを示す。
我々は最近提案された社会的意思決定の枠組みをマルコフ決定プロセスよりもよりきめ細かい形式主義として一般化する。
- 参考スコア(独自算出の注目度): 79.5678820246642
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Many transfer problems require re-using previously optimal decisions for
solving new tasks, which suggests the need for learning algorithms that can
modify the mechanisms for choosing certain actions independently of those for
choosing others. However, there is currently no formalism nor theory for how to
achieve this kind of modular credit assignment. To answer this question, we
define modular credit assignment as a constraint on minimizing the algorithmic
mutual information among feedback signals for different decisions. We introduce
what we call the modularity criterion for testing whether a learning algorithm
satisfies this constraint by performing causal analysis on the algorithm
itself. We generalize the recently proposed societal decision-making framework
as a more granular formalism than the Markov decision process to prove that for
decision sequences that do not contain cycles, certain single-step temporal
difference action-value methods meet this criterion while all policy-gradient
methods do not. Empirical evidence suggests that such action-value methods are
more sample efficient than policy-gradient methods on transfer problems that
require only sparse changes to a sequence of previously optimal decisions.
- Abstract(参考訳): 多くのトランスファー問題は、新しいタスクを解くために、以前最適な決定を再利用する必要がある。これは、他のタスクを選択するものと独立して特定のアクションを選択するメカニズムを変更できる学習アルゴリズムの必要性を示唆している。
しかし、現時点でこの種のモジュラークレジット割り当てを達成する方法に関する形式主義や理論は存在しない。
この問いに答えるために、モジュール型クレジット割り当てを、異なる決定のためのフィードバック信号間のアルゴリズム的相互情報の最小化の制約として定義する。
本稿では,学習アルゴリズムがアルゴリズム自体の因果解析を行うことによって,この制約を満たすかどうかをテストするためのモジュラリティ基準を提案する。
我々は、最近提案された社会決定フレームワークをマルコフ決定プロセスよりもよりきめ細かい形式主義として一般化し、サイクルを含まない決定シーケンスに対して、特定の一段階の時間差作用値法がこの基準を満たすことを証明する。
実証的な証拠は、このようなアクション値の手法は、以前の最適な決定のシーケンスにばらばらな変更しか必要としない転送問題に対するポリシー段階の手法よりもサンプル効率が高いことを示唆している。
関連論文リスト
- Take a Step and Reconsider: Sequence Decoding for Self-Improved Neural Combinatorial Optimization [1.1510009152620668]
自己改善学習のための単純で問題に依存しないシーケンス復号法を提案する。
以前にサンプリングされたシーケンスを無視するためにポリシーを変更することで、目に見えない代替案のみを検討するように強制する。
本手法は,ジョブショップスケジューリング問題における従来のNCO手法よりも優れていた。
論文 参考訳(メタデータ) (2024-07-24T12:06:09Z) - Interpretable Decision Tree Search as a Markov Decision Process [8.530182510074983]
教師付き学習タスクに最適な決定木を見つけることは、大規模に解決する上で難しい問題である。
近年、マルコフ決定問題 (MDP) としてこの問題の枠組みを定め、深層強化学習を用いてスケーリングに取り組むことが提案されている。
そこで我々は,全ての状態に対して生成する情報理論テスト生成関数を用いて,MDPの分解能を拡大する手法を提案する。
論文 参考訳(メタデータ) (2023-09-22T08:18:08Z) - Domain Generalization via Rationale Invariance [70.32415695574555]
本稿では,未確認環境においてもロバストな結果の維持を伴う領域一般化の課題を緩和する新たな視点を提供する。
本稿では,最終結果に対する要素的貢献を決定の根拠として扱い,各試料の根拠を行列として表現することを提案する。
提案手法は, 単純性に拘わらず, 様々なデータセット間で競合する結果が得られることを示す。
論文 参考訳(メタデータ) (2023-08-22T03:31:40Z) - Sequential Knockoffs for Variable Selection in Reinforcement Learning [19.925653053430395]
マルコフ決定過程(MDP)における十分最小状態の概念を導入する。
本研究では,高次元複素非線形力学を持つシステムにおいて,最小限の十分状態を推定するSequEntial Knockoffs (SEEK) アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-03-24T21:39:06Z) - Sample-Efficient Multi-Objective Learning via Generalized Policy
Improvement Prioritization [8.836422771217084]
マルチオブジェクト強化学習(MORL)アルゴリズムは、エージェントが異なる好みを持つ可能性のあるシーケンシャルな決定問題に対処する。
本稿では、一般化政策改善(GPI)を用いて、原則的、正式に派生した優先順位付けスキームを定義する新しいアルゴリズムを提案する。
実験により,本手法は多目的タスクの挑戦において,最先端のMORLアルゴリズムよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-01-18T20:54:40Z) - A Boosting Approach to Reinforcement Learning [59.46285581748018]
複雑度が状態数に依存しない意思決定プロセスにおける強化学習のための効率的なアルゴリズムについて検討する。
このような弱い学習手法の精度を向上させることができる効率的なアルゴリズムを提供する。
論文 参考訳(メタデータ) (2021-08-22T16:00:45Z) - Counterfactual Explanations in Sequential Decision Making Under
Uncertainty [27.763369810430653]
本研究では, 逐次的意思決定プロセスにおいて, 対実的説明を求める手法を開発した。
我々の問題定式化において、反実的説明は、少なくとも k 個の作用において異なる作用の別の列を特定する。
提案アルゴリズムは,不確実性の下での意思決定の促進に有用な洞察を与えることができることを示す。
論文 参考訳(メタデータ) (2021-07-06T17:38:19Z) - Regret Analysis in Deterministic Reinforcement Learning [78.31410227443102]
本稿では,最適学習アルゴリズムの分析と設計の中心となる後悔の問題を考察する。
本稿では,システムパラメータに明示的に依存する対数問題固有の後悔の下位境界について述べる。
論文 参考訳(メタデータ) (2021-06-27T23:41:57Z) - Stein Variational Model Predictive Control [130.60527864489168]
不確実性の下での意思決定は、現実の自律システムにとって極めて重要である。
モデル予測制御 (MPC) 法は, 複雑な分布を扱う場合, 適用範囲が限られている。
この枠組みが、挑戦的で非最適な制御問題における計画の成功に繋がることを示す。
論文 参考訳(メタデータ) (2020-11-15T22:36:59Z) - Strictly Batch Imitation Learning by Energy-based Distribution Matching [104.33286163090179]
すなわち、強化信号へのアクセスがなく、遷移力学の知識がなく、環境とのさらなる相互作用もない。
1つの解決策は、既存のアルゴリズムをオフライン環境で動作させるために、見習いの学習に適合させることである。
しかし、このようなアプローチは、政治外の評価やオフラインモデルの推定に大きく依存しており、間接的で非効率である可能性がある。
優れたソリューションは、ポリシーを明示的にパラメータ化し、ロールアウトダイナミクスから暗黙的に学習し、完全にオフラインで運用できるべきだ、と私たちは主張する。
論文 参考訳(メタデータ) (2020-06-25T03:27:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。