論文の概要: Towards Causal Credit Assignment
- arxiv url: http://arxiv.org/abs/2212.11636v2
- Date: Wed, 17 May 2023 12:27:43 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-18 20:26:58.750179
- Title: Towards Causal Credit Assignment
- Title(参考訳): 因果信用付与に向けて
- Authors: M\'aty\'as Schubert
- Abstract要約: Hindsight Credit Assignmentは有望だが、まだ未検討の候補であり、長期的および対実的なクレジット割り当ての問題を解決することを目的としている。
この論文で我々は、Hindsight Credit Assignmentを実証的に調査し、その主な利点と改善すべき重要なポイントを特定します。
この修正により、ハイドサイト・クレジット・アサインメントの作業負荷が大幅に削減され、効率が向上し、各種タスクにおけるベースライン・クレジット・アサインメント・メソッドよりもパフォーマンスが向上することを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Adequately assigning credit to actions for future outcomes based on their
contributions is a long-standing open challenge in Reinforcement Learning. The
assumptions of the most commonly used credit assignment method are
disadvantageous in tasks where the effects of decisions are not immediately
evident. Furthermore, this method can only evaluate actions that have been
selected by the agent, making it highly inefficient. Still, no alternative
methods have been widely adopted in the field. Hindsight Credit Assignment is a
promising, but still unexplored candidate, which aims to solve the problems of
both long-term and counterfactual credit assignment. In this thesis, we
empirically investigate Hindsight Credit Assignment to identify its main
benefits, and key points to improve. Then, we apply it to factored state
representations, and in particular to state representations based on the causal
structure of the environment. In this setting, we propose a variant of
Hindsight Credit Assignment that effectively exploits a given causal structure.
We show that our modification greatly decreases the workload of Hindsight
Credit Assignment, making it more efficient and enabling it to outperform the
baseline credit assignment method on various tasks. This opens the way to other
methods based on given or learned causal structures.
- Abstract(参考訳): コントリビューションに基づいた今後の成果に対するアクションへのクレジットの割り当ては、強化学習における長年にわたるオープンな課題である。
最も一般的に使われるクレジット割当法の仮定は、決定の影響がすぐには明らかでないタスクにおいて不利である。
さらに、この方法は、エージェントによって選択されたアクションのみを評価することができ、非常に非効率である。
しかし、この分野では他の方法が広く採用されていない。
Hindsight Credit Assignmentは有望だが、まだ未検討の候補であり、長期的および対実的なクレジット割り当ての問題を解決することを目的としている。
本論文では,その主な利益と改善すべき要点を特定するため,後見クレジットの割り当てを実証的に検討する。
次に, 因子化された状態表現, 特に環境の因果構造に基づく状態表現に適用する。
この設定では、与えられた因果構造を効果的に活用するHindsight Credit Assignmentの変種を提案する。
今回の変更により,後見クレジット割り当ての作業負荷が大幅に減少し,作業効率が向上し,さまざまなタスクにおけるベースラインクレジット割り当てメソッドを上回ることが可能になった。
これは、与えられたまたは学習された因果構造に基づく他の方法への道を開く。
関連論文リスト
- A Survey of Temporal Credit Assignment in Deep Reinforcement Learning [47.17998784925718]
クレディ・アサインメント問題(Capital Assignment Problem, CAP)とは、強化学習(Reinforcement Learning, RL)エージェントが長期的な結果と行動を関連付けるための長年にわたる課題を指す。
我々は、最先端のアルゴリズムの公平な比較を可能にする信用の統一形式性を提案する。
我々は、遅延効果、転置、行動への影響の欠如に起因する課題について論じ、既存の手法がそれらにどう対処しようとしているのかを分析した。
論文 参考訳(メタデータ) (2023-12-02T08:49:51Z) - Would I have gotten that reward? Long-term credit assignment by
counterfactual contribution analysis [50.926791529605396]
モデルベース信用代入アルゴリズムの新たなファミリーであるCOCOA(Counterfactual Contribution Analysis)を紹介する。
我々のアルゴリズムは、その後の報酬を得る際の行動の貢献度を測定することによって、正確な信用割当を実現する。
論文 参考訳(メタデータ) (2023-06-29T09:27:27Z) - Selective Credit Assignment [57.41789233550586]
選択的クレジット代入のための時間差アルゴリズムについて統一的な視点を述べる。
価値に基づく学習と計画アルゴリズムへの重み付けの適用に関する洞察を提供する。
論文 参考訳(メタデータ) (2022-02-20T00:07:57Z) - Direct Advantage Estimation [63.52264764099532]
予測されるリターンは、学習を遅くする可能性のある望ましくない方法でポリシーに依存する可能性があることを示します。
本稿では,優位関数をモデル化し,データから直接推定する手法として,DAE(Direct Advantage Estimation)を提案する。
望むなら、値関数をDAEにシームレスに統合して、時間差学習と同様の方法で更新することもできる。
論文 参考訳(メタデータ) (2021-09-13T16:09:31Z) - An Information-Theoretic Perspective on Credit Assignment in
Reinforcement Learning [14.367867691822026]
私たちは、信用の割り当てが困難になるのは報酬自体のスパースではなく、むしろ情報スパース性であると主張しています。
一定の行動方針の下で信用を測定するためのいくつかの情報理論のメカニズムを概説し、情報理論のポテンシャルを有能な与信割り当ての鍵となるツールとして強調する。
論文 参考訳(メタデータ) (2021-03-10T17:50:15Z) - Explanations of Machine Learning predictions: a mandatory step for its
application to Operational Processes [61.20223338508952]
信用リスクモデリングは重要な役割を果たす。
近年,機械学習や深層学習の手法が採用されている。
この分野における説明可能性問題に LIME 手法を適用することを提案する。
論文 参考訳(メタデータ) (2020-12-30T10:27:59Z) - Explainable AI for Interpretable Credit Scoring [0.8379286663107844]
クレジットスコアリングは、金融の専門家がローン申請を受諾するかどうかについてより良い判断を下すのに役立つ。
アルゴリズムによる決定が一貫性のあるものであることを保証するため、規則はモデル解釈可能性の必要性を追加している。
正確かつ解釈可能な信用スコアモデルを提案する。
論文 参考訳(メタデータ) (2020-12-03T18:44:03Z) - Counterfactual Credit Assignment in Model-Free Reinforcement Learning [47.79277857377155]
強化学習における信用割当は、将来の報酬に対する行動の影響を測定する問題である。
我々は因果理論からモデルフリーなRL設定への反事実の概念を適応する。
我々は、将来の条件値関数をベースラインや批評家として使用するポリシーアルゴリズムのファミリーを定式化し、それらが明らかに低分散であることを示す。
論文 参考訳(メタデータ) (2020-11-18T18:41:44Z) - Intelligent Credit Limit Management in Consumer Loans Based on Causal
Inference [5.292270534252169]
信用限度は、経験豊富な専門家によって開発された限られた戦略に基づいて調整される。
本稿では,信用限度をインテリジェントに管理するためのデータ駆動型アプローチを提案する。
論文 参考訳(メタデータ) (2020-07-10T06:22:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。