論文の概要: An Information-Theoretic Perspective on Credit Assignment in
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2103.06224v1
- Date: Wed, 10 Mar 2021 17:50:15 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-11 14:38:33.832928
- Title: An Information-Theoretic Perspective on Credit Assignment in
Reinforcement Learning
- Title(参考訳): 強化学習におけるクレジットアサインメントの情報理論的視点
- Authors: Dilip Arumugam, Peter Henderson, Pierre-Luc Bacon
- Abstract要約: 私たちは、信用の割り当てが困難になるのは報酬自体のスパースではなく、むしろ情報スパース性であると主張しています。
一定の行動方針の下で信用を測定するためのいくつかの情報理論のメカニズムを概説し、情報理論のポテンシャルを有能な与信割り当ての鍵となるツールとして強調する。
- 参考スコア(独自算出の注目度): 14.367867691822026
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: How do we formalize the challenge of credit assignment in reinforcement
learning? Common intuition would draw attention to reward sparsity as a key
contributor to difficult credit assignment and traditional heuristics would
look to temporal recency for the solution, calling upon the classic eligibility
trace. We posit that it is not the sparsity of the reward itself that causes
difficulty in credit assignment, but rather the \emph{information sparsity}. We
propose to use information theory to define this notion, which we then use to
characterize when credit assignment is an obstacle to efficient learning. With
this perspective, we outline several information-theoretic mechanisms for
measuring credit under a fixed behavior policy, highlighting the potential of
information theory as a key tool towards provably-efficient credit assignment.
- Abstract(参考訳): 強化学習における信用割当の課題をどう定式化するか?
一般的な直観は、難解なクレジット割り当ての鍵となる貢献者としての寛大さに注意を向け、伝統的なヒューリスティックスは、古典的な適格性トレースを呼び出すことで、ソリューションの一時的な厳格さに目を向ける。
我々は、クレジット割り当てが困難になるのは報酬自体のスパース性ではなく、emph{information sparsity}(情報スパース性)であると仮定する。
我々は、情報理論を用いてこの概念を定義し、クレジット割当が効率的な学習の障害である場合に特徴付けることを提案する。
この観点から、一定の行動方針の下で信用を測定するためのいくつかの情報理論のメカニズムを概説し、情報理論のポテンシャルを有能な与信割り当ての鍵となるツールとして強調する。
関連論文リスト
- Best Practices for Responsible Machine Learning in Credit Scoring [0.03984353141309896]
本チュートリアルでは、クレジットスコアリングにおいて、責任ある機械学習モデルを開発するためのベストプラクティスを導くために、非体系的な文献レビューを行った。
我々は、偏見を緩和し、異なるグループ間で公平な結果を確保するための定義、メトリクス、技術について議論する。
これらのベストプラクティスを採用することで、金融機関は倫理的かつ責任ある融資プラクティスを維持しながら、機械学習の力を利用することができる。
論文 参考訳(メタデータ) (2024-09-30T17:39:38Z) - A Survey of Temporal Credit Assignment in Deep Reinforcement Learning [47.17998784925718]
クレディ・アサインメント問題(Capital Assignment Problem, CAP)とは、強化学習(Reinforcement Learning, RL)エージェントが長期的な結果と行動を関連付けるための長年にわたる課題を指す。
我々は、最先端のアルゴリズムの公平な比較を可能にする信用の統一形式性を提案する。
我々は、遅延効果、転置、行動への影響の欠如に起因する課題について論じ、既存の手法がそれらにどう対処しようとしているのかを分析した。
論文 参考訳(メタデータ) (2023-12-02T08:49:51Z) - Would I have gotten that reward? Long-term credit assignment by
counterfactual contribution analysis [50.926791529605396]
モデルベース信用代入アルゴリズムの新たなファミリーであるCOCOA(Counterfactual Contribution Analysis)を紹介する。
我々のアルゴリズムは、その後の報酬を得る際の行動の貢献度を測定することによって、正確な信用割当を実現する。
論文 参考訳(メタデータ) (2023-06-29T09:27:27Z) - Towards Causal Credit Assignment [0.0]
Hindsight Credit Assignmentは有望だが、まだ未検討の候補であり、長期的および対実的なクレジット割り当ての問題を解決することを目的としている。
この論文で我々は、Hindsight Credit Assignmentを実証的に調査し、その主な利点と改善すべき重要なポイントを特定します。
この修正により、ハイドサイト・クレジット・アサインメントの作業負荷が大幅に削減され、効率が向上し、各種タスクにおけるベースライン・クレジット・アサインメント・メソッドよりもパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2022-12-22T12:06:37Z) - Selective Credit Assignment [57.41789233550586]
選択的クレジット代入のための時間差アルゴリズムについて統一的な視点を述べる。
価値に基づく学習と計画アルゴリズムへの重み付けの適用に関する洞察を提供する。
論文 参考訳(メタデータ) (2022-02-20T00:07:57Z) - Direct Advantage Estimation [63.52264764099532]
予測されるリターンは、学習を遅くする可能性のある望ましくない方法でポリシーに依存する可能性があることを示します。
本稿では,優位関数をモデル化し,データから直接推定する手法として,DAE(Direct Advantage Estimation)を提案する。
望むなら、値関数をDAEにシームレスに統合して、時間差学習と同様の方法で更新することもできる。
論文 参考訳(メタデータ) (2021-09-13T16:09:31Z) - Explanations of Machine Learning predictions: a mandatory step for its
application to Operational Processes [61.20223338508952]
信用リスクモデリングは重要な役割を果たす。
近年,機械学習や深層学習の手法が採用されている。
この分野における説明可能性問題に LIME 手法を適用することを提案する。
論文 参考訳(メタデータ) (2020-12-30T10:27:59Z) - Explainable AI for Interpretable Credit Scoring [0.8379286663107844]
クレジットスコアリングは、金融の専門家がローン申請を受諾するかどうかについてより良い判断を下すのに役立つ。
アルゴリズムによる決定が一貫性のあるものであることを保証するため、規則はモデル解釈可能性の必要性を追加している。
正確かつ解釈可能な信用スコアモデルを提案する。
論文 参考訳(メタデータ) (2020-12-03T18:44:03Z) - Counterfactual Credit Assignment in Model-Free Reinforcement Learning [47.79277857377155]
強化学習における信用割当は、将来の報酬に対する行動の影響を測定する問題である。
我々は因果理論からモデルフリーなRL設定への反事実の概念を適応する。
我々は、将来の条件値関数をベースラインや批評家として使用するポリシーアルゴリズムのファミリーを定式化し、それらが明らかに低分散であることを示す。
論文 参考訳(メタデータ) (2020-11-18T18:41:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。