論文の概要: Reinforcement Learning Your Way: Agent Characterization through Policy
Regularization
- arxiv url: http://arxiv.org/abs/2201.10003v1
- Date: Fri, 21 Jan 2022 08:18:38 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-29 11:10:04.291224
- Title: Reinforcement Learning Your Way: Agent Characterization through Policy
Regularization
- Title(参考訳): 方法の強化学習:政策規則化によるエージェントキャラクタリゼーション
- Authors: Charl Maree and Christian Omlin
- Abstract要約: 目的関数の正規化を通じてエージェントのポリシーに特徴的振る舞いを組み込む手法を開発した。
本手法は,学習中のエージェントの動作を誘導し,本質的な特徴付けを行う。
今後の課題として、個人金融顧客の投資ポートフォリオを、支出個性に基づいて最適化するエージェントを開発することを目的としている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The increased complexity of state-of-the-art reinforcement learning (RL)
algorithms have resulted in an opacity that inhibits explainability and
understanding. This has led to the development of several post-hoc
explainability methods that aim to extract information from learned policies
thus aiding explainability. These methods rely on empirical observations of the
policy and thus aim to generalize a characterization of agents' behaviour. In
this study, we have instead developed a method to imbue a characteristic
behaviour into agents' policies through regularization of their objective
functions. Our method guides the agents' behaviour during learning which
results in an intrinsic characterization; it connects the learning process with
model explanation. We provide a formal argument and empirical evidence for the
viability of our method. In future work, we intend to employ it to develop
agents that optimize individual financial customers' investment portfolios
based on their spending personalities.
- Abstract(参考訳): 最先端強化学習(RL)アルゴリズムの複雑さの増大は、説明可能性や理解を阻害する不透明性をもたらす。
これにより、学習方針から情報を抽出し、説明可能性を支援する、いくつかのポストホックな説明可能性手法が開発された。
これらの手法は政策の実証的な観察に依存しており、エージェントの行動の特徴を一般化することを目的としている。
そこで本研究では,目的関数の正規化を通じてエージェントのポリシーに特徴的振る舞いを組み込む手法を開発した。
本手法は,本質的な特徴を与える学習中のエージェントの動作をガイドし,学習過程とモデル説明を結びつける。
我々は,提案手法の有効性に関する形式的議論と実証的証拠を提供する。
今後の業務では、個々の金融顧客の投資ポートフォリオを、支出のパーソナリティに基づいて最適化するエージェントの開発に活用するつもりです。
関連論文リスト
- Learning and Calibrating Heterogeneous Bounded Rational Market Behaviour
with Multi-Agent Reinforcement Learning [4.40301653518681]
エージェントベースモデル(ABM)は、従来の平衡解析と相容れない様々な実世界の現象をモデル化することを約束している。
マルチエージェント強化学習(MARL)の最近の進歩は、合理性の観点からこの問題に対処する方法を提供する。
MARLフレームワーク内で不均一な処理制約を持つエージェントを表現するための新しい手法を提案する。
論文 参考訳(メタデータ) (2024-02-01T17:21:45Z) - Fidelity-Induced Interpretable Policy Extraction for Reinforcement
Learning [6.622746736005175]
深層強化学習(DRL)は、逐次意思決定問題において顕著な成功を収めた。
既存のDRLエージェントは不透明な方法で決定を下し、ユーザはエージェントの信頼性を確立し、弱点を精査するのを妨げる。
フィデリティ誘導政策抽出(FIPE)という新しい手法を提案する。
論文 参考訳(メタデータ) (2023-09-12T10:03:32Z) - Offline Reinforcement Learning with On-Policy Q-Function Regularization [57.09073809901382]
ヒストリーデータセットと所望のポリシー間の分布シフトによって引き起こされる(潜在的に破滅的な)外挿誤差に対処する。
正規化により推定Q-関数を利用する2つのアルゴリズムを提案し、D4RLベンチマークに強い性能を示すことを示す。
論文 参考訳(メタデータ) (2023-07-25T21:38:08Z) - Symbolic Explanation of Affinity-Based Reinforcement Learning Agents
with Markov Models [0.0]
我々は,学習戦略のグローバルな内在的親和性を主張する政策正則化手法を開発した。
これらの親和性は、政策の振る舞いを推論する手段を提供するので、本質的に解釈可能である。
本手法は,個人が投資戦略を定めているパーソナライズされた繁栄管理において実証する。
論文 参考訳(メタデータ) (2022-08-26T12:41:06Z) - Inverse Online Learning: Understanding Non-Stationary and Reactionary
Policies [79.60322329952453]
エージェントが意思決定を行う方法の解釈可能な表現を開発する方法を示す。
一連の軌跡に基づく意思決定プロセスを理解することにより,このオンライン学習問題に対して,政策推論問題を逆問題とみなした。
本稿では、エージェントがそれらを更新するプロセスと並行して、その影響を遡及的に推定する実用的なアルゴリズムを提案する。
UNOSの臓器提供受諾決定の分析に応用することで、我々のアプローチは意思決定プロセスを管理する要因や時間とともにどのように変化するかに、貴重な洞察をもたらすことができることを実証する。
論文 参考訳(メタデータ) (2022-03-14T17:40:42Z) - Explaining Reinforcement Learning Policies through Counterfactual
Trajectories [147.7246109100945]
人間の開発者は、RLエージェントがテスト時にうまく機能することを検証しなければならない。
本手法では, エージェントの挙動をより広い軌道分布で示すことにより, エージェントの挙動を分布変化下で表現する。
本研究では,2つのエージェント検証タスクのうちの1つに対して,ベースライン法よりも優れたスコアを得られることを示す。
論文 参考訳(メタデータ) (2022-01-29T00:52:37Z) - Inverse Contextual Bandits: Learning How Behavior Evolves over Time [89.59391124399927]
意思決定の解釈可能な表現を提供する政策学習へのアプローチを模索する。
まず,文脈的帯域幅の観点から学習エージェントの挙動をモデル化し,逆文脈的帯域幅(ICB)の問題の定式化を行う。
第2に,エージェントの学習戦略に関して,各エージェントが仮定の度合いを変える2つのアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-07-13T18:24:18Z) - Feature-Based Interpretable Reinforcement Learning based on
State-Transition Models [3.883460584034766]
現実世界でのAIモデルの運用に関する懸念が高まり、AIモデルの決定を人間に説明することへの関心が高まっています。
強化学習におけるリスクに関する局所的な説明方法を提案する。
論文 参考訳(メタデータ) (2021-05-14T23:43:11Z) - What is Going on Inside Recurrent Meta Reinforcement Learning Agents? [63.58053355357644]
recurrent meta reinforcement learning (meta-rl)エージェントは「学習アルゴリズムの学習」を目的としてrecurrent neural network (rnn)を使用するエージェントである。
部分観測可能なマルコフ決定プロセス(POMDP)フレームワークを用いてメタRL問題を再構成することにより,これらのエージェントの内部動作機構を明らかにする。
論文 参考訳(メタデータ) (2021-04-29T20:34:39Z) - Provably Correct Optimization and Exploration with Non-linear Policies [65.60853260886516]
ENIACは、批評家の非線形関数近似を可能にするアクター批判手法である。
特定の仮定の下では、学習者は$o(poly(d))$の探索ラウンドで最適に近い方針を見つける。
我々は,この適応を経験的に評価し,線形手法に触発された前処理よりも優れることを示す。
論文 参考訳(メタデータ) (2021-03-22T03:16:33Z) - Policy Supervectors: General Characterization of Agents by their
Behaviour [18.488655590845163]
訪問状態の分布によってエージェントを特徴付ける政策スーパーベクターを提案する。
ポリシースーパーベクターは、デザイン哲学に関係なくポリシーを特徴づけ、単一のワークステーションマシン上で数千のポリシーにスケールすることができる。
本研究では、強化学習、進化学習、模倣学習における政策の進化を研究することによって、手法の適用性を実証する。
論文 参考訳(メタデータ) (2020-12-02T14:43:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。