論文の概要: Reinforcement Learning Your Way: Agent Characterization through Policy
Regularization
- arxiv url: http://arxiv.org/abs/2201.10003v1
- Date: Fri, 21 Jan 2022 08:18:38 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-29 11:10:04.291224
- Title: Reinforcement Learning Your Way: Agent Characterization through Policy
Regularization
- Title(参考訳): 方法の強化学習:政策規則化によるエージェントキャラクタリゼーション
- Authors: Charl Maree and Christian Omlin
- Abstract要約: 目的関数の正規化を通じてエージェントのポリシーに特徴的振る舞いを組み込む手法を開発した。
本手法は,学習中のエージェントの動作を誘導し,本質的な特徴付けを行う。
今後の課題として、個人金融顧客の投資ポートフォリオを、支出個性に基づいて最適化するエージェントを開発することを目的としている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The increased complexity of state-of-the-art reinforcement learning (RL)
algorithms have resulted in an opacity that inhibits explainability and
understanding. This has led to the development of several post-hoc
explainability methods that aim to extract information from learned policies
thus aiding explainability. These methods rely on empirical observations of the
policy and thus aim to generalize a characterization of agents' behaviour. In
this study, we have instead developed a method to imbue a characteristic
behaviour into agents' policies through regularization of their objective
functions. Our method guides the agents' behaviour during learning which
results in an intrinsic characterization; it connects the learning process with
model explanation. We provide a formal argument and empirical evidence for the
viability of our method. In future work, we intend to employ it to develop
agents that optimize individual financial customers' investment portfolios
based on their spending personalities.
- Abstract(参考訳): 最先端強化学習(RL)アルゴリズムの複雑さの増大は、説明可能性や理解を阻害する不透明性をもたらす。
これにより、学習方針から情報を抽出し、説明可能性を支援する、いくつかのポストホックな説明可能性手法が開発された。
これらの手法は政策の実証的な観察に依存しており、エージェントの行動の特徴を一般化することを目的としている。
そこで本研究では,目的関数の正規化を通じてエージェントのポリシーに特徴的振る舞いを組み込む手法を開発した。
本手法は,本質的な特徴を与える学習中のエージェントの動作をガイドし,学習過程とモデル説明を結びつける。
我々は,提案手法の有効性に関する形式的議論と実証的証拠を提供する。
今後の業務では、個々の金融顧客の投資ポートフォリオを、支出のパーソナリティに基づいて最適化するエージェントの開発に活用するつもりです。
関連論文リスト
- From Novice to Expert: LLM Agent Policy Optimization via Step-wise Reinforcement Learning [62.54484062185869]
本稿では,エージェントの強化学習プロセスの最適化にステップワイド報酬を利用するStepAgentを紹介する。
エージェント反射とポリシー調整を容易にする暗黙の逆・逆の強化学習手法を提案する。
論文 参考訳(メタデータ) (2024-11-06T10:35:11Z) - Inverse Reinforcement Learning from Non-Stationary Learning Agents [11.203097744443898]
本研究では,このエージェントが最適方針を学習している間に収集した軌跡データを用いて学習エージェントの報酬関数を学習する逆強化学習問題について検討する。
本稿では,学習者の政策パラメータを推定し,その報酬関数を推定する逆強化学習法を提案する。
論文 参考訳(メタデータ) (2024-10-18T03:02:44Z) - REVEAL-IT: REinforcement learning with Visibility of Evolving Agent poLicy for InTerpretability [23.81322529587759]
REVEAL-ITは複雑な環境下でのエージェントの学習過程を説明するための新しいフレームワークである。
各種学習課題における政策構造とエージェントの学習過程を可視化する。
GNNベースの説明者は、ポリシーの最も重要な部分を強調することを学び、エージェントの学習プロセスについてより明確で堅牢な説明を提供する。
論文 参考訳(メタデータ) (2024-06-20T11:29:26Z) - Vision-Language Models Provide Promptable Representations for Reinforcement Learning [67.40524195671479]
視覚言語モデル(VLM)に符号化された多量の一般知識と索引可能な世界知識をインターネット規模で事前学習して具体的強化学習(RL)を行う新しい手法を提案する。
提案手法では,共通意味的推論の表現にチェーン・オブ・シントを用いることで,新規シーンのポリシー性能を1.5倍向上できることを示す。
論文 参考訳(メタデータ) (2024-02-05T00:48:56Z) - Fidelity-Induced Interpretable Policy Extraction for Reinforcement
Learning [6.622746736005175]
深層強化学習(DRL)は、逐次意思決定問題において顕著な成功を収めた。
既存のDRLエージェントは不透明な方法で決定を下し、ユーザはエージェントの信頼性を確立し、弱点を精査するのを妨げる。
フィデリティ誘導政策抽出(FIPE)という新しい手法を提案する。
論文 参考訳(メタデータ) (2023-09-12T10:03:32Z) - Offline Reinforcement Learning with On-Policy Q-Function Regularization [57.09073809901382]
ヒストリーデータセットと所望のポリシー間の分布シフトによって引き起こされる(潜在的に破滅的な)外挿誤差に対処する。
正規化により推定Q-関数を利用する2つのアルゴリズムを提案し、D4RLベンチマークに強い性能を示すことを示す。
論文 参考訳(メタデータ) (2023-07-25T21:38:08Z) - Symbolic Explanation of Affinity-Based Reinforcement Learning Agents
with Markov Models [0.0]
我々は,学習戦略のグローバルな内在的親和性を主張する政策正則化手法を開発した。
これらの親和性は、政策の振る舞いを推論する手段を提供するので、本質的に解釈可能である。
本手法は,個人が投資戦略を定めているパーソナライズされた繁栄管理において実証する。
論文 参考訳(メタデータ) (2022-08-26T12:41:06Z) - Inverse Online Learning: Understanding Non-Stationary and Reactionary
Policies [79.60322329952453]
エージェントが意思決定を行う方法の解釈可能な表現を開発する方法を示す。
一連の軌跡に基づく意思決定プロセスを理解することにより,このオンライン学習問題に対して,政策推論問題を逆問題とみなした。
本稿では、エージェントがそれらを更新するプロセスと並行して、その影響を遡及的に推定する実用的なアルゴリズムを提案する。
UNOSの臓器提供受諾決定の分析に応用することで、我々のアプローチは意思決定プロセスを管理する要因や時間とともにどのように変化するかに、貴重な洞察をもたらすことができることを実証する。
論文 参考訳(メタデータ) (2022-03-14T17:40:42Z) - Explaining Reinforcement Learning Policies through Counterfactual
Trajectories [147.7246109100945]
人間の開発者は、RLエージェントがテスト時にうまく機能することを検証しなければならない。
本手法では, エージェントの挙動をより広い軌道分布で示すことにより, エージェントの挙動を分布変化下で表現する。
本研究では,2つのエージェント検証タスクのうちの1つに対して,ベースライン法よりも優れたスコアを得られることを示す。
論文 参考訳(メタデータ) (2022-01-29T00:52:37Z) - What is Going on Inside Recurrent Meta Reinforcement Learning Agents? [63.58053355357644]
recurrent meta reinforcement learning (meta-rl)エージェントは「学習アルゴリズムの学習」を目的としてrecurrent neural network (rnn)を使用するエージェントである。
部分観測可能なマルコフ決定プロセス(POMDP)フレームワークを用いてメタRL問題を再構成することにより,これらのエージェントの内部動作機構を明らかにする。
論文 参考訳(メタデータ) (2021-04-29T20:34:39Z) - Policy Supervectors: General Characterization of Agents by their
Behaviour [18.488655590845163]
訪問状態の分布によってエージェントを特徴付ける政策スーパーベクターを提案する。
ポリシースーパーベクターは、デザイン哲学に関係なくポリシーを特徴づけ、単一のワークステーションマシン上で数千のポリシーにスケールすることができる。
本研究では、強化学習、進化学習、模倣学習における政策の進化を研究することによって、手法の適用性を実証する。
論文 参考訳(メタデータ) (2020-12-02T14:43:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。