論文の概要: Policy Regularization for Legible Behavior
- arxiv url: http://arxiv.org/abs/2203.04303v1
- Date: Tue, 8 Mar 2022 10:55:46 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-10 17:05:51.386734
- Title: Policy Regularization for Legible Behavior
- Title(参考訳): 合理性行動のための政策規則化
- Authors: Michele Persiani, Thomas Hellstr\"om
- Abstract要約: 強化学習では、一般的に、エージェントのメカニズムに関する洞察を提供することを意味する。
本論文は,エージェントの正当性に着目した説明可能な計画文献手法から借用する。
我々の定式化において、正当性によって導入された決定境界は、エージェントのポリシーが他のポリシーでも高い可能性を持つアクションを返す州に影響を与える。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In Reinforcement Learning interpretability generally means to provide insight
into the agent's mechanisms such that its decisions are understandable by an
expert upon inspection. This definition, with the resulting methods from the
literature, may however fall short for online settings where the fluency of
interactions prohibits deep inspections of the decision-making algorithm. To
support interpretability in online settings it is useful to borrow from the
Explainable Planning literature methods that focus on the legibility of the
agent, by making its intention easily discernable in an observer model. As we
propose in this paper, injecting legible behavior inside an agent's policy
doesn't require modify components of its learning algorithm. Rather, the
agent's optimal policy can be regularized for legibility by evaluating how the
policy may produce observations that would make an observer infer an incorrect
policy. In our formulation, the decision boundary introduced by legibility
impacts the states in which the agent's policy returns an action that has high
likelihood also in other policies. In these cases, a trade-off between such
action, and legible/sub-optimal action is made.
- Abstract(参考訳): 強化学習における解釈可能性(Reinforcement Learning interpretability)とは、一般に、検査のエキスパートによってその決定が理解できるように、エージェントのメカニズムに関する洞察を与えることを意味する。
この定義は、文献から得られた手法とともに、インタラクションの流布が意思決定アルゴリズムの深い検査を禁止しているオンライン環境では不足する可能性がある。
オンライン環境での解釈可能性を支援するためには、観察者モデルで容易に識別できるようにすることにより、エージェントの正当性を重視した説明可能な計画文献手法を借用することが有用である。
本稿では,エージェントのポリシー内に妥当な振る舞いを注入しても,学習アルゴリズムの構成要素を変更する必要はない。
むしろ、エージェントの最適ポリシーは、そのポリシーがどのように観察を生み出し、観察者が誤ったポリシーを推測するかを評価することによって、正当性のために定式化することができる。
我々の定式化では、正当性によって引き起こされる決定境界は、エージェントのポリシーが他のポリシーにおいても高い可能性を持つアクションを返す状態に影響する。
これらの場合、そのような動作と正当/準最適動作とのトレードオフが行われる。
関連論文リスト
- Political Actor Agent: Simulating Legislative System for Roll Call Votes Prediction with Large Language Models [9.0463587094323]
政治アクターエージェント(PAA)は、制限を克服するために大規模言語モデルを利用する新しいフレームワークである。
ロールプレイングアーキテクチャを採用し、立法制度をシミュレートすることで、PAAはロールコール投票を予測するためのスケーラブルで解釈可能なパラダイムを提供する。
我々は,第117-118回衆議院議員投票記録を用いた総合的な実験を行い,PAAの優れた性能と解釈可能性について検証した。
論文 参考訳(メタデータ) (2024-12-10T03:06:28Z) - Policy Dispersion in Non-Markovian Environment [53.05904889617441]
本稿では,非マルコフ環境下での国家行動ペアの歴史から,多様な政策の学習を試みる。
まず、ポリシー埋め込みを学習するために、トランスフォーマーベースの手法を採用する。
次に,政策埋め込みを積み重ねて分散行列を構築し,多様な政策の集合を誘導する。
論文 参考訳(メタデータ) (2023-02-28T11:58:39Z) - Bounded Robustness in Reinforcement Learning via Lexicographic
Objectives [54.00072722686121]
強化学習における政策の堅牢性は、いかなるコストでも望ましいものではないかもしれない。
本研究では,任意の観測ノイズに対して,政策が最大限に頑健になる方法について検討する。
本稿では,どのような政策アルゴリズムにも適用可能なロバストネス誘導方式を提案する。
論文 参考訳(メタデータ) (2022-09-30T08:53:18Z) - "Guess what I'm doing": Extending legibility to sequential decision
tasks [7.352593846694083]
不確実性を考慮したシーケンシャルな意思決定課題における正当性の概念について検討する。
提案手法はPoL-MDPと呼ばれ,不確実性に対処できる。
論文 参考訳(メタデータ) (2022-09-19T16:01:33Z) - Inverse Online Learning: Understanding Non-Stationary and Reactionary
Policies [79.60322329952453]
エージェントが意思決定を行う方法の解釈可能な表現を開発する方法を示す。
一連の軌跡に基づく意思決定プロセスを理解することにより,このオンライン学習問題に対して,政策推論問題を逆問題とみなした。
本稿では、エージェントがそれらを更新するプロセスと並行して、その影響を遡及的に推定する実用的なアルゴリズムを提案する。
UNOSの臓器提供受諾決定の分析に応用することで、我々のアプローチは意思決定プロセスを管理する要因や時間とともにどのように変化するかに、貴重な洞察をもたらすことができることを実証する。
論文 参考訳(メタデータ) (2022-03-14T17:40:42Z) - Interrogating the Black Box: Transparency through Information-Seeking
Dialogues [9.281671380673306]
本稿では,倫理政策の遵守を調査するために,学習エージェントに質問する調査エージェントを構築することを提案する。
この形式的対話フレームワークが本論文の主な貢献である。
形式的な対話フレームワークは、コンプライアンスチェックの分野と不透明なシステムの特性の分析の両方において、多くの道を開きます。
論文 参考訳(メタデータ) (2021-02-09T09:14:04Z) - Policy Supervectors: General Characterization of Agents by their
Behaviour [18.488655590845163]
訪問状態の分布によってエージェントを特徴付ける政策スーパーベクターを提案する。
ポリシースーパーベクターは、デザイン哲学に関係なくポリシーを特徴づけ、単一のワークステーションマシン上で数千のポリシーにスケールすることができる。
本研究では、強化学習、進化学習、模倣学習における政策の進化を研究することによって、手法の適用性を実証する。
論文 参考訳(メタデータ) (2020-12-02T14:43:16Z) - Learning "What-if" Explanations for Sequential Decision-Making [92.8311073739295]
実世界の意思決定の解釈可能なパラメータ化を実証行動に基づいて構築することが不可欠である。
そこで我々は,「何」の結果に対する嗜好の観点から,報酬関数をモデル化し,専門家による意思決定の学習的説明を提案する。
本研究は,行動の正確かつ解釈可能な記述を回復する上で,実効的逆強化学習手法であるバッチの有効性を強調した。
論文 参考訳(メタデータ) (2020-07-02T14:24:17Z) - Learning Goal-oriented Dialogue Policy with Opposite Agent Awareness [116.804536884437]
本稿では,目標指向対話における政策学習のための逆行動認識フレームワークを提案する。
我々は、その行動から相手エージェントの方針を推定し、この推定を用いてターゲットエージェントを対象ポリシーの一部として関連づけて改善する。
論文 参考訳(メタデータ) (2020-04-21T03:13:44Z) - Preventing Imitation Learning with Adversarial Policy Ensembles [79.81807680370677]
模倣学習は、政策プライバシに関する問題を引き起こす専門家を観察することで、ポリシーを再現することができる。
プロプライエタリなポリシーをクローンする外部オブザーバに対して、どうすれば保護できるのか?
新しい強化学習フレームワークを導入し、準最適政策のアンサンブルを訓練する。
論文 参考訳(メタデータ) (2020-01-31T01:57:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。