論文の概要: Contrastive Explanations for Comparing Preferences of Reinforcement
Learning Agents
- arxiv url: http://arxiv.org/abs/2112.09462v1
- Date: Fri, 17 Dec 2021 11:57:57 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-20 20:41:36.232249
- Title: Contrastive Explanations for Comparing Preferences of Reinforcement
Learning Agents
- Title(参考訳): 強化学習エージェントの選好比較のための対比的説明
- Authors: Jasmina Gajcin, Rahul Nair, Tejaswini Pedapati, Radu Marinescu,
Elizabeth Daly, Ivana Dusparic
- Abstract要約: 報酬関数が単純でない複雑なタスクでは、報酬関数に対する個々の目的の影響を調整することで、多重強化学習(RL)ポリシーを訓練することができる。
この研究では、同じタスクで訓練された2つのポリシーの振る舞いを、目的において異なる好みで比較します。
本稿では,2つのRLエージェントの嗜好の相反する結果の相違から生じる行動の差異を識別する手法を提案する。
- 参考スコア(独自算出の注目度): 16.605295052893986
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In complex tasks where the reward function is not straightforward and
consists of a set of objectives, multiple reinforcement learning (RL) policies
that perform task adequately, but employ different strategies can be trained by
adjusting the impact of individual objectives on reward function. Understanding
the differences in strategies between policies is necessary to enable users to
choose between offered policies, and can help developers understand different
behaviors that emerge from various reward functions and training
hyperparameters in RL systems. In this work we compare behavior of two policies
trained on the same task, but with different preferences in objectives. We
propose a method for distinguishing between differences in behavior that stem
from different abilities from those that are a consequence of opposing
preferences of two RL agents. Furthermore, we use only data on preference-based
differences in order to generate contrasting explanations about agents'
preferences. Finally, we test and evaluate our approach on an autonomous
driving task and compare the behavior of a safety-oriented policy and one that
prefers speed.
- Abstract(参考訳): 報酬関数が単純で目的の集合からなる複雑なタスクでは、個別の目的が報酬関数に与える影響を調整することにより、タスクを適切に実行するが、異なる戦略を用いる複数の強化学習(rl)ポリシーを訓練することができる。
ポリシー間の戦略の違いを理解することは、提供されたポリシーの選択を可能にするために必要であり、開発者は様々な報酬関数から生じるさまざまな振る舞いを理解し、RLシステムのハイパーパラメータをトレーニングするのに役立つ。
この作業では、同じタスクでトレーニングされた2つのポリシーの振る舞いと、目的の異なる好みを比較します。
本稿では,2つのRLエージェントの嗜好の相反する結果の相違から生じる行動の差異を識別する手法を提案する。
さらに,エージェントの嗜好に関する対照的な説明を生成するために,嗜好に基づく差異のデータのみを使用する。
最後に、自動運転タスクに対するアプローチをテストし、評価し、安全志向のポリシーとスピードを好むポリシーの振る舞いを比較します。
関連論文リスト
- Human-in-the-Loop Policy Optimization for Preference-Based
Multi-Objective Reinforcement Learning [13.627087954965695]
好みに基づくMORLのためのHuman-in-the-loopポリシー最適化フレームワークを提案する。
本手法は,事前知識を必要とせずに,DMの暗黙の選好情報を積極的に学習する。
我々は従来の3つのMORLアルゴリズムと4つの最先端の選好に基づくMORLアルゴリズムに対するアプローチを評価する。
論文 参考訳(メタデータ) (2024-01-04T09:17:53Z) - DCIR: Dynamic Consistency Intrinsic Reward for Multi-Agent Reinforcement
Learning [84.22561239481901]
本稿では,エージェントの行動が他のエージェントの行動と一致しているかどうかを学習するための新しいアプローチを提案する。
マルチエージェント粒子, Google Research Football および StarCraft II Micromanagement を含む複数の環境における DCIR の評価を行った。
論文 参考訳(メタデータ) (2023-12-10T06:03:57Z) - Policy Diversity for Cooperative Agents [8.689289576285095]
マルチエージェント強化学習は、タスクを完了するための最適なチーム協調政策を見つけることを目的としている。
協調には複数の異なる方法があり、通常はドメインの専門家が非常に必要とします。
残念なことに、マルチエージェントドメイン用に特別に設計された効果的なポリシーの多様性アプローチが欠如している。
論文 参考訳(メタデータ) (2023-08-28T05:23:16Z) - Emergent Behaviors in Multi-Agent Target Acquisition [0.0]
追従回避ゲームにおける強化学習(RL)を用いたマルチエージェントシステム(MAS)のシミュレーションを行う。
我々は、RL訓練された追跡者のポリシーを2つの異なる(非RL)分析戦略に置き換えることで、異なる敵シナリオを作成する。
このアプローチの斬新さは、基礎となるデータ規則性を明らかにする影響力のある機能セットの作成を伴います。
論文 参考訳(メタデータ) (2022-12-15T15:20:58Z) - Learning From Good Trajectories in Offline Multi-Agent Reinforcement
Learning [98.07495732562654]
オフラインマルチエージェント強化学習(MARL)は、事前コンパイルされたデータセットから効果的なマルチエージェントポリシーを学ぶことを目的としている。
オフラインのMARLが学んだエージェントは、しばしばこのランダムなポリシーを継承し、チーム全体のパフォーマンスを脅かす。
この問題に対処するために,共有個人軌道(SIT)と呼ばれる新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2022-11-28T18:11:26Z) - Explaining Reinforcement Learning Policies through Counterfactual
Trajectories [147.7246109100945]
人間の開発者は、RLエージェントがテスト時にうまく機能することを検証しなければならない。
本手法では, エージェントの挙動をより広い軌道分布で示すことにより, エージェントの挙動を分布変化下で表現する。
本研究では,2つのエージェント検証タスクのうちの1つに対して,ベースライン法よりも優れたスコアを得られることを示す。
論文 参考訳(メタデータ) (2022-01-29T00:52:37Z) - Constructing a Good Behavior Basis for Transfer using Generalized Policy
Updates [63.58053355357644]
そこで我々は,優れた政策集合を学習する問題を考察し,組み合わせることで,目に見えない多種多様な強化学習タスクを解くことができることを示した。
理論的には、独立したポリシーのセットと呼ぶ、特定の多様なポリシーのセットにアクセスできることによって、ハイレベルなパフォーマンスを即時に達成できることが示される。
論文 参考訳(メタデータ) (2021-12-30T12:20:46Z) - Influence-based Reinforcement Learning for Intrinsically-motivated
Agents [0.0]
2つの強化学習エージェントのアルゴリズム的枠組みをそれぞれ異なる目的で提示する。
我々は,ある政策が他者に与える影響を評価するために,新たな関数近似手法を導入する。
本手法は,オープンAI体育館における課題と,協調的・混合的なシナリオについて検討した。
論文 参考訳(メタデータ) (2021-08-28T05:36:10Z) - Policy Fusion for Adaptive and Customizable Reinforcement Learning
Agents [137.86426963572214]
異なる行動政策を結合して有意義な「融合」政策を得る方法を示す。
事前学習されたポリシーを組み合わせるための4つの異なるポリシー融合手法を提案する。
これらの手法がゲーム制作や設計に実際どのように役立つのか,実例とユースケースをいくつか紹介する。
論文 参考訳(メタデータ) (2021-04-21T16:08:44Z) - Learning Goal-oriented Dialogue Policy with Opposite Agent Awareness [116.804536884437]
本稿では,目標指向対話における政策学習のための逆行動認識フレームワークを提案する。
我々は、その行動から相手エージェントの方針を推定し、この推定を用いてターゲットエージェントを対象ポリシーの一部として関連づけて改善する。
論文 参考訳(メタデータ) (2020-04-21T03:13:44Z) - Off-Policy Deep Reinforcement Learning with Analogous Disentangled
Exploration [33.25932244741268]
オフ政治強化学習(英: Off-policy reinforcement learning、RL)は、経験のサンプルを収集する別の政策を実行することで報酬政策を学ぶことに関心がある。
前者の方針は報われているが、(ほとんどの場合、決定論的な)非表現的であり、後者の課題では、対照的に、ガイド付きかつ効果的な探索を提供する表現的政策が必要である。
本稿では,この問題を緩和するために,Analogous Disentangled Actor-Critic (ADAC)を提案する。
論文 参考訳(メタデータ) (2020-02-25T08:49:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。