論文の概要: Explainable Multi-Agent Reinforcement Learning for Temporal Queries
- arxiv url: http://arxiv.org/abs/2305.10378v1
- Date: Wed, 17 May 2023 17:04:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-18 14:41:45.236142
- Title: Explainable Multi-Agent Reinforcement Learning for Temporal Queries
- Title(参考訳): 時間的問合せのための説明可能なマルチエージェント強化学習
- Authors: Kayla Boggess, Sarit Kraus, and Lu Feng
- Abstract要約: 本研究は、時間的ユーザクエリに応答するMARLに対して、ポリシーレベルのコントラスト的説明を生成するアプローチを提案する。
提案手法は,PCTL論理式として時間的クエリを符号化し,そのクエリが所定のMARLポリシーの下で実現可能かどうかをチェックする。
ユーザスタディの結果から,生成した説明書はユーザパフォーマンスと満足度を著しく向上させることがわかった。
- 参考スコア(独自算出の注目度): 18.33682005623418
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As multi-agent reinforcement learning (MARL) systems are increasingly
deployed throughout society, it is imperative yet challenging for users to
understand the emergent behaviors of MARL agents in complex environments. This
work presents an approach for generating policy-level contrastive explanations
for MARL to answer a temporal user query, which specifies a sequence of tasks
completed by agents with possible cooperation. The proposed approach encodes
the temporal query as a PCTL logic formula and checks if the query is feasible
under a given MARL policy via probabilistic model checking. Such explanations
can help reconcile discrepancies between the actual and anticipated multi-agent
behaviors. The proposed approach also generates correct and complete
explanations to pinpoint reasons that make a user query infeasible. We have
successfully applied the proposed approach to four benchmark MARL domains (up
to 9 agents in one domain). Moreover, the results of a user study show that the
generated explanations significantly improve user performance and satisfaction.
- Abstract(参考訳): マルチエージェント強化学習 (MARL) システムは, 社会全体に普及しているため, 複雑な環境下でのMARLエージェントの創発的行動を理解することは困難である。
本研究は,エージェントが処理可能なタスクのシーケンスを規定した時間的ユーザクエリにmarlが答えるために,ポリシーレベルのコントラスト的説明を生成する手法を提案する。
提案手法は,PCTL論理式として時間的クエリを符号化し,確率的モデル検査によって所定のMARLポリシーの下でクエリが実現可能かどうかをチェックする。
このような説明は、実際のマルチエージェント動作と予測されたマルチエージェント動作の相違を解消するのに役立つ。
提案手法は,ユーザクエリが実現不可能である理由を特定するための,正確かつ完全な説明も生成する。
提案手法を4つのベンチマークMARLドメイン(1つのドメインで最大9エージェント)に適用した。
さらに, ユーザ調査の結果から, 生成した説明がユーザパフォーマンスと満足度を著しく向上させることが示された。
関連論文リスト
- On Diagnostics for Understanding Agent Training Behaviour in Cooperative
MARL [5.124364759305485]
我々は、経験的リターンのみに依存することは、エージェントの振る舞いに不明瞭な重要な洞察を与えるかもしれないと論じる。
本稿では,エージェントの動作に対する深い洞察を得るために,説明可能なAI(XAI)ツールの適用について検討する。
論文 参考訳(メタデータ) (2023-12-13T19:10:10Z) - Token-Level Adversarial Prompt Detection Based on Perplexity Measures
and Contextual Information [67.78183175605761]
大規模言語モデルは、敵の迅速な攻撃に影響を受けやすい。
この脆弱性は、LLMの堅牢性と信頼性に関する重要な懸念を浮き彫りにしている。
トークンレベルで敵のプロンプトを検出するための新しい手法を提案する。
論文 参考訳(メタデータ) (2023-11-20T03:17:21Z) - On Generative Agents in Recommendation [65.52796348055281]
Agent4RecはLarge Language Models (LLM)に基づく映画レコメンデーションシミュレータである。
ユーザプロファイル、メモリ、アクションモジュールを備えたLLMを内蔵した生成エージェントは、レコメンダシステムに特化している。
Agent4Recの評価では、エージェント間のアライメントと逸脱とユーザ個人化された好みの両方を強調している。
論文 参考訳(メタデータ) (2023-10-16T06:41:16Z) - Formally Specifying the High-Level Behavior of LLM-Based Agents [24.645319505305316]
LLMはタスク固有の微調整モデルを必要とせずに、課題を解決するための有望なツールとして登場した。
現在、このようなエージェントの設計と実装はアドホックであり、LLMベースのエージェントが自然に適用できる様々なタスクは、エージェント設計に一律に適合するアプローチが存在しないことを意味する。
エージェント構築のプロセスを簡単にする最小主義的生成フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-12T17:24:15Z) - MA2CL:Masked Attentive Contrastive Learning for Multi-Agent
Reinforcement Learning [128.19212716007794]
我々はtextbfMulti-textbfAgent textbfMasked textbfAttentive textbfContrastive textbfLearning (MA2CL) という効果的なフレームワークを提案する。
MA2CLは、潜伏空間におけるマスクされたエージェント観察を再構築することにより、時間的およびエージェントレベルの予測の両方の学習表現を奨励する。
提案手法は,様々なMARLアルゴリズムの性能とサンプル効率を大幅に向上させ,様々な視覚的,状態的シナリオにおいて,他の手法よりも優れる。
論文 参考訳(メタデータ) (2023-06-03T05:32:19Z) - ASQ-IT: Interactive Explanations for Reinforcement-Learning Agents [7.9603223299524535]
本稿では,ユーザが興味のある行動の時間的特性を記述したクエリに基づいて,その環境に作用するエージェントのビデオクリップを提示する対話型ツールASQ-ITを提案する。
提案手法は,ASQ-ITのユーザインタフェースのクエリを有限トレース(LTLf)上の線形時間論理の断片にマッピングする形式的手法に基づいており,クエリ処理のアルゴリズムはオートマチック理論に基づいている。
論文 参考訳(メタデータ) (2023-01-24T11:57:37Z) - Successive Prompting for Decomposing Complex Questions [50.00659445976735]
最近の研究は、大規模言語モデル(LM)の機能を活用して、数ショットで複雑な質問応答を行う。
そこでは、複雑なタスクを単純なタスクに繰り返し分解し、それを解決し、最終解を得るまでプロセスを繰り返します。
我々の最良のモデル(逐次プロンプト付き)は、DROPデータセットの数ショットバージョンにおいて、5%の絶対F1の改善を実現します。
論文 参考訳(メタデータ) (2022-12-08T06:03:38Z) - Explainable Reinforcement Learning via Model Transforms [18.385505289067023]
基礎となるマルコフ決定プロセスが完全には分かっていないとしても、それにもかかわらず、自動的に説明を生成するために利用することができる、と我々は主張する。
本稿では,従来の文献で最適ポリシー探索の高速化に用いられていた形式的MDP抽象化と変換を用いて,説明を自動的に生成することを提案する。
論文 参考訳(メタデータ) (2022-09-24T13:18:06Z) - Relational Reasoning via Set Transformers: Provable Efficiency and
Applications to MARL [154.13105285663656]
置換不変エージェントフレームワークを用いたMARL(Multi-A gent R einforcement Learning)は,実世界のアプリケーションにおいて大きな実証的成功を収めた。
残念なことに、このMARL問題の理論的理解は、多くのエージェントの呪いと、既存の著作における関係推論の限定的な探索によって欠落している。
モデルフリーアルゴリズムとモデルベースアルゴリズムの最適度差は各エージェント数に独立して対数的であり、多くのエージェントの呪いを和らげる。
論文 参考訳(メタデータ) (2022-09-20T16:42:59Z) - Toward Policy Explanations for Multi-Agent Reinforcement Learning [18.33682005623418]
MARLのための2種類のポリシー記述を生成するための新しい手法を提案する。
3つのMARL領域の実験結果から,提案手法のスケーラビリティが実証された。
ユーザスタディでは、生成された説明がユーザパフォーマンスを著しく改善し、ユーザ満足度などの指標に対する主観的評価が向上することを示した。
論文 参考訳(メタデータ) (2022-04-26T20:07:08Z) - Hyper Meta-Path Contrastive Learning for Multi-Behavior Recommendation [61.114580368455236]
マルチビヘイビア情報によるユーザ購入予測は、現在のレコメンデーションシステムでは難しい問題である。
本稿では,ハイパーメタパスやハイパーメタグラフを構築するためのハイパーメタパスの概念を提案する。
最近のグラフコントラスト学習の成功により、異なる振る舞い間の依存関係を理解するために固定されたスキームを割り当てるのではなく、ユーザ行動パターンの埋め込みを適応的に学習する。
論文 参考訳(メタデータ) (2021-09-07T04:28:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。