Fugu-MT 論文翻訳(概要): Moody Learners -- Explaining Competitive Behaviour of Reinforcement Learning Agents

論文の概要: Moody Learners -- Explaining Competitive Behaviour of Reinforcement Learning Agents

arxiv url: http://arxiv.org/abs/2007.16045v1
Date: Thu, 30 Jul 2020 11:30:42 GMT
ステータス: 翻訳完了
システム内更新日: 2022-11-05 13:39:56.103675
Title: Moody Learners -- Explaining Competitive Behaviour of Reinforcement Learning Agents
Title（参考訳）: Moody Learners -- 強化学習エージェントの競争行動を説明する
Authors: Pablo Barros, Ana Tanevska, Francisco Cruz, Alessandra Sciutti
Abstract要約: 競合シナリオでは、エージェントは動的環境を持つだけでなく、相手の行動に直接影響される。エージェントのQ値の観察は通常、その振る舞いを説明する方法であるが、選択されたアクション間の時間的関係は示さない。
参考スコア（独自算出の注目度）: 65.2200847818153
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Designing the decision-making processes of artificial agents that are involved in competitive interactions is a challenging task. In a competitive scenario, the agent does not only have a dynamic environment but also is directly affected by the opponents' actions. Observing the Q-values of the agent is usually a way of explaining its behavior, however, do not show the temporal-relation between the selected actions. We address this problem by proposing the \emph{Moody framework}. We evaluate our model by performing a series of experiments using the competitive multiplayer Chef's Hat card game and discuss how our model allows the agents' to obtain a holistic representation of the competitive dynamics within the game.
Abstract（参考訳）: 競合する相互作用に関与する人工エージェントの意思決定プロセスの設計は難しい作業である。競争的なシナリオでは、エージェントは動的環境を持つだけでなく、相手の行動に直接影響を受ける。エージェントのQ値の観察は通常、その振る舞いを説明する方法であるが、選択されたアクション間の時間的関係は示さない。この問題に対して \emph{Moody framework} を提案する。我々は,競争型マルチプレイヤーシェフのハットカードゲームを用いて,一連の実験を行い,このモデルがエージェントがゲーム内の競争ダイナミクスの全体的表現をどのように得るかについて議論した。

関連論文リスト

Toward Optimal LLM Alignments Using Two-Player Games [86.39338084862324]
本稿では,対戦相手と防御エージェントの反復的相互作用を含む2エージェントゲームのレンズによるアライメントについて検討する。この反復的強化学習最適化がエージェントによって誘導されるゲームに対するナッシュ平衡に収束することを理論的に実証する。安全シナリオにおける実験結果から、このような競争環境下での学習は、完全に訓練するエージェントだけでなく、敵エージェントと防御エージェントの両方に対する一般化能力の向上したポリシーにつながることが示されている。
論文参考訳（メタデータ） (2024-06-16T15:24:50Z)
ProAgent: Building Proactive Cooperative Agents with Large Language Models [89.53040828210945]
ProAgentは、大規模な言語モデルを利用してプロアクティブエージェントを生成する新しいフレームワークである。 ProAgentは現状を分析し、チームメイトの意図を観察から推測することができる。 ProAgentは高度なモジュール化と解釈可能性を示し、様々な調整シナリオに容易に統合できる。
論文参考訳（メタデータ） (2023-08-22T10:36:56Z)
Decision-making with Speculative Opponent Models [10.594910251058087]
分散応答支援型マルチエージェントアクター・クリティカル(DOMAC)について紹介する。 DOMACは、ローカル情報(例えば、制御されたエージェントの観察、行動、報酬)のみに依存する最初の投機的相手モデリングアルゴリズムである。
論文参考訳（メタデータ） (2022-11-22T01:29:47Z)
Game-theoretic Objective Space Planning [4.989480853499916]
他のエージェントの意図を理解することは、敵のマルチエージェント環境における自律システムの展開に不可欠である。現在のアプローチは、エージェントのアクション空間の離散化を過度に単純化するか、または、アクションの長期的な効果を認識して、ミオピックになるのに失敗する。本稿では,エージェント動作の連続性を維持しつつ,多様なエージェント動作をカプセル化する新しい次元還元法を提案する。
論文参考訳（メタデータ） (2022-09-16T07:35:20Z)
Incorporating Rivalry in Reinforcement Learning for a Competitive Game [65.2200847818153]
本研究は,競争行動の社会的影響に基づく新しい強化学習機構を提案する。提案モデルでは, 人工エージェントの学習を調節するための競合スコアを導出するために, 客観的, 社会的認知的メカニズムを集約する。
論文参考訳（メタデータ） (2022-08-22T14:06:06Z)
Multi-agent Actor-Critic with Time Dynamical Opponent Model [16.820873906787906]
多エージェント強化学習では、複数のエージェントが共通の環境と相互作用しながら同時に学習する。本稿では,TDOM(textitTime Dynamical Opponent Model)を提案する。我々は,テスト期間中にTDOMが優れた対向行動予測を達成できることを実証的に示す。
論文参考訳（メタデータ） (2022-04-12T07:16:15Z)
Learning Latent Representations to Influence Multi-Agent Interaction [65.44092264843538]
エージェントのポリシーの潜在表現を学習するための強化学習に基づくフレームワークを提案する。提案手法は代替手段よりも優れており,他のエージェントに影響を与えることを学習している。
論文参考訳（メタデータ） (2020-11-12T19:04:26Z)
Incorporating Rivalry in Reinforcement Learning for a Competitive Game [65.2200847818153]
本研究は、競合する社会的影響に基づく新しい学習メカニズムの提供に焦点を当てる。本研究は,競争競合の概念に基づいて,これらのエージェントの評価を人的視点から変えられるかを検討することを目的とする。
論文参考訳（メタデータ） (2020-11-02T21:54:18Z)
Learning to Model Opponent Learning [11.61673411387596]
マルチエージェント強化学習(MARL: Multi-Agent Reinforcement Learning)は、一組の共存エージェントが相互とその環境と相互作用する設定を考える。これは、通常、収束が定常環境の仮定に依存する値関数ベースのアルゴリズムにとって大きな課題となる。我々は、モデルポンポント学習(LeMOL)と呼ばれる、対戦者の学習力学をモデル化するための新しいアプローチを開発する。
論文参考訳（メタデータ） (2020-06-06T17:19:04Z)
Variational Autoencoders for Opponent Modeling in Multi-Agent Systems [9.405879323049659]
マルチエージェントシステムは、共有環境における複数のエージェントの相互作用から生じる複雑な振る舞いを示す。本研究は,マルチエージェントシステムにおけるエージェントの制御に関心を持ち,ポリシーを定めているエージェントとのインタラクションをうまく学習する。他のエージェント(反対者)の振る舞いをモデル化することは、システム内のエージェントの相互作用を理解するのに不可欠である。
論文参考訳（メタデータ） (2020-01-29T13:38:59Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。