論文の概要: Fog of Love: Engineering Virtuous Agent Behavior with Affinity-based Reinforcement Learning in a Game Environment
- arxiv url: http://arxiv.org/abs/2606.04750v1
- Date: Wed, 03 Jun 2026 11:31:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-04 20:44:18.709433
- Title: Fog of Love: Engineering Virtuous Agent Behavior with Affinity-based Reinforcement Learning in a Game Environment
- Title(参考訳): 愛の霧:ゲーム環境における親和性に基づく強化学習による工学的活力的エージェント行動
- Authors: Ajay Vishwanath, Christian Omlin,
- Abstract要約: 本稿では, 局所親和性が, 競合目的と協調目的の両方を達成する上で, エージェント性能を高めることを示す。
これは希少な選択をもたらすだけでなく、エージェントのテレロジーを明確にし、その振る舞いを人間レベルの解釈を可能にする。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Instilling virtuous behavior in artificial intelligence has seen increasing interest. One of the techniques proposed is known as affinity-based reinforcement learning, which uses policy regularization on the objective function to incentivize virtuous actions without being fully dependent on the reward function design. Thus far, this technique has been demonstrated to be effective in grid worlds and toy-problem environments with minimal state and action spaces. To expand this research to more sophisticated environments, we introduce a two-player multi-agent environment based on the role-playing board game known as Fog of Love. In this environment, two agents compete to fulfill their individual virtues, while also cooperating to satisfy their relationship. Given the multi-agent nature, this is a complex problem where multi-agent deep deterministic policy gradient agents neither compete nor cooperate successfully. We present evidence that localized affinities enhance agent performance in achieving both competitive and cooperative objectives, resulting from superior overall scores in both domains. This not only results in virtuous choices but also clarifies an agent's teleology and makes its behavior human-level interpretable.
- Abstract(参考訳): 人工知能に精巧な振る舞いを取り入れることへの関心が高まっている。
提案手法の1つは親和性に基づく強化学習(affinity-based reinforcement learning)と呼ばれ、これは目的関数のポリシー正則化を利用して、報酬関数の設計に完全に依存することなく、無作為な行動の動機付けを行う。
これまでのところ、この手法は、最小の状態と行動空間を持つグリッドワールドや玩具プロブレム環境において有効であることが証明されている。
本研究をより洗練された環境に展開するために,Fog of Loveとして知られるロールプレイングボードゲームに基づく2人プレイのマルチエージェント環境を導入する。
この環境では、2つのエージェントがそれぞれの徳を果たすために競い合い、その関係を満たすために協力する。
マルチエージェントの性質を考えると、これはマルチエージェントの深い決定主義的政策勾配エージェントが競合も協力もしない複雑な問題である。
本研究は, 局所親和性が, 競合目的と協調目標の両方を達成する上で, エージェント性能を高めることを示すものである。
これは希少な選択をもたらすだけでなく、エージェントのテレロジーを明確にし、その振る舞いを人間レベルの解釈を可能にする。
関連論文リスト
- SocialGFs: Learning Social Gradient Fields for Multi-Agent Reinforcement Learning [58.84311336011451]
マルチエージェント強化学習のための新しい勾配に基づく状態表現を提案する。
オフラインサンプルからソーシャルグラデーションフィールド(SocialGF)を学習するために,デノジングスコアマッチングを採用している。
実際に、SocialGFをMAPPOなど、広く使われているマルチエージェント強化学習アルゴリズムに統合する。
論文 参考訳(メタデータ) (2024-05-03T04:12:19Z) - Aligning Individual and Collective Objectives in Multi-Agent Cooperation [18.082268221987956]
混合モチベーション協調は、マルチエージェント学習における最も顕著な課題の1つである。
textbftextitAltruistic textbftextitGradient textbftextitAdjustment (textbftextitAgA) という新しい最適化手法を導入する。
我々は,ベンチマーク環境によるAgAアルゴリズムの有効性を評価し,小規模エージェントとの混合モチベーションを検証した。
論文 参考訳(メタデータ) (2024-02-19T08:18:53Z) - Joint Intrinsic Motivation for Coordinated Exploration in Multi-Agent
Deep Reinforcement Learning [0.0]
本稿では,エージェントが一括して斬新な行動を示すような報奨戦略を提案する。
ジムは連続した環境で機能するように設計されたノベルティの集中的な尺度に基づいて共同軌道に報いる。
その結果、最適戦略が高レベルの調整を必要とするタスクの解決には、共同探索が不可欠であることが示唆された。
論文 参考訳(メタデータ) (2024-02-06T13:02:00Z) - DCIR: Dynamic Consistency Intrinsic Reward for Multi-Agent Reinforcement
Learning [84.22561239481901]
本稿では,エージェントの行動が他のエージェントの行動と一致しているかどうかを学習するための新しいアプローチを提案する。
マルチエージェント粒子, Google Research Football および StarCraft II Micromanagement を含む複数の環境における DCIR の評価を行った。
論文 参考訳(メタデータ) (2023-12-10T06:03:57Z) - ProAgent: Building Proactive Cooperative Agents with Large Language
Models [89.53040828210945]
ProAgentは、大規模な言語モデルを利用してプロアクティブエージェントを生成する新しいフレームワークである。
ProAgentは現状を分析し、チームメイトの意図を観察から推測することができる。
ProAgentは高度なモジュール化と解釈可能性を示し、様々な調整シナリオに容易に統合できる。
論文 参考訳(メタデータ) (2023-08-22T10:36:56Z) - Multi-Agent Interplay in a Competitive Survival Environment [0.0]
この論文は、2022年、ローマ・サピエンザ大学の人工知能とロボティクスの修士号に対する著者の論文"Multi-Agent Interplay in a Competitive Survival Environment"の一部である。
論文 参考訳(メタデータ) (2023-01-19T12:04:03Z) - Goal-Conditioned Reinforcement Learning in the Presence of an Adversary [0.0]
強化学習は、ここ数年で現実世界の文脈で応用が増えている。
これを戦うための一般的なアプローチは、敵の存在下でエージェントを訓練することである。
敵はエージェントを不安定にするために行動し、より堅牢なポリシーを学び、現実的な条件をうまく扱える。
本稿では,対戦相手に対する行動を支援する2つの新しい目標条件環境であるDigitFlipとCLEVR-Playを紹介する。
論文 参考訳(メタデータ) (2022-11-13T15:40:01Z) - Explore and Control with Adversarial Surprise [78.41972292110967]
強化学習(Reinforcement Learning, RL)は、目標指向のポリシーを学習するためのフレームワークである。
本稿では,RLエージェントが経験した驚きの量と競合する2つのポリシーを相殺する対戦ゲームに基づく,新しい教師なしRL手法を提案する。
本手法は, 明確な相転移を示すことによって, 複雑なスキルの出現につながることを示す。
論文 参考訳(メタデータ) (2021-07-12T17:58:40Z) - Policy Fusion for Adaptive and Customizable Reinforcement Learning
Agents [137.86426963572214]
異なる行動政策を結合して有意義な「融合」政策を得る方法を示す。
事前学習されたポリシーを組み合わせるための4つの異なるポリシー融合手法を提案する。
これらの手法がゲーム制作や設計に実際どのように役立つのか,実例とユースケースをいくつか紹介する。
論文 参考訳(メタデータ) (2021-04-21T16:08:44Z) - Learning to Incentivize Other Learning Agents [73.03133692589532]
我々は、学習インセンティブ関数を用いて、RLエージェントに他のエージェントに直接報酬を与える能力を持たせる方法を示す。
このようなエージェントは、一般的なマルコフゲームにおいて、標準のRLと対戦型エージェントを著しく上回っている。
私たちの仕事は、マルチエージェントの未来において共通の善を確実にする道のりに沿って、より多くの機会と課題を指しています。
論文 参考訳(メタデータ) (2020-06-10T20:12:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。