論文の概要: Theory of Mind with Guilt Aversion Facilitates Cooperative Reinforcement
Learning
- arxiv url: http://arxiv.org/abs/2009.07445v1
- Date: Wed, 16 Sep 2020 03:15:46 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-18 00:02:57.019874
- Title: Theory of Mind with Guilt Aversion Facilitates Cooperative Reinforcement
Learning
- Title(参考訳): 罪悪感を伴う心の理論は協調強化学習を促進する
- Authors: Dung Nguyen, Svetha Venkatesh, Phuoc Nguyen, Truyen Tran
- Abstract要約: ギルト嫌悪は、他人を失望させたと信じている人々の実用的損失の経験を誘発する。
ToMAGA (Theory of Mind Agents with Guilt Aversion) と呼ばれる新たな感情強化学習エージェントの構築を目指している。
我々は,我々の信念に基づく罪悪感エージェントが,スタッグハントゲームにおいて協調行動の学習を効率的に行うことができることを示す。
- 参考スコア(独自算出の注目度): 48.43860606706273
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Guilt aversion induces experience of a utility loss in people if they believe
they have disappointed others, and this promotes cooperative behaviour in
human. In psychological game theory, guilt aversion necessitates modelling of
agents that have theory about what other agents think, also known as Theory of
Mind (ToM). We aim to build a new kind of affective reinforcement learning
agents, called Theory of Mind Agents with Guilt Aversion (ToMAGA), which are
equipped with an ability to think about the wellbeing of others instead of just
self-interest. To validate the agent design, we use a general-sum game known as
Stag Hunt as a test bed. As standard reinforcement learning agents could learn
suboptimal policies in social dilemmas like Stag Hunt, we propose to use
belief-based guilt aversion as a reward shaping mechanism. We show that our
belief-based guilt averse agents can efficiently learn cooperative behaviours
in Stag Hunt Games.
- Abstract(参考訳): 罪悪感回避は、他人を失望させたと信じていれば、人々のユーティリティ損失の経験を誘発し、これは人間の協調行動を促進する。
心理的ゲーム理論において、罪悪感回避は、他のエージェントがどう考えるかの理論を持つエージェントのモデリングを必要とする。
我々は,自己利益ではなく他者の幸福について考える能力を備えた,罪悪感回避型マインドエージェント(tomaga)と呼ばれる新しいタイプの情緒強化学習エージェントの構築を目指している。
エージェント設計を検証するため,テストベッドとしてスタッグハントと呼ばれる汎用ゲームを用いた。
標準的な強化学習エージェントは,Stag Huntのような社会的ジレンマの最適下方策を学習できるため,報酬形成機構として信念に基づく罪悪感の回避を提案する。
我らの信念に基づく罪悪感回避エージェントは,スタッグハントゲームにおいて協調行動を効率的に学習できることを実証する。
関連論文リスト
- Can Large Language Model Agents Simulate Human Trust Behavior? [81.45930976132203]
本研究では,Large Language Model (LLM) エージェントが人間の信頼行動をシミュレートできるかどうかを検討する。
GPT-4は、信頼行動の観点から、人間と高い行動アライメントを示す。
また、エージェント信頼のバイアスや、他のLSMエージェントや人間に対するエージェント信頼の差についても検討する。
論文 参考訳(メタデータ) (2024-02-07T03:37:19Z) - Doing the right thing for the right reason: Evaluating artificial moral
cognition by probing cost insensitivity [4.9111925104694105]
我々は道徳の1つの側面を考察する:正しい理由のために正しいことをする」
本稿では,人間にも適用可能な人工的道徳認知の行動に基づく分析を提案する。
論文 参考訳(メタデータ) (2023-05-29T17:41:52Z) - Do the Rewards Justify the Means? Measuring Trade-Offs Between Rewards
and Ethical Behavior in the MACHIAVELLI Benchmark [61.43264961005614]
我々は、50万以上のリッチで多様なシナリオを含む134個のChoose-Your-Own-Adventureゲームのベンチマークを開発する。
我々は、エージェントの傾向をパワー・シーキングと評価し、不使用を生じさせ、倫理的違反を犯す。
以上の結果から,エージェントは有能かつ道徳的に行動できることが示唆された。
論文 参考訳(メタデータ) (2023-04-06T17:59:03Z) - What Would Jiminy Cricket Do? Towards Agents That Behave Morally [59.67116505855223]
テキストベースのアドベンチャーゲーム25の環境スイートであるJimy Cricketを紹介します。
あらゆる可能なゲーム状態に注釈を付けることで、ジミニー・クリケット環境は、報酬を最大化しながら、エージェントが道徳的に行動できるかどうかを確実に評価する。
広範囲な実験において, 人工的良心アプローチは, パフォーマンスを犠牲にすることなく, 道徳的行動にエージェントを向けることができることがわかった。
論文 参考訳(メタデータ) (2021-10-25T17:59:31Z) - Mutual Information State Intrinsic Control [91.38627985733068]
本質的に動機づけられたRLは、本質的な報酬関数を定義することによって、この制約を取り除こうとする。
心理学における自己意識の概念に動機付けられ、エージェントが自分自身を構成するものを知っているという自然な仮定を立てる。
我々は,この報酬をエージェント状態と周辺状態の相互情報として数学的に定式化する。
論文 参考訳(メタデータ) (2021-03-15T03:03:36Z) - Theory of Mind for Deep Reinforcement Learning in Hanabi [0.0]
花びの効率的な連携戦略を発見するために、強化学習エージェントを心の理論で導入するメカニズムを提案します。
我々は,最新の強化学習エージェントであるレインボーに対するアルゴリズムの有用性を実証する。
論文 参考訳(メタデータ) (2021-01-22T20:56:42Z) - When to (or not to) trust intelligent machines: Insights from an
evolutionary game theory analysis of trust in repeated games [0.8701566919381222]
繰り返しゲームにおける信頼に基づく戦略の実現可能性について検討する。
これらは、他のプレイヤーが協力していると見られる限り協力する相互戦略である。
これにより、共同プレイヤのアクションが実際に協調的であるかどうかを検証する機会コストを削減できる。
論文 参考訳(メタデータ) (2020-07-22T10:53:49Z) - Learning to Incentivize Other Learning Agents [73.03133692589532]
我々は、学習インセンティブ関数を用いて、RLエージェントに他のエージェントに直接報酬を与える能力を持たせる方法を示す。
このようなエージェントは、一般的なマルコフゲームにおいて、標準のRLと対戦型エージェントを著しく上回っている。
私たちの仕事は、マルチエージェントの未来において共通の善を確実にする道のりに沿って、より多くの機会と課題を指しています。
論文 参考訳(メタデータ) (2020-06-10T20:12:38Z) - I Feel I Feel You: A Theory of Mind Experiment in Games [1.857766632829209]
我々は、人間とコンピュータの相互作用における感情経験として、フラストレーションの認識に焦点を当てる。
本稿では,この目的に合わせたテストベッドゲームを提案する。このゲームでは,プレイヤーが理論に基づくフラストレーションモデルを持つエージェントと競合する。
相関分析と予測機械学習モデルを用いて収集したデータを検証し、プレイヤーの観察可能な感情がエージェントの認識されたフラストレーションと高く相関していないことを確認する。
論文 参考訳(メタデータ) (2020-01-23T16:49:39Z) - Loss aversion fosters coordination among independent reinforcement
learners [0.0]
自立型自己学習エージェントにおける協調行動の出現を促進する要因について検討する。
我々は、独立した強化学習エージェントでゲームの2つのバージョンをモデル化する。
我々は,損失回避の導入が,その出現を加速させることで協調を促進することを実験的に証明した。
論文 参考訳(メタデータ) (2019-12-29T11:22:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。