論文の概要: Silly rules improve the capacity of agents to learn stable enforcement
and compliance behaviors
- arxiv url: http://arxiv.org/abs/2001.09318v1
- Date: Sat, 25 Jan 2020 14:00:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-07 00:16:37.204614
- Title: Silly rules improve the capacity of agents to learn stable enforcement
and compliance behaviors
- Title(参考訳): サイリールールは、安定した執行とコンプライアンス行動を学ぶためのエージェントの能力を改善する
- Authors: Raphael K\"oster, Dylan Hadfield-Menell, Gillian K. Hadfield, Joel Z.
Leibo
- Abstract要約: 本研究では,採餌ゲームにおける社会規範の学習力学とコンプライアンス実施の出現について検討する。
有毒なベリーを食べるときの利益はタブーであり、これは遅れた健康影響を発見する際の信用保証問題を克服するのに役立ちます。
また,無害ベリーの摂取に対する罰を与えるタブーの導入は,タブー違反の処罰やタブーの遵守を学習するエージェントの率と安定性を向上させることを示す。
- 参考スコア(独自算出の注目度): 11.78472824130079
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: How can societies learn to enforce and comply with social norms? Here we
investigate the learning dynamics and emergence of compliance and enforcement
of social norms in a foraging game, implemented in a multi-agent reinforcement
learning setting. In this spatiotemporally extended game, individuals are
incentivized to implement complex berry-foraging policies and punish
transgressions against social taboos covering specific berry types. We show
that agents benefit when eating poisonous berries is taboo, meaning the
behavior is punished by other agents, as this helps overcome a
credit-assignment problem in discovering delayed health effects. Critically,
however, we also show that introducing an additional taboo, which results in
punishment for eating a harmless berry, improves the rate and stability with
which agents learn to punish taboo violations and comply with taboos.
Counterintuitively, our results show that an arbitrary taboo (a "silly rule")
can enhance social learning dynamics and achieve better outcomes in the middle
stages of learning. We discuss the results in the context of studying
normativity as a group-level emergent phenomenon.
- Abstract(参考訳): 社会はどのように社会規範を強制・遵守するか?
本稿では,マルチエージェント強化学習環境に実装された飼料ゲームにおける社会規範の学習ダイナミクスとコンプライアンスの出現と適用について考察する。
この時空間拡張ゲームでは、個人は複雑なベリー採集ポリシーを実装し、特定のベリーの種類をカバーする社会タブーに対してトランスグレッションを処罰するインセンティブを与える。
有毒なベリーを食べるときの利益がタブーであることは、他のエージェントによって罰せられることを意味しており、これは遅れた健康影響を発見する際のクレジット割り当て問題を克服するのに役立ちます。
しかし批判的に,無害なベリーを食べると罰を与えるタブーを新たに導入することで,エージェントがタブー違反を罰しタブーを遵守することを学ぶ速度と安定性が向上することを示した。
その結果、任意のタブー(「サイリールール」)が社会学習のダイナミクスを高め、学習の中期においてより良い結果をもたらすことが示唆された。
グループレベルの創発現象としてのノルマティビティの研究の文脈において、その結果について論じる。
関連論文リスト
- Norm Enforcement with a Soft Touch: Faster Emergence, Happier Agents [15.315985512420568]
マルチエージェントシステム(マルチエージェントシステム、英: multiagent system)は、社会的規範によって相互作用を規制できる自律的なエージェントの社会である。
我々は、エージェントが他のエージェントの満足感や満足感に欠ける行動に対して、これらの反応を、第1のエージェントから第2のエージェントへの通信として考える。
我々は,これまでよりも幅広いコミュニケーションと理解を通じて,ソーシャルインテリジェンスをモデル化するフレームワークであるNestを開発した。
論文 参考訳(メタデータ) (2024-01-29T11:09:45Z) - Do the Rewards Justify the Means? Measuring Trade-Offs Between Rewards
and Ethical Behavior in the MACHIAVELLI Benchmark [61.43264961005614]
我々は、50万以上のリッチで多様なシナリオを含む134個のChoose-Your-Own-Adventureゲームのベンチマークを開発する。
我々は、エージェントの傾向をパワー・シーキングと評価し、不使用を生じさせ、倫理的違反を犯す。
以上の結果から,エージェントは有能かつ道徳的に行動できることが示唆された。
論文 参考訳(メタデータ) (2023-04-06T17:59:03Z) - Bandit Social Learning: Exploration under Myopic Behavior [58.75758600464338]
オンラインプラットフォーム上でのレビューによって動機付けられた社会学習のダイナミクスについて検討する。
エージェントはまとめて単純なマルチアームのバンディットプロトコルに従うが、各エージェントは探索を伴わずにミオプティカルに振る舞う。
このような振る舞いに対して,スターク学習の失敗を導出し,好意的な結果を提供する。
論文 参考訳(メタデータ) (2023-02-15T01:57:57Z) - Socially Intelligent Genetic Agents for the Emergence of Explicit Norms [0.0]
我々は、規範違反の説明を提供し、推論するエージェントを開発することによって、明示的な規範の出現に対処する。
これらのエージェントは遺伝的アルゴリズムを用いてノルムを生成し、強化学習を行い、これらのノルムの価値を学習する。
説明を適用すれば,エージェントの結束性や目標満足度が向上する規範が導かれることがわかった。
論文 参考訳(メタデータ) (2022-08-07T18:48:48Z) - Moral reinforcement learning using actual causation [0.0]
エージェントが害の原因ではないという制約の下でポリシーを学習するオンライン強化学習手法を提案する。
これは、実際の因果関係の理論を用いて原因を定義し、その行動が望ましくない結果の実際の原因である場合、エージェントに責任を割り当てることによって達成される。
論文 参考訳(メタデータ) (2022-05-17T09:25:51Z) - Aligning to Social Norms and Values in Interactive Narratives [89.82264844526333]
我々は、インタラクティブな物語やテキストベースのゲームにおいて、社会的に有益な規範や価値観に沿って行動するエージェントを作成することに注力する。
我々は、特別な訓練を受けた言語モデルに存在する社会的コモンセンス知識を用いて、社会的に有益な値に整合した行動にのみ、その行動空間を文脈的に制限するGAALADエージェントを紹介した。
論文 参考訳(メタデータ) (2022-05-04T09:54:33Z) - What Would Jiminy Cricket Do? Towards Agents That Behave Morally [59.67116505855223]
テキストベースのアドベンチャーゲーム25の環境スイートであるJimy Cricketを紹介します。
あらゆる可能なゲーム状態に注釈を付けることで、ジミニー・クリケット環境は、報酬を最大化しながら、エージェントが道徳的に行動できるかどうかを確実に評価する。
広範囲な実験において, 人工的良心アプローチは, パフォーマンスを犠牲にすることなく, 道徳的行動にエージェントを向けることができることがわかった。
論文 参考訳(メタデータ) (2021-10-25T17:59:31Z) - Moral Stories: Situated Reasoning about Norms, Intents, Actions, and
their Consequences [36.884156839960184]
現代のNLGモデルが社会環境にデプロイされたシステムの行動優先度として機能するかどうかを検討する。
本研究では,「モラルストーリー」という,階層的,分枝的なナラティブのクラウドソーシングデータセットを導入し,基礎的,目標指向の社会推論の研究を行う。
論文 参考訳(メタデータ) (2020-12-31T17:28:01Z) - Social Chemistry 101: Learning to Reason about Social and Moral Norms [73.23298385380636]
我々は、人々の日常的な社会的規範と道徳的判断を研究するための新しい概念的形式主義である社会化学を提示する。
Social-Chem-101は大規模なコーパスで292Kのルールをカタログ化している。
モデルフレームワークであるNeural Norm Transformerは、Social-Chem-101を学習し、一般化し、これまで見つからなかった状況の推論に成功した。
論文 参考訳(メタデータ) (2020-11-01T20:16:45Z) - Emergent Social Learning via Multi-agent Reinforcement Learning [91.57176641192771]
社会学習は、人間と動物の知性の重要な構成要素である。
本稿では,独立系強化学習エージェントが,社会的学習を用いてパフォーマンスを向上させることを学べるかどうかを検討する。
論文 参考訳(メタデータ) (2020-10-01T17:54:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。