論文の概要: Online Learning in Iterated Prisoner's Dilemma to Mimic Human Behavior
- arxiv url: http://arxiv.org/abs/2006.06580v3
- Date: Sat, 27 Aug 2022 02:50:31 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-23 14:55:30.957591
- Title: Online Learning in Iterated Prisoner's Dilemma to Mimic Human Behavior
- Title(参考訳): 未熟な人間の行動に対する反復的囚人のジレンマにおけるオンライン学習
- Authors: Baihan Lin, Djallel Bouneffouf, Guillermo Cecchi
- Abstract要約: In the Iterated Prisoner's Dilemma (IPD) game, we study the behaviors of online learning algorithm in the Iterated Prisoner's Dilemma (IPD) game。
我々は、複数のエージェントが連続的に競争できる、反復囚人ジレンマのトーナメントに基づいて、それらを評価する。
その結果,このような社会的ジレンマゲームでは,現在の意思決定状況を考えることが最悪であることが示唆された。
- 参考スコア(独自算出の注目度): 27.80555922579736
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As an important psychological and social experiment, the Iterated Prisoner's
Dilemma (IPD) treats the choice to cooperate or defect as an atomic action. We
propose to study the behaviors of online learning algorithms in the Iterated
Prisoner's Dilemma (IPD) game, where we investigate the full spectrum of
reinforcement learning agents: multi-armed bandits, contextual bandits and
reinforcement learning. We evaluate them based on a tournament of iterated
prisoner's dilemma where multiple agents can compete in a sequential fashion.
This allows us to analyze the dynamics of policies learned by multiple
self-interested independent reward-driven agents, and also allows us study the
capacity of these algorithms to fit the human behaviors. Results suggest that
considering the current situation to make decision is the worst in this kind of
social dilemma game. Multiples discoveries on online learning behaviors and
clinical validations are stated, as an effort to connect artificial
intelligence algorithms with human behaviors and their abnormal states in
neuropsychiatric conditions.
- Abstract(参考訳): 重要な心理学的、社会的実験として、反復囚人のジレンマ(ipd)は、協力や欠陥を原子作用として扱う。
In the Iterated Prisoner's Dilemma (IPD) game, we propose to study the behaviors of online learning algorithm in the Iterated Prisoner's Dilemma (IPD) game, where we investigated the full spectrum of reinforcement learning agent: multi-armed bandits, contextual bandits and reinforcement learning。
我々は、複数のエージェントが連続的に競争できる、反復囚人ジレンマのトーナメントに基づいて、それらを評価する。
これにより、複数の自己関心のある独立報酬駆動エージェントによって学習されるポリシーのダイナミクスを解析し、人間の行動に適合するアルゴリズムの能力を研究することが可能になります。
その結果, 社会的ジレンマゲームでは, 意思決定の現在の状況を考えることが最悪であることが示唆された。
オンライン学習行動と臨床検証に関する複数の発見は、人工知能アルゴリズムと人間の行動と、神経精神医学的な状態の異常状態を結びつける試みとして述べられている。
関連論文リスト
- Multi-agent cooperation through learning-aware policy gradients [53.63948041506278]
利己的な個人はしばしば協力に失敗し、マルチエージェント学習の根本的な課題を提起する。
本稿では,学習型強化学習のための,偏見のない高導出性ポリシー勾配アルゴリズムを提案する。
我々は, 受刑者のジレンマから, 自己関心のある学習エージェントの間でどのように, いつ, 協力関係が生じるかの新たな説明を得た。
論文 参考訳(メタデータ) (2024-10-24T10:48:42Z) - Nicer Than Humans: How do Large Language Models Behave in the Prisoner's Dilemma? [0.1474723404975345]
複数レベルの敵意を示すランダムな敵に対する反復的囚人ジレンマの演奏におけるLlama2の協調行動について検討した。
Llama2は欠陥を起こさない傾向にあるが、協調に慎重なアプローチを採用する。
ヒトの参加者に関する以前の研究と比較すると、Llama2は協調行動に対するより強い傾きを示す。
論文 参考訳(メタデータ) (2024-06-19T14:51:14Z) - RLIF: Interactive Imitation Learning as Reinforcement Learning [56.997263135104504]
我々は,対話型模倣学習と類似するが,さらに実践的な仮定の下で,非政治強化学習によってパフォーマンスが向上できることを実証する。
提案手法は,ユーザ介入信号を用いた強化学習を報奨として利用する。
このことは、インタラクティブな模倣学習において介入する専門家がほぼ最適であるべきだという仮定を緩和し、アルゴリズムが潜在的に最適でない人間の専門家よりも改善される行動を学ぶことを可能にする。
論文 参考訳(メタデータ) (2023-11-21T21:05:21Z) - Neural Amortized Inference for Nested Multi-agent Reasoning [54.39127942041582]
本研究では,人間のような推論能力と計算限界のギャップを埋める新しい手法を提案する。
提案手法を2つの挑戦的マルチエージェント相互作用領域で評価する。
論文 参考訳(メタデータ) (2023-08-21T22:40:36Z) - Bandit Social Learning: Exploration under Myopic Behavior [58.75758600464338]
オンラインプラットフォーム上でのレビューによって動機付けられた社会学習のダイナミクスについて検討する。
エージェントはまとめて単純なマルチアームのバンディットプロトコルに従うが、各エージェントは探索を伴わずにミオプティカルに振る舞う。
このような振る舞いに対して,スターク学習の失敗を導出し,好意的な結果を提供する。
論文 参考訳(メタデータ) (2023-02-15T01:57:57Z) - Human-AI Coordination via Human-Regularized Search and Learning [33.95649252941375]
我々は,ハナビベンチマークにおいて,実際の人間と協調する上で高い性能を達成する3段階のアルゴリズムを開発した。
まず、正規化された検索アルゴリズムと行動クローンを用いて、多様なスキルレベルをキャプチャする優れた人間モデルを作成します。
本手法は, 2人のエージェントと繰り返しプレイすることで, 行動的クローン化基準に対するバニラの最良の応答を達成できることが示唆された。
論文 参考訳(メタデータ) (2022-10-11T03:46:12Z) - Policy Fusion for Adaptive and Customizable Reinforcement Learning
Agents [137.86426963572214]
異なる行動政策を結合して有意義な「融合」政策を得る方法を示す。
事前学習されたポリシーを組み合わせるための4つの異なるポリシー融合手法を提案する。
これらの手法がゲーム制作や設計に実際どのように役立つのか,実例とユースケースをいくつか紹介する。
論文 参考訳(メタデータ) (2021-04-21T16:08:44Z) - Learning Human Rewards by Inferring Their Latent Intelligence Levels in
Multi-Agent Games: A Theory-of-Mind Approach with Application to Driving Data [18.750834997334664]
我々は、人間は有理論的であり、他人の意思決定過程を推論する際に異なる知能レベルを持っていると論じる。
学習中の人間の潜在知能レベルを推論する,新しいマルチエージェント逆強化学習フレームワークを提案する。
論文 参考訳(メタデータ) (2021-03-07T07:48:31Z) - Predicting human decision making in psychological tasks with recurrent
neural networks [27.80555922579736]
本稿では,長期記憶ネットワーク(LSTM)に基づくリカレントニューラルネットワークアーキテクチャを用いて,ゲーム活動に携わる被験者の行動の時系列を予測することを提案する。
本研究では,168,386の個人決定からなる反復刑務所ジレンマの8つの文献から得られた人的データを,両選手の行動軌跡8,257に照合する。
我々はアイオワ・ギャンブリング・タスクの単一エージェントシナリオとマルチの双方において、人間の意思決定軌跡を予測する最先端手法に対する明確な優位性を示す。
論文 参考訳(メタデータ) (2020-10-22T03:36:03Z) - Learning from Learners: Adapting Reinforcement Learning Agents to be
Competitive in a Card Game [71.24825724518847]
本稿では,競争力のあるマルチプレイヤーカードゲームの現実的な実装を学習・プレイするために,一般的な強化学習アルゴリズムをどのように適用できるかについて検討する。
本研究は,学習エージェントに対して,エージェントが競争力を持つことの学習方法を評価するための特定のトレーニングと検証ルーチンを提案し,それらが相互の演奏スタイルにどのように適応するかを説明する。
論文 参考訳(メタデータ) (2020-04-08T14:11:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。