論文の概要: Multi-Issue Bargaining With Deep Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2002.07788v1
- Date: Tue, 18 Feb 2020 18:33:46 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-30 20:52:29.549220
- Title: Multi-Issue Bargaining With Deep Reinforcement Learning
- Title(参考訳): 深層強化学習によるマルチIssueバーゲティング
- Authors: Ho-Chun Herbert Chang
- Abstract要約: 本稿では,バーゲティングゲームにおける深層強化学習の活用について検討する。
入札と受け入れ戦略のために2つのアクター・クリティカル・ネットワークが訓練された。
ニューラルエージェントは時間ベースのエージェントを活用することを学び、決定優先値の明確な遷移を達成する。
彼らはまた、譲歩、割引要因、行動に基づく戦略の異なる組み合わせに対して適応的な行動を示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Negotiation is a process where agents aim to work through disputes and
maximize their surplus. As the use of deep reinforcement learning in bargaining
games is unexplored, this paper evaluates its ability to exploit, adapt, and
cooperate to produce fair outcomes. Two actor-critic networks were trained for
the bidding and acceptance strategy, against time-based agents, behavior-based
agents, and through self-play. Gameplay against these agents reveals three key
findings. 1) Neural agents learn to exploit time-based agents, achieving clear
transitions in decision preference values. The Cauchy distribution emerges as
suitable for sampling offers, due to its peaky center and heavy tails. The
kurtosis and variance sensitivity of the probability distributions used for
continuous control produce trade-offs in exploration and exploitation. 2)
Neural agents demonstrate adaptive behavior against different combinations of
concession, discount factors, and behavior-based strategies. 3) Most
importantly, neural agents learn to cooperate with other behavior-based agents,
in certain cases utilizing non-credible threats to force fairer results. This
bears similarities with reputation-based strategies in the evolutionary
dynamics, and departs from equilibria in classical game theory.
- Abstract(参考訳): 交渉とは、エージェントが紛争を乗り越え、その余剰量を最大化するプロセスである。
バーゲティングゲームにおける深層強化学習の活用は明らかにされていないが,本研究では,公正な結果を生み出すために,その活用,適応,協力の能力を評価する。
入札と受入戦略、時間ベースのエージェント、行動に基づくエージェント、そしてセルフプレイの2つのアクター-クリティックネットワークが訓練された。
これらのエージェントに対するゲームプレイには、3つの重要な発見がある。
1) 神経エージェントは時間に基づくエージェントの活用を学び、決定嗜好値の明確な遷移を達成する。
コーシー分布は、ピーク中心と重い尾のため、サンプリング提供に適したものとして出現する。
連続制御に用いられる確率分布のクルトシスと分散感度は、探索と搾取のトレードオフを生み出す。
2) 神経エージェントは, 譲歩, 割引要因, 行動に基づく戦略の組み合わせに対して適応的な行動を示す。
3)最も重要なことは、神経エージェントが他の行動に基づくエージェントと協力することを学び、特定のケースでは、より公平な結果を強制するために非信頼できる脅威を利用する。
これは進化力学における評判に基づく戦略と類似しており、古典ゲーム理論における平衡から離れている。
関連論文リスト
- Strategic Classification With Externalities [11.36782598786846]
戦略分類問題の新しい変種を提案する。
実世界のアプリケーションによって動機づけられた我々のモデルは、あるエージェントの操作が他のエージェントに影響を与えることを決定的に許している。
特定の仮定の下では、このエージェント操作ゲームの純粋なナッシュ平衡はユニークであり、効率的に計算できることが示される。
論文 参考訳(メタデータ) (2024-10-10T15:28:04Z) - Reciprocal Reward Influence Encourages Cooperation From Self-Interested Agents [2.1301560294088318]
自己関心の個人間の協力は、自然界で広く見られる現象であるが、人工的な知的エージェント間の相互作用においては、いまだ解明されていない。
そこで,本研究では,リターンに対する相手の行動の影響を再現するために,本質的に動機づけられた強化学習エージェントであるReciprocatorを紹介する。
本研究では,同時学習において,時間的に拡張された社会的ジレンマにおける協調を促進するために,共用者が利用できることを示す。
論文 参考訳(メタデータ) (2024-06-03T06:07:27Z) - Fast Peer Adaptation with Context-aware Exploration [63.08444527039578]
マルチエージェントゲームにおける学習エージェントに対するピア識別報酬を提案する。
この報酬は、効果的な探索と迅速な適応のための文脈認識ポリシーを学ぶためのエージェントのモチベーションとなる。
我々は,競争力のある(クーンポーカー),協力的(PO-Overcooked),あるいは混合的(Predator-Prey-W)な(Pedator-Prey-W)ゲームを含む多種多様なテストベッドについて評価を行った。
論文 参考訳(メタデータ) (2024-02-04T13:02:27Z) - Credit-cognisant reinforcement learning for multi-agent cooperation [0.0]
エージェントは,その行動が環境および共同エージェントに与える影響を知覚することができる。
これらの経験を操り、それらに含まれる報酬を構成することで、すべてのエージェントが受け取る報酬を同一のアクションシーケンスに含めることで、独立した深層Q-ラーニングの性能を大幅に向上できることを示す。
論文 参考訳(メタデータ) (2022-11-18T09:00:25Z) - Intrinsic fluctuations of reinforcement learning promote cooperation [0.0]
社会的ジレンマの状況における協力は、動物、人間、機械にとって不可欠である。
マルチエージェント・ラーニング・セッティングの個々の要素が協調にどのように寄与するかを実証する。
論文 参考訳(メタデータ) (2022-09-01T09:14:47Z) - Explore and Control with Adversarial Surprise [78.41972292110967]
強化学習(Reinforcement Learning, RL)は、目標指向のポリシーを学習するためのフレームワークである。
本稿では,RLエージェントが経験した驚きの量と競合する2つのポリシーを相殺する対戦ゲームに基づく,新しい教師なしRL手法を提案する。
本手法は, 明確な相転移を示すことによって, 複雑なスキルの出現につながることを示す。
論文 参考訳(メタデータ) (2021-07-12T17:58:40Z) - What is Going on Inside Recurrent Meta Reinforcement Learning Agents? [63.58053355357644]
recurrent meta reinforcement learning (meta-rl)エージェントは「学習アルゴリズムの学習」を目的としてrecurrent neural network (rnn)を使用するエージェントである。
部分観測可能なマルコフ決定プロセス(POMDP)フレームワークを用いてメタRL問題を再構成することにより,これらのエージェントの内部動作機構を明らかにする。
論文 参考訳(メタデータ) (2021-04-29T20:34:39Z) - End-to-End Learning and Intervention in Games [60.41921763076017]
ゲームにおける学習と介入のための統一的なフレームワークを提供する。
明示的および暗黙的な区別に基づく2つのアプローチを提案する。
分析結果は、実世界のいくつかの問題を用いて検証される。
論文 参考訳(メタデータ) (2020-10-26T18:39:32Z) - When to (or not to) trust intelligent machines: Insights from an
evolutionary game theory analysis of trust in repeated games [0.8701566919381222]
繰り返しゲームにおける信頼に基づく戦略の実現可能性について検討する。
これらは、他のプレイヤーが協力していると見られる限り協力する相互戦略である。
これにより、共同プレイヤのアクションが実際に協調的であるかどうかを検証する機会コストを削減できる。
論文 参考訳(メタデータ) (2020-07-22T10:53:49Z) - Learning to Incentivize Other Learning Agents [73.03133692589532]
我々は、学習インセンティブ関数を用いて、RLエージェントに他のエージェントに直接報酬を与える能力を持たせる方法を示す。
このようなエージェントは、一般的なマルコフゲームにおいて、標準のRLと対戦型エージェントを著しく上回っている。
私たちの仕事は、マルチエージェントの未来において共通の善を確実にする道のりに沿って、より多くの機会と課題を指しています。
論文 参考訳(メタデータ) (2020-06-10T20:12:38Z) - Intrinsic Motivation for Encouraging Synergistic Behavior [55.10275467562764]
スパース・リワード・シナジスティック・タスクにおける強化学習の探索バイアスとしての本質的モチベーションの役割について検討した。
私たちのキーとなる考え方は、シナジスティックなタスクにおける本質的なモチベーションのための優れた指針は、エージェントが自分自身で行動している場合、達成できない方法で世界に影響を与える行動を取ることである。
論文 参考訳(メタデータ) (2020-02-12T19:34:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。