論文の概要: Social learning via actions in bandit environments
- arxiv url: http://arxiv.org/abs/2205.06107v1
- Date: Thu, 12 May 2022 14:15:17 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-13 19:12:06.601357
- Title: Social learning via actions in bandit environments
- Title(参考訳): バンディット環境における行動による社会学習
- Authors: Aroon Narayanan
- Abstract要約: ベイジアン・バンディット・セッティングにおける私的ペイオフと公共活動による戦略的探索のゲームについて研究する。
私はカスケード均衡を見て、エージェントが十分に悲観的になったときだけ、リスクのない行動からリスクのない行動に時間をかけて切り替える。
- 参考スコア(独自算出の注目度): 0.20305676256390928
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: I study a game of strategic exploration with private payoffs and public
actions in a Bayesian bandit setting. In particular, I look at cascade
equilibria, in which agents switch over time from the risky action to the
riskless action only when they become sufficiently pessimistic. I show that
these equilibria exist under some conditions and establish their salient
properties. Individual exploration in these equilibria can be more or less than
the single-agent level depending on whether the agents start out with a common
prior or not, but the most optimistic agent always underexplores. I also show
that allowing the agents to write enforceable ex-ante contracts will lead to
the most ex-ante optimistic agent to buy all payoff streams, providing an
explanation to the buying out of smaller start-ups by more established firms.
- Abstract(参考訳): 私は、ベイジアン・バンディットの設定で、私的な支払いと公共行動による戦略的探究のゲームを研究します。
特に私は、エージェントが十分に悲観的になる時だけ、リスクのあるアクションからリスクのないアクションへと時間とともに切り替えるカスケード均衡を考察します。
これらの平衡は、ある条件下で存在し、それらの健全な性質を確立することを示す。
これらの平衡における個々の探索は、エージェントが共通の事前から開始するか否かによって、単エージェントレベルよりも多かれ少なかれ小さいが、最も楽観的なエージェントは常に過小評価される。
また、エージェントが強制可能な元ante契約を書けるようにすれば、最も元ante楽観的なエージェントがすべてのペイオフストリームを購入することになり、より確立された企業による小さなスタートアップの購入についての説明が得られます。
関連論文リスト
- Safe Exploitative Play with Untrusted Type Beliefs [21.177698937011183]
本研究では,複数のエージェントからなるシステムにおいて,一つのエージェントを制御するという考え方について検討する。
この種の信念は、しばしば過去の行動から学び、誤りである可能性が高い。
リスクと機会のトレードオフを定義し、最適のペイオフに対して得られるペイオフを比較します。
論文 参考訳(メタデータ) (2024-11-12T09:49:16Z) - Exploration and Persuasion [58.87314871998078]
我々は、自己関心のあるエージェントが利用したいときの探索にインセンティブを与える方法を示す。
不確実性の下で決定を下す利己的なエージェントの集団を考える。
彼らは新しい情報を取得し、良い決定を下すためにこの情報を「発見」する。
これは、探査が費用がかかるためであるが、将来多くのエージェントにその利点が広がるためである。
論文 参考訳(メタデータ) (2024-10-22T15:13:13Z) - Repeated Contracting with Multiple Non-Myopic Agents: Policy Regret and
Limited Liability [6.512509337399156]
本稿では,各ラウンドにおいて,主役が$k$エージェントの中から適応的に選択する契約条件について検討する。
エージェントは非ミオニックであり、プリンシパルのメカニズムはエージェント間でT$ラウンドの広範なフォームゲームを誘導する。
論文 参考訳(メタデータ) (2024-02-27T01:01:59Z) - Contracting with a Learning Agent [32.950708673180436]
本研究では,学習エージェントとの繰り返し契約に関する研究を行い,結果が得られないエージェントに着目した。
我々は、複数のアクション間のエージェントの選択が成功/失敗に繋がる正準契約設定において、この問題に対する最適解を実現する。
我々の結果は、成功/失敗を超えて、プリンシパルが動的に再スケールする任意の非線形契約に一般化される。
論文 参考訳(メタデータ) (2024-01-29T14:53:22Z) - Robust and Performance Incentivizing Algorithms for Multi-Armed Bandits
with Strategic Agents [57.627352949446625]
マルチアームバンディット問題の変種を考察する。
具体的には、武器は、報酬を改善したり、吸収したりできる戦略的なエージェントである。
我々は、プロパティの集合を満たすMABアルゴリズムのクラスを特定し、それらが平衡におけるトップレベルのパフォーマンスを刺激するメカニズムをもたらすことを示す。
論文 参考訳(メタデータ) (2023-12-13T06:54:49Z) - Bandit Social Learning: Exploration under Myopic Behavior [58.75758600464338]
オンラインプラットフォーム上でのレビューによって動機付けられた社会学習のダイナミクスについて検討する。
エージェントはまとめて単純なマルチアームのバンディットプロトコルに従うが、各エージェントは探索を伴わずにミオプティカルに振る舞う。
このような振る舞いに対して,スターク学習の失敗を導出し,好意的な結果を提供する。
論文 参考訳(メタデータ) (2023-02-15T01:57:57Z) - Learning in Stackelberg Games with Non-myopic Agents [60.927889817803745]
そこで本研究では,主役が非筋力的な長寿命エージェントと繰り返し対話するスタックルバーグゲームについて,エージェントの支払関数を知らずに検討する。
我々は、非ミオピックエージェントの存在下での学習を、ミオピックエージェントの存在下で堅牢な帯域最適化に還元する一般的なフレームワークを提供する。
論文 参考訳(メタデータ) (2022-08-19T15:49:30Z) - Learning Risk-Averse Equilibria in Multi-Agent Systems [13.25454171233235]
マルチエージェントシステムでは、知的エージェントは、他のエージェントのアクションが期待通りである場合に最適な結果をもたらす決定を行う。
本稿では,学習者が予期せぬ行動に適応できる新たなリスク回避ソリューションを提案する。
リスク-逆均衡を近似するエージェントの集団は、特に目に見えない反対の集団の存在に有効であることを示す。
論文 参考訳(メタデータ) (2022-05-30T21:20:30Z) - Explore and Control with Adversarial Surprise [78.41972292110967]
強化学習(Reinforcement Learning, RL)は、目標指向のポリシーを学習するためのフレームワークである。
本稿では,RLエージェントが経験した驚きの量と競合する2つのポリシーを相殺する対戦ゲームに基づく,新しい教師なしRL手法を提案する。
本手法は, 明確な相転移を示すことによって, 複雑なスキルの出現につながることを示す。
論文 参考訳(メタデータ) (2021-07-12T17:58:40Z) - Emergent Prosociality in Multi-Agent Games Through Gifting [14.943238230772264]
強化学習アルゴリズムは、複数の平衡が存在する場合、社会的に望まれない均衡に収束する。
我々は,より社会的に望ましい均衡に向けてエージェントを誘導する,制約の少ないピアリワード機構,ギフトの利用を提案する。
我々は、社会的均衡への収束における贈与の利点を捉えた理論的枠組みを用いる。
論文 参考訳(メタデータ) (2021-05-13T23:28:30Z) - Learning to Incentivize Other Learning Agents [73.03133692589532]
我々は、学習インセンティブ関数を用いて、RLエージェントに他のエージェントに直接報酬を与える能力を持たせる方法を示す。
このようなエージェントは、一般的なマルコフゲームにおいて、標準のRLと対戦型エージェントを著しく上回っている。
私たちの仕事は、マルチエージェントの未来において共通の善を確実にする道のりに沿って、より多くの機会と課題を指しています。
論文 参考訳(メタデータ) (2020-06-10T20:12:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。