Fugu-MT 論文翻訳(概要): Cheap Talking Algorithms

論文の概要: Cheap Talking Algorithms

arxiv url: http://arxiv.org/abs/2310.07867v5
Date: Mon, 3 Jun 2024 15:34:10 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-04 20:41:02.547481
Title: Cheap Talking Algorithms
Title（参考訳）: Cheap Talking Algorithms
Authors: Daniele Condorelli, Massimiliano Furlan,
Abstract要約: 送信側と受信側がNash平衡に収束することを示す。送信者の安価な話のインフォマティクスのレベルは、バイアスが増加するにつれて低下する。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: We simulate behaviour of two independent reinforcement learning algorithms playing the Crawford and Sobel (1982) game of strategic information transmission. We adopt memoryless algorithms to capture learning in a static game where a large population interacts anonymously. We show that sender and receiver converge to Nash equilibrium play. The level of informativeness of the sender's cheap talk decreases as the bias increases and, at intermediate level of the bias, it matches the level predicted by the Pareto optimal equilibrium or by the second best one. Conclusions are robust to alternative specifications of the learning hyperparameters and of the game.
Abstract（参考訳）: 戦略情報伝達のCrawford and Sobel (1982) ゲームにおける2つの独立強化学習アルゴリズムの動作をシミュレートする。我々は、大集団が匿名で対話する静的ゲームにおいて、学習をキャプチャするために、メモリレスアルゴリズムを採用する。送信側と受信側がNash平衡に収束することを示す。送信者の安価な話の報知のレベルは、バイアスが増加するにつれて減少し、バイアスの中間レベルでは、パレート最適均衡によって予測されるレベルと、または第2のベストトークによって予測されるレベルと一致する。結論は学習ハイパーパラメータやゲームの代替仕様に対して堅牢である。

関連論文リスト

Multi-Step Alignment as Markov Games: An Optimistic Online Gradient Descent Approach with Convergence Guarantees [91.88803125231189]
マルチステップ優先最適化(MPO)は、自然なアクター批判フレームワークciteprakhlin2013online,joulani17a上に構築されている。我々はOMPOが$mathcalO(epsilon-1)$ポリシー更新を必要とし、$epsilon$-approximate Nash平衡に収束することを示した。また,本手法がマルチターン会話データセットと数理推論データセットに与える影響についても検証した。
論文参考訳（メタデータ） (2025-02-18T09:33:48Z)
Finite-Sample Guarantees for Best-Response Learning Dynamics in Zero-Sum Matrix Games [22.380293155135096]
2人のプレイヤーゼロサム行列ゲームに対する最適応答型学習ダイナミクスについて検討する。我々は,各プレイヤーがゲームと相手の戦略について持っている情報の種類によって区別される2つの設定について検討する。
論文参考訳（メタデータ） (2024-07-29T15:56:49Z)
ApproxED: Approximate exploitability descent via learned best responses [61.17702187957206]
連続的なアクションセットを持つゲームの近似的ナッシュ均衡を求める問題について検討する。本稿では,戦略プロファイルに対するエクスプロイラビリティの近似を最小化する2つの新しい手法を提案する。
論文参考訳（メタデータ） (2023-01-20T23:55:30Z)
Decentralized model-free reinforcement learning in stochastic games with average-reward objective [1.9852463786440127]
本アルゴリズムは,次数$T3/4$のサブ線形高確率後悔と次数$T2/3$のサブ線形高確率後悔を実現する。本アルゴリズムは,従来の手法に比べて計算量が少なく,メモリスペースも少ない。
論文参考訳（メタデータ） (2023-01-13T15:59:53Z)
Finding mixed-strategy equilibria of continuous-action games without gradients using randomized policy networks [83.28949556413717]
グラデーションへのアクセスを伴わない連続アクションゲームのナッシュ平衡を近似的に計算する問題について検討する。ニューラルネットワークを用いてプレイヤーの戦略をモデル化する。本論文は、制約のない混合戦略と勾配情報のない一般的な連続アクションゲームを解決する最初の方法である。
論文参考訳（メタデータ） (2022-11-29T05:16:41Z)
Multiplayer Performative Prediction: Learning in Decision-Dependent Games [18.386569111954213]
本稿では,マルチプレイヤー演奏予測のための新たなゲーム理論の枠組みを定式化する。我々は、(i)パフォーマンス的に安定な平衡と(ii)ゲームのナッシュ平衡という、2つの異なる解の概念に焦点を当てる。軽微な仮定の下では、様々なアルゴリズムにより、性能的に安定な平衡を効率的に見つけることができることを示す。
論文参考訳（メタデータ） (2022-01-10T15:31:10Z)
Towards convergence to Nash equilibria in two-team zero-sum games [17.4461045395989]
2チームゼロサムゲームは、プレイヤーが2つの競合するエージェントに分割されるマルチプレイヤーゲームとして定義される。我々はNash equilibria(NE)の解の概念に焦点をあてる。このクラスのゲームに対する計算 NE は、複雑性クラス $mathrm$ に対して $textithard$ であることを示す。
論文参考訳（メタデータ） (2021-11-07T21:15:35Z)
Sample-Efficient Learning of Stackelberg Equilibria in General-Sum Games [78.65798135008419]
一般的なゲームでStackelberg平衡を効率的に学習する方法は、サンプルから非常にオープンなままです。本稿では,2プレーヤターンベース汎用ゲームにおけるStackelberg平衡のサンプル効率学習に関する理論的研究を開始する。
論文参考訳（メタデータ） (2021-02-23T05:11:07Z)
Computing Nash Equilibria in Multiplayer DAG-Structured Stochastic Games with Persistent Imperfect Information [1.7132914341329848]
永続的不完全情報を持つマルチプレイヤー汎用ゲームにおいて,ナッシュ均衡を近似するアルゴリズムを提案する。新たな手法を用いることで,本ゲームにおけるナッシュ均衡を近似した戦略をアルゴリズムで計算できることが証明できる。
論文参考訳（メタデータ） (2020-10-26T19:27:26Z)
On Information Asymmetry in Competitive Multi-Agent Reinforcement Learning: Convergence and Optimality [78.76529463321374]
協調的でない2つのQ-ラーニングエージェントの相互作用システムについて検討する。この情報非対称性は、集団学習の安定した結果をもたらす可能性があることを示す。
論文参考訳（メタデータ） (2020-10-21T11:19:53Z)
Provable Fictitious Play for General Mean-Field Games [111.44976345867005]
静止平均場ゲームのための強化学習アルゴリズムを提案する。目標は、ナッシュ均衡を構成する平均場状態と定常政策のペアを学ぶことである。
論文参考訳（メタデータ） (2020-10-08T18:46:48Z)
Learning to Play Sequential Games versus Unknown Opponents [93.8672371143881]
学習者が最初にプレーするゲームと、選択した行動に反応する相手との連続的なゲームについて考察する。対戦相手の対戦相手列と対戦する際,学習者に対して新しいアルゴリズムを提案する。我々の結果には、相手の反応の正則性に依存するアルゴリズムの後悔の保証が含まれている。
論文参考訳（メタデータ） (2020-07-10T09:33:05Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。