論文の概要: Bounded rationality for relaxing best response and mutual consistency:
An information-theoretic model of partial self-reference
- arxiv url: http://arxiv.org/abs/2106.15844v1
- Date: Wed, 30 Jun 2021 06:56:56 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-01 15:17:16.785859
- Title: Bounded rationality for relaxing best response and mutual consistency:
An information-theoretic model of partial self-reference
- Title(参考訳): 最適応答と相互整合性を緩和するための有界合理性:部分的自己参照の情報理論モデル
- Authors: Benjamin Patrick Evans, Mikhail Prokopenko
- Abstract要約: この研究は、相互整合性やベストレスポンスなど、合理的性の前提となるいくつかの仮定に焦点を当てている。
我々は、レベル-$k$推論と量子応答平衡(QRE)の概念を用いて、これらの仮定を緩和する方法を検討する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While game theory has been transformative for decision-making, the
assumptions made can be overly restrictive in certain instances. In this work,
we focus on some of the assumptions underlying rationality such as mutual
consistency and best-response, and consider ways to relax these assumptions
using concepts from level-$k$ reasoning and quantal response equilibrium (QRE)
respectively. Specifically, we provide an information-theoretic two-parameter
model that can relax both mutual consistency and best-response, but can recover
approximations of level-$k$, QRE, or typical Nash equilibrium behaviour in the
limiting cases. The proposed approach is based on a recursive form of the
variational free energy principle, representing self-referential games as
(pseudo) sequential decisions. Bounds in player processing abilities are
captured as information costs, where future chains of reasoning are discounted,
implying a hierarchy of players where lower-level players have fewer processing
resources.
- Abstract(参考訳): ゲーム理論は意思決定に変換的であるが、ある場合においては仮定は過度に制限的である。
本研究は,相互整合性や最良応答性などの理性性の仮定に焦点をあて,レベル=k$推論と量子応答平衡(QRE)の概念を用いて,これらの仮定を緩和する方法を検討する。
具体的には、相互整合性と最適応答性の両方を緩和できる情報理論2パラメータモデルを提供するが、制限ケースにおけるレベル-k$、QRE、あるいは典型的なナッシュ平衡挙動の近似を復元することができる。
提案手法は, 変分自由エネルギー原理の帰納的形式に基づき, 自己参照ゲーム(pseudo)を逐次決定として表現する。
プレイヤーの処理能力の限界は情報コストとして捉えられ、将来の推論チェーンは割引され、低レベルのプレイヤーが処理リソースが少ないプレイヤー階層を意味する。
関連論文リスト
- Barriers to Welfare Maximization with No-Regret Learning [68.66209476382213]
我々は、ほぼ最適の$T$-sparse CCEの計算限界を低く証明する。
特に,最大傾斜角の不適応性は,時間内に非自明な間隔を達成できないことを示す。
論文 参考訳(メタデータ) (2024-11-04T00:34:56Z) - Sequential Manipulation Against Rank Aggregation: Theory and Algorithm [119.57122943187086]
脆弱なデータ収集プロセスに対するオンライン攻撃を活用します。
ゲーム理論の観点からは、対決シナリオは分布的に堅牢なゲームとして定式化される。
提案手法は,ランクアグリゲーション手法の結果を逐次的に操作する。
論文 参考訳(メタデータ) (2024-07-02T03:31:21Z) - Imperfect-Recall Games: Equilibrium Concepts and Their Complexity [74.01381499760288]
エージェントが以前保持していた情報を忘れたとき、不完全なリコールの下で最適な意思決定を行う。
不完全なリコールを伴う広範囲形式のゲームフレームワークにおいて、マルチプレイヤー設定における平衡を求める際の計算複雑性を解析する。
論文 参考訳(メタデータ) (2024-06-23T00:27:28Z) - Exploiting hidden structures in non-convex games for convergence to Nash
equilibrium [62.88214569402201]
現代の機械学習アプリケーションは、非協調的なナッシュリリアとして定式化することができる。
決定論的環境と決定論的環境の両方に明確な収束保証を提供する。
論文 参考訳(メタデータ) (2023-12-27T15:21:25Z) - The Computational Complexity of Single-Player Imperfect-Recall Games [37.550554344575]
本研究では,不完全なリコールを伴う広義のゲーム,例えばスリーピングビューティー問題やAbsent Driverゲームについて検討する。
そのようなゲームに対して、2つの自然な平衡概念が、最適解の代替概念として提案されている。
論文 参考訳(メタデータ) (2023-05-28T19:41:25Z) - Soft-Bellman Equilibrium in Affine Markov Games: Forward Solutions and
Inverse Learning [37.176741793213694]
我々は、アフィン・マルコフゲームと呼ばれるマルコフゲームのクラスを定式化し、アフィン報酬関数はプレイヤーの行動と一致する。
我々は,各プレイヤーが有理的に有理であり,ソフト・ベルマンポリシーを選択するような,新しい解の概念,ソフト・ベルマン均衡を導入する。
そこで我々は,プロジェクテッド・グラディエント・アルゴリズムを用いて,観測された状態-行動軌跡からプレイヤーの報酬パラメータを推定する逆ゲーム問題を解く。
論文 参考訳(メタデータ) (2023-03-31T22:50:47Z) - Evolutionary Strategies with Analogy Partitions in p-guessing Games [0.0]
不安定なpゲーム環境における学習のダイナミクスを研究するために,学習の進化過程を導入する。
我々の遺伝的アルゴリズムは、ナッシュ平衡に収束して、持続的な環境における過去の結果と一貫して振る舞うことを示す。
論文 参考訳(メタデータ) (2021-03-26T10:28:23Z) - Model-Free Online Learning in Unknown Sequential Decision Making
Problems and Games [114.90723492840499]
大規模な2人プレイのゼロサム情報ゲームでは、反事実後悔最小化(cfr)の現代的な拡張がnash均衡を計算するための実用的な技術である。
私たちは、戦略空間がエージェントに知られていないオンライン学習設定を形式化します。
エージェントが逆の環境に直面しても、その設定に高い確率で$O(T3/4)$後悔を達成する効率的なアルゴリズムを提供します。
論文 参考訳(メタデータ) (2021-03-08T04:03:24Z) - Hindsight and Sequential Rationality of Correlated Play [18.176128899338433]
私たちは、修正された振る舞いで達成できたことに対して、強いパフォーマンスを後見で保証するアルゴリズムを検討します。
我々は,学習の隠れた枠組みを,逐次的な意思決定の場で開発し,提唱する。
本稿では,それぞれの平衡の強さと弱さを文献に示す例を示す。
論文 参考訳(メタデータ) (2020-12-10T18:30:21Z) - A modified axiomatic foundation of the analytic hierarchy process [7.827025090754844]
本稿では, 解析階層プロセス (AHP) の公理的基盤の変更について報告する。
相互対称性の破れという新しい概念は、相互特性を伴わずに検討された状況を特徴づけるために提案される。
いくつかの結果は、近似一貫性という新しい概念を含む新しい公理から導かれる。
論文 参考訳(メタデータ) (2020-07-06T00:03:44Z) - Invariant Rationalization [84.1861516092232]
典型的な合理化基準、すなわち最大相互情報(MMI)は、合理性のみに基づいて予測性能を最大化する合理性を見つける。
ゲーム理論の不変な有理化基準を導入し、各環境において同じ予測器を最適にするために、有理を制約する。
理論的にも実証的にも、提案された理性は、素早い相関を除外し、異なるテストシナリオをより一般化し、人間の判断とよく一致させることができることを示す。
論文 参考訳(メタデータ) (2020-03-22T00:50:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。