論文の概要: Bounded Rationality in Las Vegas: Probabilistic Finite Automata
PlayMulti-Armed Bandits
- arxiv url: http://arxiv.org/abs/2006.16950v1
- Date: Tue, 30 Jun 2020 16:42:08 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-15 04:35:43.220318
- Title: Bounded Rationality in Las Vegas: Probabilistic Finite Automata
PlayMulti-Armed Bandits
- Title(参考訳): ラスベガスにおける境界性:確率論的有限オートマタ演奏
- Authors: Xinming Liu, Joseph Y. Halpern
- Abstract要約: マルチアームバンディット(MAB)問題を考える。
確率的有限オートマトンにより容易に実装できるMABの簡単な演奏方法を検討する。
我々は、PFAが「人間らしく」行動し、標準的な人間の偏見を呈することを示した。
- 参考スコア(独自算出の注目度): 13.592112044121677
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While traditional economics assumes that humans are fully rational agents who
always maximize their expected utility, in practice, we constantly observe
apparently irrational behavior. One explanation is that people have limited
computational power, so that they are, quite rationally, making the best
decisions they can, given their computational limitations. To test this
hypothesis, we consider the multi-armed bandit (MAB) problem. We examine a
simple strategy for playing an MAB that can be implemented easily by a
probabilistic finite automaton (PFA). Roughly speaking, the PFA sets certain
expectations, and plays an arm as long as it meets them. If the PFA has
sufficiently many states, it performs near-optimally. Its performance degrades
gracefully as the number of states decreases. Moreover, the PFA acts in a
"human-like" way, exhibiting a number of standard human biases, like an
optimism bias and a negativity bias.
- Abstract(参考訳): 従来の経済学では、人間が常に期待する効用を最大化する完全に合理的なエージェントであると仮定しているが、実際には我々は常に不合理な振る舞いを観察している。
1つの説明は、人々は計算能力に制限があるので、計算能力の限界を考えると、合理的に最善を尽くすことができる。
この仮説を検証するために,マルチアームドバンディット (mab) 問題を考える。
確率有限オートマトン(pfa)によって容易に実装可能なmabをプレイするための単純な戦略について検討する。
おおまかに言えば、PFAは特定の期待を設定し、それを満たす限り腕を組む。
pfaが十分多くの状態を持つ場合、ほぼ最適に振る舞う。
その性能は州数が減少するにつれて優雅に低下する。
さらに、PFAは「人間のような」方法で行動し、楽観主義バイアスや負性バイアスなど、多くの標準的な人間のバイアスを示す。
関連論文リスト
- Locally-Minimal Probabilistic Explanations [33.95940778422656]
説明可能な人工知能(XAI)に関するほとんどの研究は厳密な保証を提供していない。
高度な領域、例えば人間に影響を与えるAIの使用では、説明の厳密さの欠如は悲惨な結果をもたらす可能性がある。
本稿では,局所最小PXApsの計算アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-12-19T03:45:27Z) - Forward-Backward Reasoning in Large Language Models for Mathematical Verification [65.9495774606273]
自己整合性(Self-Consistency)は、さまざまな推論チェーンの回答をサンプリングし、多数決によって最終回答を選択する。
候補解の検証に後方推論を導入する。
検証のための FOrward と BAckward Reasoning は最先端の性能を達成する。
論文 参考訳(メタデータ) (2023-08-15T13:19:59Z) - On Imperfect Recall in Multi-Agent Influence Diagrams [57.21088266396761]
マルチエージェント・インフルエンス・ダイアグラム(MAID)はベイズネットワークに基づくゲーム理論モデルとして人気がある。
混合ポリシと2種類の相関平衡を用いて, 忘れ易いエージェントと不注意なエージェントでMAIDを解く方法を示す。
また,不完全なリコールがしばしば避けられないマルコフゲームやチーム状況へのMAIDの適用についても述べる。
論文 参考訳(メタデータ) (2023-07-11T07:08:34Z) - Evaluating Superhuman Models with Consistency Checks [14.04919745612553]
整合性チェックによる超人的モデル評価のためのフレームワークを提案する。
決定の正確性を評価するのが難しい3つのタスクについて、我々のフレームワークをインスタンス化する。
論文 参考訳(メタデータ) (2023-06-16T17:26:38Z) - HOP, UNION, GENERATE: Explainable Multi-hop Reasoning without Rationale
Supervision [118.0818807474809]
本研究は、合理的な監督なしに説明可能なマルチホップQAシステムを訓練するための原則的確率論的アプローチを提案する。
提案手法は,集合としての有理を明示的にモデル化し,文書と文間の相互作用を文書内で捉えることによって,マルチホップ推論を行う。
論文 参考訳(メタデータ) (2023-05-23T16:53:49Z) - How Well Does the Metropolis Algorithm Cope With Local Optima? [6.793248433673384]
我々はCLIFFベンチマークでメトロポリスアルゴリズム(MA)のランタイム解析を行う。
MAが主要な動作原理から利益を得るための理想的なベンチマークであるように見えるが、数学的ランタイム分析は、この望みが実現していないことを示している。
この結果は、MAが実際に非常に成功した理由に関する我々の理解が、まだ完了していないことを示唆している。
論文 参考訳(メタデータ) (2023-04-21T09:44:08Z) - On Avoiding Power-Seeking by Artificial Intelligence [93.9264437334683]
私たちは、非常にインテリジェントなAIエージェントの振る舞いと人間の関心を協調する方法を知りません。
私は、世界に限られた影響を与え、自律的に力を求めないスマートAIエージェントを構築できるかどうか調査する。
論文 参考訳(メタデータ) (2022-06-23T16:56:21Z) - Independent finite approximations for Bayesian nonparametric inference [30.367795444044788]
等質なランダム測度に対する実用的な有限次元近似を構築するためのレシピを提案する。
我々は、AIFAの近似誤差を、一般的なCRMとNCRMの幅広いクラスに上限付けする。
最悪の場合、TFAはAIFAよりも効率的であることを示す。
論文 参考訳(メタデータ) (2020-09-22T19:37:21Z) - Preference-based Reinforcement Learning with Finite-Time Guarantees [76.88632321436472]
嗜好に基づく強化学習(PbRL)は、従来の強化学習における報酬価値を代替し、目標とする目的に対する人間の意見をよりよく提示する。
応用の有望な結果にもかかわらず、PbRLの理論的理解はまだ初期段階にある。
一般PbRL問題に対する最初の有限時間解析を提案する。
論文 参考訳(メタデータ) (2020-06-16T03:52:41Z) - Diversity in Action: General-Sum Multi-Agent Continuous Inverse Optimal
Control [12.771478252695399]
上記の全ての点に対処するゲーム理論法を提案する。
AV に使われている多くの既存手法と比較して,1) 完全通信を必要としない,2) エージェントごとの報奨が可能である。
我々の実験は、これらのより現実的な仮定が、期待される現実世界の行動によく一致する、質的かつ定量的に異なる報酬予測と将来の行動予測をもたらすことを示した。
論文 参考訳(メタデータ) (2020-04-27T09:53:52Z) - Public Bayesian Persuasion: Being Almost Optimal and Almost Persuasive [57.47546090379434]
i) 任意の状態空間, (ii) 任意の行動空間, (iii) 任意の送信者のユーティリティ関数を用いて, 一般の状況下での公衆の説得問題を考察する。
任意の公的な説得問題に対して準多項式時間ビクテリア近似アルゴリズムを提案し、特定の設定でQPTASを出力する。
論文 参考訳(メタデータ) (2020-02-12T18:59:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。