論文の概要: Can CDT rationalise the ex ante optimal policy via modified anthropics?
- arxiv url: http://arxiv.org/abs/2411.04462v1
- Date: Thu, 07 Nov 2024 06:23:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-08 19:37:48.212536
- Title: Can CDT rationalise the ex ante optimal policy via modified anthropics?
- Title(参考訳): 修正人類学によってCDTは最適政策を合理化できるのか?
- Authors: Emery Cooper, Caspar Oesterheld, Vincent Conitzer,
- Abstract要約: 我々は、Newcombのような一般的な問題を考慮し、合理的な自己配置の信念を形成しようとする。
我々は、世界をエージェントの動作シミュレーションとしてモデル化するアプローチを検討する。
我々は、ある条件下では、これらが元最適ポリシーを含むことを証明している。
- 参考スコア(独自算出の注目度): 28.325028044900133
- License:
- Abstract: In Newcomb's problem, causal decision theory (CDT) recommends two-boxing and thus comes apart from evidential decision theory (EDT) and ex ante policy optimisation (which prescribe one-boxing). However, in Newcomb's problem, you should perhaps believe that with some probability you are in a simulation run by the predictor to determine whether to put a million dollars into the opaque box. If so, then causal decision theory might recommend one-boxing in order to cause the predictor to fill the opaque box. In this paper, we study generalisations of this approach. That is, we consider general Newcomblike problems and try to form reasonable self-locating beliefs under which CDT's recommendations align with an EDT-like notion of ex ante policy optimisation. We consider approaches in which we model the world as running simulations of the agent, and an approach not based on such models (which we call 'Generalised Generalised Thirding', or GGT). For each approach, we characterise the resulting CDT policies, and prove that under certain conditions, these include the ex ante optimal policies.
- Abstract(参考訳): ニューコームの問題では、因果決定理論(CDT)は2ボックス化を推奨するので、明らかな決定理論(EDT)と外部の政策最適化(一ボックス化を前提とする)とは別物となる。
しかし、Newcombの問題では、予測者が実行しているシミュレーションで、100万ドルを不透明な箱に入れるかどうかを判断する可能性があると信じるべきだろう。
もしそうなら、因果決定理論は予測者が不透明なボックスを埋めるために1ボックスを推奨するかもしれない。
本稿では,本手法の一般化について考察する。
すなわち、Newcombのような一般的な問題を考慮し、CDTの推奨事項がEDTのようなエキスト・アンテ・ポリシー最適化の概念と整合する合理的な自己配置の信念を定めようとする。
我々は、世界をエージェントの動作シミュレーションとしてモデル化するアプローチと、そのようなモデルに基づいていないアプローチ(これを一般化一般化サードリング(Generalized Generalized Thirding、GGT)と呼ぶ)を考える。
それぞれのアプローチにおいて、得られたCDTポリシーを特徴付けるとともに、ある条件下では、これらが排他的最適ポリシーを含むことを証明します。
関連論文リスト
- Beyond Expected Returns: A Policy Gradient Algorithm for Cumulative Prospect Theoretic Reinforcement Learning [0.46040036610482665]
累積プロスペクト理論(CPT)は、経験的証拠によって支持された人間に基づく意思決定のためのより良いモデルを提供するために開発された。
数年前、CPTは強化学習(Reinforcement Learning, RL)と組み合わせて、CPTポリシー最適化問題を定式化した。
政策勾配アルゴリズムは, 既存のゼロ次アルゴリズムと比較して, 同じ問題を解くために, より大きな状態空間に拡張可能であることを示す。
論文 参考訳(メタデータ) (2024-10-03T15:45:39Z) - Reinforcement Learning with Quasi-Hyperbolic Discounting [2.3999111269325266]
準双曲(QH)割引は、このバイアスをモデル化するための単純な代替手段である。
我々の研究は、強化学習の実践的応用を著しく前進させる。
論文 参考訳(メタデータ) (2024-09-16T06:00:42Z) - Model-Based Epistemic Variance of Values for Risk-Aware Policy Optimization [59.758009422067]
モデルベース強化学習における累積報酬に対する不確実性を定量化する問題を考察する。
我々は、解が値の真後分散に収束する新しい不確実性ベルマン方程式(UBE)を提案する。
本稿では,リスク・サーキングとリスク・アバース・ポリシー最適化のいずれにも適用可能な汎用ポリシー最適化アルゴリズムQ-Uncertainty Soft Actor-Critic (QU-SAC)を導入する。
論文 参考訳(メタデータ) (2023-12-07T15:55:58Z) - Thompson Exploration with Best Challenger Rule in Best Arm
Identification [66.33448474838342]
本稿では,バンドイットフレームワークにおける固定信頼度最良腕識別問題について検討する。
我々は、トンプソンサンプリングと、ベストチャレンジャールールとして知られる計算効率の良いアプローチを組み合わせた新しいポリシーを提案する。
論文 参考訳(メタデータ) (2023-10-01T01:37:02Z) - CAMEO: Curiosity Augmented Metropolis for Exploratory Optimal Policies [62.39667564455059]
最適政策の分布を考察し研究する。
実験シミュレーションでは、CAMEOは古典的な制御問題を全て解決するポリシーを実際に得ることを示した。
さらに,本論文では,異なるリスクプロファイルを示す異なるポリシーを,解釈可能性に関する興味深い実践的応用に対応して提示する。
論文 参考訳(メタデータ) (2022-05-19T09:48:56Z) - Understanding the Effect of Stochasticity in Policy Optimization [86.7574122154668]
最適化手法の優位性は、正確な勾配が用いられるかどうかに大きく依存することを示す。
次に,政策最適化におけるコミット率の概念を紹介する。
第三に、外部のオラクル情報がない場合には、収束を加速するために幾何を利用することと、最適性をほぼ確実に達成することとの間に本質的にトレードオフがあることが示される。
論文 参考訳(メタデータ) (2021-10-29T06:35:44Z) - On the Optimality of Batch Policy Optimization Algorithms [106.89498352537682]
バッチポリシー最適化は、環境と対話する前に既存のデータをポリシー構築に活用することを検討する。
信頼調整インデックスアルゴリズムは楽観的,悲観的,中立的いずれであってもミニマックス最適であることを示す。
最適値予測の本来の難易度を考慮した新しい重み付き最小値基準を提案する。
論文 参考訳(メタデータ) (2021-04-06T05:23:20Z) - Variational Intrinsic Control Revisited [7.6146285961466]
Gregorらによるオリジナルの研究で、2つのVICアルゴリズムが提案された: 1つは明示的にオプションを表すもので、もう1つは暗黙的にそれを行うものである。
後者で用いられる本質的な報酬は環境に偏りがあり、最適解に収束することを示した。
本稿では,この動作を補正し,最大エンパワーメントを達成するための2つの方法を提案する。
論文 参考訳(メタデータ) (2020-10-07T09:00:48Z) - Optimistic Policy Optimization with Bandit Feedback [70.75568142146493]
我々は,事前の報奨を後悔する$tilde O(sqrtS2 A H4 K)を定め,楽観的な信頼領域ポリシー最適化(TRPO)アルゴリズムを提案する。
我々の知る限り、この2つの結果は、未知の遷移と帯域幅フィードバックを持つポリシー最適化アルゴリズムにおいて得られた最初のサブ線形後悔境界である。
論文 参考訳(メタデータ) (2020-02-19T15:41:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。