論文の概要: Metareasoning in uncertain environments: a meta-BAMDP framework
- arxiv url: http://arxiv.org/abs/2408.01253v1
- Date: Fri, 2 Aug 2024 13:15:01 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-05 13:27:42.063755
- Title: Metareasoning in uncertain environments: a meta-BAMDP framework
- Title(参考訳): 不確実環境におけるメタレアソン--メタBAMDPフレームワーク
- Authors: Prakhar Godara, Tilman Diego Aléman, Angela J. Yu,
- Abstract要約: 本稿では,未知の報酬/遷移分布を持つ環境におけるメタ推論を扱うメタベイズ適応型MDPフレームワークを提案する。
最初のステップとして、人間の意思決定によく使われる2本腕のBernoulli bandit(TABB)タスクにこのフレームワークを適用します。
- 参考スコア(独自算出の注目度): 1.0923877073891441
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In decision-making scenarios, \textit{reasoning} can be viewed as an algorithm $P$ that makes a choice of an action $a^* \in \mathcal{A}$, aiming to optimize some outcome such as maximizing the value function of a Markov decision process (MDP). However, executing $P$ itself may bear some costs (time, energy, limited capacity, etc.) and needs to be considered alongside explicit utility obtained by making the choice in the underlying decision problem. Such costs need to be taken into account in order to accurately model human behavior, as well as optimizing AI planning, as all physical systems are bound to face resource constraints. Finding the right $P$ can itself be framed as an optimization problem over the space of reasoning processes $P$, generally referred to as \textit{metareasoning}. Conventionally, human metareasoning models assume that the agent knows the transition and reward distributions of the underlying MDP. This paper generalizes such models by proposing a meta Bayes-Adaptive MDP (meta-BAMDP) framework to handle metareasoning in environments with unknown reward/transition distributions, which encompasses a far larger and more realistic set of planning problems that humans and AI systems face. As a first step, we apply the framework to two-armed Bernoulli bandit (TABB) tasks, which have often been used to study human decision making. Owing to the meta problem's complexity, our solutions are necessarily approximate, but nevertheless robust within a range of assumptions that are arguably realistic for human decision-making scenarios. These results offer a normative framework for understanding human exploration under cognitive constraints. This integration of Bayesian adaptive strategies with metareasoning enriches both the theoretical landscape of decision-making research and practical applications in designing AI systems that plan under uncertainty and resource constraints.
- Abstract(参考訳): 意思決定のシナリオでは、 \textit{reasoning} は、アクション $a^* \in \mathcal{A}$ を選択するアルゴリズム $P$ と見ることができ、マルコフ決定プロセス(MDP)の値関数の最大化などの結果の最適化を目的としている。
しかしながら、$P$自体の実行にはいくつかのコスト(時間、エネルギー、限られた容量など)がかかり、根底にある決定問題における選択によって得られる明示的なユーティリティと並行して考慮する必要がある。
このようなコストは、人間の振る舞いを正確にモデル化するだけでなく、すべての物理的システムがリソースの制約に直面しているため、AI計画の最適化にも考慮する必要がある。
正しい$P$を見つけることは、推論プロセスの空間上の最適化問題として、$P$(一般には \textit{metareasoning} と呼ばれる)と表すことができる。
従来、ヒトメタレゾンモデルでは、エージェントは基礎となるMDPの遷移と報酬分布を知っていると仮定していた。
本稿では,メタベイズ適応型MDP(meta-BAMDP)フレームワークを,人間やAIシステムが直面している,はるかに大規模で現実的な計画問題を含む,未知の報酬/遷移分布を持つ環境におけるメタ推論を扱うことで,そのようなモデルを一般化する。
最初のステップとして、人間の意思決定によく使われる2本腕のBernoulli bandit(TABB)タスクにこのフレームワークを適用します。
メタ問題の複雑さのため、我々のソリューションは必ずしも近似的だが、それでも人間の意思決定シナリオにとって間違いなく現実的な仮定の範囲内で堅牢である。
これらの結果は、認知的制約の下での人間の探索を理解するための規範的な枠組みを提供する。
ベイズ適応戦略とメタ推論の統合は、意思決定研究の理論的な展望と、不確実性とリソース制約の下で計画するAIシステムを設計する実践的応用の両方を豊かにする。
関連論文リスト
- Pareto Optimal Algorithmic Recourse in Multi-cost Function [0.44938884406455726]
アルゴリズム的リコースは、個々の特徴を変更するために最小限のコストのアクションを識別することを目的としており、それによって望ましい結果が得られる。
現在のリコース機構のほとんどは、コスト関数が微分可能であると仮定する勾配に基づく手法を使用しており、現実のシナリオでは適用できないことが多い。
本研究では,非微分可能かつ離散的多コスト関数を扱うアルゴリズム的リコースフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-11T03:16:08Z) - Sample-efficient Learning of Infinite-horizon Average-reward MDPs with General Function Approximation [53.17668583030862]
一般関数近似の文脈において,無限水平平均逆マルコフ決定過程(AMDP)について検討する。
最適化最適化(LOOP)と呼ばれる新しいアルゴリズムフレームワークを提案する。
我々は LOOP がサブ線形 $tildemathcalO(mathrmpoly(d, mathrmsp(V*)) sqrtTbeta )$ regret を達成することを示す。
論文 参考訳(メタデータ) (2024-04-19T06:24:22Z) - Towards Unified Alignment Between Agents, Humans, and Environment [24.731978646069]
本稿では, エージェントと人間の意図, 環境動態, 自己制約の同時調整を提唱する$mathbfUA2$の原則を紹介する。
我々は,WebShopに現実的な機能を導入し,意図を示すユーザプロファイル,複雑な環境力学のパーソナライズされたリランク,自己制約を反映する実行コスト統計などの概念実証を行った。
論文 参考訳(メタデータ) (2024-02-12T16:14:22Z) - Bayesian Learning of Optimal Policies in Markov Decision Processes with Countably Infinite State-Space [0.0]
離散時間可算状態空間マルコフ決定過程の族を最適に制御する問題について検討する。
動的サイズのエピソードを用いたトンプソンサンプリングに基づくアルゴリズムを提案する。
提案アルゴリズムは, 近似最適制御アルゴリズムの開発に応用可能であることを示す。
論文 参考訳(メタデータ) (2023-06-05T03:57:16Z) - Efficient Policy Iteration for Robust Markov Decision Processes via
Regularization [49.05403412954533]
ロバストな意思決定プロセス(MDP)は、システムのダイナミクスが変化している、あるいは部分的にしか知られていない決定問題をモデル化するためのフレームワークを提供する。
最近の研究は、長方形長方形の$L_p$頑健なMDPと正規化されたMDPの等価性を確立し、標準MDPと同じレベルの効率を享受する規則化されたポリシー反復スキームを導出した。
本研究では、政策改善のステップに焦点をあて、欲求政策と最適なロバストなベルマン作用素のための具体的な形式を導出する。
論文 参考訳(メタデータ) (2022-05-28T04:05:20Z) - Iterative Feature Matching: Toward Provable Domain Generalization with
Logarithmic Environments [55.24895403089543]
ドメインの一般化は、限られた数のトレーニング環境からのデータで、目に見えないテスト環境でうまく機能することを目的としています。
我々は,O(logd_s)$環境のみを見た後に一般化する予測器を高確率で生成することを保証する反復的特徴マッチングに基づく新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-06-18T04:39:19Z) - Navigating to the Best Policy in Markov Decision Processes [68.8204255655161]
マルコフ決定過程における純粋探索問題について検討する。
エージェントはアクションを逐次選択し、結果のシステム軌道から可能な限り早くベストを目標とする。
論文 参考訳(メタデータ) (2021-06-05T09:16:28Z) - Minimax Optimization with Smooth Algorithmic Adversaries [59.47122537182611]
対戦相手が展開するスムーズなアルゴリズムに対して,Min-playerの新しいアルゴリズムを提案する。
本アルゴリズムは,制限周期のない単調進行を保証し,適切な勾配上昇数を求める。
論文 参考訳(メタデータ) (2021-06-02T22:03:36Z) - Provably Efficient Model-Free Algorithm for MDPs with Peak Constraints [38.2783003051101]
本稿では,有限地平線における全報酬の最大化と,各エポックにおける制約を確率1で満たすため,エージェントがポリシーを選択する,制約付きマルコフ決定プロセス(PCMDP)について考察する。
そこで本研究では,PCMDP問題を制約のない問題に変換するモデルフリーアルゴリズムを提案し,Q-ラーニングに基づくアプローチを適用した。
論文 参考訳(メタデータ) (2020-03-11T23:23:29Z) - Upper Confidence Primal-Dual Reinforcement Learning for CMDP with
Adversarial Loss [145.54544979467872]
マルコフ決定過程(CMDP)に対するオンライン学習の検討
本稿では,遷移モデルから標本化した軌跡のみを必要とする,新しいEmphupper confidence primal-dualアルゴリズムを提案する。
我々の分析では、ラグランジュ乗算過程の新たな高確率ドリフト解析を、高信頼強化学習の記念後悔解析に組み入れている。
論文 参考訳(メタデータ) (2020-03-02T05:02:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。