論文の概要: Metareasoning in uncertain environments: a meta-BAMDP framework
- arxiv url: http://arxiv.org/abs/2408.01253v2
- Date: Mon, 03 Feb 2025 15:11:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-04 19:55:33.860518
- Title: Metareasoning in uncertain environments: a meta-BAMDP framework
- Title(参考訳): 不確実環境におけるメタレアソン--メタBAMDPフレームワーク
- Authors: Prakhar Godara, Tilman Diego Aléman, Angela J. Yu,
- Abstract要約: 正しい$P$を見つけることは、推論プロセスの空間上の最適化問題として表すことができる。
本稿では,未知の報酬/遷移分布を持つ環境におけるメタ推論を扱うメタベイズ適応型MDPフレームワークを提案する。
- 参考スコア(独自算出の注目度): 1.0923877073891441
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: \textit{Reasoning} may be viewed as an algorithm $P$ that makes a choice of an action $a^* \in \mathcal{A}$, aiming to optimize some outcome. However, executing $P$ itself bears costs (time, energy, limited capacity, etc.) and needs to be considered alongside explicit utility obtained by making the choice in the underlying decision problem. Finding the right $P$ can itself be framed as an optimization problem over the space of reasoning processes $P$, generally referred to as \textit{metareasoning}. Conventionally, human metareasoning models assume that the agent knows the transition and reward distributions of the underlying MDP. This paper generalizes such models by proposing a meta Bayes-Adaptive MDP (meta-BAMDP) framework to handle metareasoning in environments with unknown reward/transition distributions, which encompasses a far larger and more realistic set of planning problems that humans and AI systems face. As a first step, we apply the framework to Bernoulli bandit tasks. Owing to the meta problem's complexity, our solutions are necessarily approximate. However, we introduce two novel theorems that significantly enhance the tractability of the problem, enabling stronger approximations that are robust within a range of assumptions grounded in realistic human decision-making scenarios. These results offer a resource-rational perspective and a normative framework for understanding human exploration under cognitive constraints, as well as providing experimentally testable predictions about human behavior in Bernoulli Bandit tasks.
- Abstract(参考訳): これはアクション $a^* \in \mathcal{A}$ を選択し、結果の最適化を目的としている。
しかしながら、$P$自体の実行にはコスト(時間、エネルギー、限られた容量など)が伴い、根底にある決定問題における選択によって得られる明示的なユーティリティと並行して考慮する必要がある。
正しい$P$を見つけることは、推論プロセスの空間上の最適化問題として、$P$(一般には \textit{metareasoning} と呼ばれる)と表すことができる。
従来、ヒトメタレゾンモデルでは、エージェントは基礎となるMDPの遷移と報酬分布を知っていると仮定していた。
本稿では,メタベイズ適応型MDP(meta-BAMDP)フレームワークを,人間やAIシステムが直面している,はるかに大規模で現実的な計画問題を含む,未知の報酬/遷移分布を持つ環境におけるメタ推論を扱うことで,そのようなモデルを一般化する。
最初のステップとして、このフレームワークをBernoulli banditタスクに適用する。
メタ問題の複雑さのため、我々の解は必然的に近似している。
しかし,この問題のトラクタビリティを著しく向上させる2つの新しい定理を導入し,現実的な人間の意思決定シナリオに根ざした仮定の範囲内で頑健な近似を可能にする。
これらの結果は、認知的制約の下での人間の探索を理解するためのリソース・合理的な視点と規範的な枠組みを提供し、ベルヌーイ・バンディットのタスクにおける人間の行動に関する実験的に検証可能な予測を提供する。
関連論文リスト
- Pareto Optimal Algorithmic Recourse in Multi-cost Function [0.44938884406455726]
アルゴリズム的リコースは、個々の特徴を変更するために最小限のコストのアクションを識別することを目的としており、それによって望ましい結果が得られる。
現在のリコース機構のほとんどは、コスト関数が微分可能であると仮定する勾配に基づく手法を使用しており、現実のシナリオでは適用できないことが多い。
本研究では,非微分可能かつ離散的多コスト関数を扱うアルゴリズム的リコースフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-11T03:16:08Z) - Towards Cost Sensitive Decision Making [14.279123976398926]
本研究では,環境から機能を積極的に獲得し,意思決定の質と確実性を向上するRLモデルを考察する。
本稿では,Active-Acquisition POMDPを提案する。
積極的に獲得された部分観測環境においてエージェントを支援するとともに,探索・探索ジレンマを軽減するため,モデルベースアプローチを開発した。
論文 参考訳(メタデータ) (2024-10-04T19:48:23Z) - Tackling Decision Processes with Non-Cumulative Objectives using Reinforcement Learning [0.0]
我々は,非累積マルコフ決定過程を標準MDPに一般化したマッピングを導入する。
これにより、MDPがより大規模なNCMDPに直接適用されるための最適なポリシーを見つけるために開発されたすべての技術が利用可能となる。
我々は、古典的な制御、金融におけるポートフォリオ最適化、離散最適化問題など、様々なタスクのアプリケーションを示す。
論文 参考訳(メタデータ) (2024-05-22T13:01:37Z) - Sample-efficient Learning of Infinite-horizon Average-reward MDPs with General Function Approximation [53.17668583030862]
一般関数近似の文脈において,無限水平平均逆マルコフ決定過程(AMDP)について検討する。
最適化最適化(LOOP)と呼ばれる新しいアルゴリズムフレームワークを提案する。
我々は LOOP がサブ線形 $tildemathcalO(mathrmpoly(d, mathrmsp(V*)) sqrtTbeta )$ regret を達成することを示す。
論文 参考訳(メタデータ) (2024-04-19T06:24:22Z) - Data-Driven Goal Recognition Design for General Behavioral Agents [14.750023724230774]
汎用行動モデルを持つエージェントを考慮に入れた,目標認識設計のためのデータ駆動型アプローチを提案する。
本稿では,様々な制約を満たす勾配に基づく最適化フレームワークを提案し,意思決定環境を最適化する。
論文 参考訳(メタデータ) (2024-04-03T20:38:22Z) - Towards Unified Alignment Between Agents, Humans, and Environment [24.731978646069]
本稿では, エージェントと人間の意図, 環境動態, 自己制約の同時調整を提唱する$mathbfUA2$の原則を紹介する。
我々は,WebShopに現実的な機能を導入し,意図を示すユーザプロファイル,複雑な環境力学のパーソナライズされたリランク,自己制約を反映する実行コスト統計などの概念実証を行った。
論文 参考訳(メタデータ) (2024-02-12T16:14:22Z) - Bayesian Learning of Optimal Policies in Markov Decision Processes with Countably Infinite State-Space [0.0]
離散時間可算状態空間マルコフ決定過程の族を最適に制御する問題について検討する。
動的サイズのエピソードを用いたトンプソンサンプリングに基づくアルゴリズムを提案する。
提案アルゴリズムは, 近似最適制御アルゴリズムの開発に応用可能であることを示す。
論文 参考訳(メタデータ) (2023-06-05T03:57:16Z) - Efficient Policy Iteration for Robust Markov Decision Processes via
Regularization [49.05403412954533]
ロバストな意思決定プロセス(MDP)は、システムのダイナミクスが変化している、あるいは部分的にしか知られていない決定問題をモデル化するためのフレームワークを提供する。
最近の研究は、長方形長方形の$L_p$頑健なMDPと正規化されたMDPの等価性を確立し、標準MDPと同じレベルの効率を享受する規則化されたポリシー反復スキームを導出した。
本研究では、政策改善のステップに焦点をあて、欲求政策と最適なロバストなベルマン作用素のための具体的な形式を導出する。
論文 参考訳(メタデータ) (2022-05-28T04:05:20Z) - Risk-Averse Decision Making Under Uncertainty [18.467950783426947]
不確実性条件下での意思決定は、マルコフ決定プロセス(MDP)または部分的に観測可能なMDP(POMDP)を介して記述することができる。
本稿では、動的コヒーレントリスク対策の観点から、MDPとPMDPのポリシーを目的と制約で設計する問題について考察する。
論文 参考訳(メタデータ) (2021-09-09T07:52:35Z) - Iterative Feature Matching: Toward Provable Domain Generalization with
Logarithmic Environments [55.24895403089543]
ドメインの一般化は、限られた数のトレーニング環境からのデータで、目に見えないテスト環境でうまく機能することを目的としています。
我々は,O(logd_s)$環境のみを見た後に一般化する予測器を高確率で生成することを保証する反復的特徴マッチングに基づく新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-06-18T04:39:19Z) - Learning MDPs from Features: Predict-Then-Optimize for Sequential
Decision Problems by Reinforcement Learning [52.74071439183113]
我々は、強化学習を通して解決された逐次決定問題(MDP)の文脈における予測列最適化フレームワークについて検討した。
2つの重要な計算課題は、意思決定中心の学習をMDPに適用することである。
論文 参考訳(メタデータ) (2021-06-06T23:53:31Z) - Navigating to the Best Policy in Markov Decision Processes [68.8204255655161]
マルコフ決定過程における純粋探索問題について検討する。
エージェントはアクションを逐次選択し、結果のシステム軌道から可能な限り早くベストを目標とする。
論文 参考訳(メタデータ) (2021-06-05T09:16:28Z) - Minimax Optimization with Smooth Algorithmic Adversaries [59.47122537182611]
対戦相手が展開するスムーズなアルゴリズムに対して,Min-playerの新しいアルゴリズムを提案する。
本アルゴリズムは,制限周期のない単調進行を保証し,適切な勾配上昇数を求める。
論文 参考訳(メタデータ) (2021-06-02T22:03:36Z) - On Exploiting Hitting Sets for Model Reconciliation [53.81101846598925]
ヒューマン・アウェア・プランニングにおいて、プランニング・エージェントは、その計画がなぜ最適なのかを人間に説明する必要があるかもしれない。
この手法はモデル和解と呼ばれ、エージェントはモデルと人間のモデルの違いを調和させようとする。
我々は,計画の領域を超えて拡張されたモデル和解のための論理ベースのフレームワークを提案する。
論文 参考訳(メタデータ) (2020-12-16T21:25:53Z) - Stein Variational Model Predictive Control [130.60527864489168]
不確実性の下での意思決定は、現実の自律システムにとって極めて重要である。
モデル予測制御 (MPC) 法は, 複雑な分布を扱う場合, 適用範囲が限られている。
この枠組みが、挑戦的で非最適な制御問題における計画の成功に繋がることを示す。
論文 参考訳(メタデータ) (2020-11-15T22:36:59Z) - Exploiting Submodular Value Functions For Scaling Up Active Perception [60.81276437097671]
アクティブな知覚タスクでは、エージェントは1つ以上の隠れ変数の不確実性を減少させる感覚行動を選択することを目的としている。
部分的に観測可能なマルコフ決定過程(POMDP)は、そのような問題に対する自然なモデルを提供する。
エージェントが利用できるセンサーの数が増えるにつれて、POMDP計画の計算コストは指数関数的に増加する。
論文 参考訳(メタデータ) (2020-09-21T09:11:36Z) - Provably Efficient Model-Free Algorithm for MDPs with Peak Constraints [38.2783003051101]
本稿では,有限地平線における全報酬の最大化と,各エポックにおける制約を確率1で満たすため,エージェントがポリシーを選択する,制約付きマルコフ決定プロセス(PCMDP)について考察する。
そこで本研究では,PCMDP問題を制約のない問題に変換するモデルフリーアルゴリズムを提案し,Q-ラーニングに基づくアプローチを適用した。
論文 参考訳(メタデータ) (2020-03-11T23:23:29Z) - Upper Confidence Primal-Dual Reinforcement Learning for CMDP with
Adversarial Loss [145.54544979467872]
マルコフ決定過程(CMDP)に対するオンライン学習の検討
本稿では,遷移モデルから標本化した軌跡のみを必要とする,新しいEmphupper confidence primal-dualアルゴリズムを提案する。
我々の分析では、ラグランジュ乗算過程の新たな高確率ドリフト解析を、高信頼強化学習の記念後悔解析に組み入れている。
論文 参考訳(メタデータ) (2020-03-02T05:02:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。