論文の概要: Counterfactual Strategies for Markov Decision Processes
- arxiv url: http://arxiv.org/abs/2505.09412v1
- Date: Wed, 14 May 2025 14:07:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-15 21:44:09.484952
- Title: Counterfactual Strategies for Markov Decision Processes
- Title(参考訳): マルコフ決定過程のファクトファクトストラテジー
- Authors: Paul Kobialka, Lina Gerlach, Francesco Leofante, Erika Ábrahám, Silvia Lizeth Tapia Tarifa, Einar Broch Johnsen,
- Abstract要約: マルコフ決定過程(MDP)に対する反実的戦略を導入する。
MDP実行中、戦略はどのアクションが次に実行されるかを決定する。
限界以下の確率を減少させるために、初期戦略に対する最小限の変更を識別する。
- 参考スコア(独自算出の注目度): 3.42834279186368
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Counterfactuals are widely used in AI to explain how minimal changes to a model's input can lead to a different output. However, established methods for computing counterfactuals typically focus on one-step decision-making, and are not directly applicable to sequential decision-making tasks. This paper fills this gap by introducing counterfactual strategies for Markov Decision Processes (MDPs). During MDP execution, a strategy decides which of the enabled actions (with known probabilistic effects) to execute next. Given an initial strategy that reaches an undesired outcome with a probability above some limit, we identify minimal changes to the initial strategy to reduce that probability below the limit. We encode such counterfactual strategies as solutions to non-linear optimization problems, and further extend our encoding to synthesize diverse counterfactual strategies. We evaluate our approach on four real-world datasets and demonstrate its practical viability in sophisticated sequential decision-making tasks.
- Abstract(参考訳): フェールファクトは、モデル入力に対する最小限の変更が、どのように異なる出力をもたらすかを説明するために、AIで広く使用されている。
しかしながら、反事実を計算するための確立された手法は、典型的には一段階の意思決定に焦点を合わせており、シーケンシャルな意思決定タスクには直接適用されない。
本稿では,マルコフ決定過程(MDP)の反実的戦略を導入することで,このギャップを埋める。
MDP実行中、戦略は、どの実行可能なアクション(確率的効果が既知のもの)を次に実行するかを決定する。
ある限界を超える確率で望ましくない結果に達する初期戦略を考えると、限界以下の確率を減らすために初期戦略に対する最小限の変更を特定する。
我々は、非線形最適化問題の解法として、このような反事実戦略をエンコードし、さらにそのエンコーディングを拡張し、多様な反事実戦略を合成する。
実世界の4つのデータセットに対する我々のアプローチを評価し,高精度なシーケンシャルな意思決定タスクにおける実用可能性を示す。
関連論文リスト
- EPO: Explicit Policy Optimization for Strategic Reasoning in LLMs via Reinforcement Learning [69.55982246413046]
戦略的推論のための明示的なポリシー最適化(EPO)を提案する。
EPOはオープンなアクション空間で戦略を提供し、任意のLLMエージェントにプラグインすることで、ゴール指向の振る舞いを動機付けることができる。
社会的および物理的領域にわたる実験は、EPOの長期的なゴールアライメント能力を示す。
論文 参考訳(メタデータ) (2025-02-18T03:15:55Z) - SMART: Self-learning Meta-strategy Agent for Reasoning Tasks [44.45037694899524]
SMART(Self-learning Meta-Strategy Agent for Reasoning Tasks)は、LMが様々な推論タスクの最も効果的な戦略を学習し、選択できる新しいフレームワークである。
我々は、戦略選択プロセスをマルコフ決定プロセスとしてモデル化し、強化学習による継続的自己改善を活用する。
実験の結果,SMARTは外部ガイダンスを使わずに最適な戦略を選択する能力を大幅に向上することが示された。
論文 参考訳(メタデータ) (2024-10-21T15:55:04Z) - Deep Reinforcement Learning for Online Optimal Execution Strategies [49.1574468325115]
本稿では,動的な金融市場における非マルコフ的最適実行戦略の学習に挑戦する。
我々は,Deep Deterministic Policy Gradient(DDPG)に基づく新しいアクター批判アルゴリズムを提案する。
提案アルゴリズムは最適実行戦略の近似に成功していることを示す。
論文 参考訳(メタデータ) (2024-10-17T12:38:08Z) - Beyond Average Return in Markov Decision Processes [49.157108194438635]
我々は、分散強化学習(DistRL)のより一般的なフレームワークであっても、一般化された手段のみが正確に最適化可能であることを証明した。
得られた推定器の誤差境界を提供し、このアプローチの潜在的な可能性とその限界について議論する。
論文 参考訳(メタデータ) (2023-10-31T08:36:41Z) - On strategies for risk management and decision making under uncertainty shared across multiple fields [55.2480439325792]
本稿では、このような戦略の110以上の例を見つけ、リスクに対するこのアプローチをRDOT: Risk-reducing Design and Operations Toolkitと呼ぶ。
RDOT戦略は、構造的、反応性、形式的、敵対的、多段階、ポジティブの6つの幅広いカテゴリに分類される。
全体的なRDOTは、不確実性に対する多目的応答の見過ごされたクラスを表している。
論文 参考訳(メタデータ) (2023-09-06T16:14:32Z) - Strategy Synthesis in Markov Decision Processes Under Limited Sampling
Access [3.441021278275805]
グレーボックスマルコフ決定プロセス(MDP)によってモデル化された環境において、エージェントの作用の影響は後継状態の点で知られているが、関連する合成は知られていない。
本稿では,区間型MDPを内部モデルとして用いた強化学習により,グレーボックス型MDPの戦略アルゴリズムを考案する。
論文 参考訳(メタデータ) (2023-03-22T16:58:44Z) - Modularity in Reinforcement Learning via Algorithmic Independence in
Credit Assignment [79.5678820246642]
提案手法は, 事前決定の順序に対して, スパース変化のみを必要とする伝達問題に対して, 政策段階の手法よりも, より標本効率が高いことを示す。
我々は最近提案された社会的意思決定の枠組みをマルコフ決定プロセスよりもよりきめ細かい形式主義として一般化する。
論文 参考訳(メタデータ) (2021-06-28T21:29:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。