Fugu-MT 論文翻訳(概要): Counterfactual Strategies for Markov Decision Processes

論文の概要: Counterfactual Strategies for Markov Decision Processes

arxiv url: http://arxiv.org/abs/2505.09412v1
Date: Wed, 14 May 2025 14:07:27 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-15 21:44:09.484952
Title: Counterfactual Strategies for Markov Decision Processes
Title（参考訳）: マルコフ決定過程のファクトファクトストラテジー
Authors: Paul Kobialka, Lina Gerlach, Francesco Leofante, Erika Ábrahám, Silvia Lizeth Tapia Tarifa, Einar Broch Johnsen,
Abstract要約: マルコフ決定過程(MDP)に対する反実的戦略を導入する。 MDP実行中、戦略はどのアクションが次に実行されるかを決定する。限界以下の確率を減少させるために、初期戦略に対する最小限の変更を識別する。
参考スコア（独自算出の注目度）: 3.42834279186368
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Counterfactuals are widely used in AI to explain how minimal changes to a model's input can lead to a different output. However, established methods for computing counterfactuals typically focus on one-step decision-making, and are not directly applicable to sequential decision-making tasks. This paper fills this gap by introducing counterfactual strategies for Markov Decision Processes (MDPs). During MDP execution, a strategy decides which of the enabled actions (with known probabilistic effects) to execute next. Given an initial strategy that reaches an undesired outcome with a probability above some limit, we identify minimal changes to the initial strategy to reduce that probability below the limit. We encode such counterfactual strategies as solutions to non-linear optimization problems, and further extend our encoding to synthesize diverse counterfactual strategies. We evaluate our approach on four real-world datasets and demonstrate its practical viability in sophisticated sequential decision-making tasks.
Abstract（参考訳）: フェールファクトは、モデル入力に対する最小限の変更が、どのように異なる出力をもたらすかを説明するために、AIで広く使用されている。しかしながら、反事実を計算するための確立された手法は、典型的には一段階の意思決定に焦点を合わせており、シーケンシャルな意思決定タスクには直接適用されない。本稿では,マルコフ決定過程(MDP)の反実的戦略を導入することで,このギャップを埋める。 MDP実行中、戦略は、どの実行可能なアクション(確率的効果が既知のもの)を次に実行するかを決定する。ある限界を超える確率で望ましくない結果に達する初期戦略を考えると、限界以下の確率を減らすために初期戦略に対する最小限の変更を特定する。我々は、非線形最適化問題の解法として、このような反事実戦略をエンコードし、さらにそのエンコーディングを拡張し、多様な反事実戦略を合成する。実世界の4つのデータセットに対する我々のアプローチを評価し,高精度なシーケンシャルな意思決定タスクにおける実用可能性を示す。

関連論文リスト

Strategy Executability in Mathematical Reasoning: Leveraging Human-Model Differences for Effective Guidance [86.46794021499511]
戦略利用と戦略実行可能性の間には、これまで未定のギャップがある。 SSR(Selective Strategy Retrieval)は,実行可能性を明確にモデル化するテストタイムフレームワークである。 SSRは、直接解決、文脈内学習、単一ソースガイダンスよりも信頼性が高く一貫した改善をもたらす。
論文参考訳（メタデータ） (2026-02-26T03:34:23Z)
Plan before Solving: Problem-Aware Strategy Routing for Mathematical Reasoning with LLMs [49.995906301946]
既存の手法は通常、数学的推論を行うためにLLM(Large Language Models)をガイドするための固定戦略を利用する。分析の結果,単一戦略は問題固有の要件に適応できず,有効性と効率性のトレードオフを見落としていることが明らかとなった。本稿では,PRISM(Planning and Routing through Instance-Specific Modeling)を提案する。
論文参考訳（メタデータ） (2025-09-29T07:22:41Z)
PATS: Process-Level Adaptive Thinking Mode Switching [53.53401063490537]
現在の大言語モデル(LLM)は、通常、難易度に関わらず、すべての質問に対して、単純または複雑に固定された推論戦略を採用する。このようなタスクと推論プロセスの複雑さの変化の無視は、パフォーマンスと効率のバランスを損なう。既存の手法では, 難易度が異なる問題に対処するために, 学習不要な高速スロー思考システムを導入しようとするが, 厳密な解レベルの戦略調整によって制限される。プロセスレベル適応思考モードスイッチング(PATS)という新しい推論パラダイムを提案し,各ステップの難易度に基づいてLLMが推論戦略を動的に調整し,そのバランスを最適化する。
論文参考訳（メタデータ） (2025-05-25T17:58:50Z)
EPO: Explicit Policy Optimization for Strategic Reasoning in LLMs via Reinforcement Learning [69.55982246413046]
戦略的推論のための明示的なポリシー最適化(EPO)を提案する。 EPOはオープンなアクション空間で戦略を提供し、任意のLLMエージェントにプラグインすることで、ゴール指向の振る舞いを動機付けることができる。社会的および物理的領域にわたる実験は、EPOの長期的なゴールアライメント能力を示す。
論文参考訳（メタデータ） (2025-02-18T03:15:55Z)
SMART: Self-learning Meta-strategy Agent for Reasoning Tasks [44.45037694899524]
SMART(Self-learning Meta-Strategy Agent for Reasoning Tasks)は、LMが様々な推論タスクの最も効果的な戦略を学習し、選択できる新しいフレームワークである。我々は、戦略選択プロセスをマルコフ決定プロセスとしてモデル化し、強化学習による継続的自己改善を活用する。実験の結果,SMARTは外部ガイダンスを使わずに最適な戦略を選択する能力を大幅に向上することが示された。
論文参考訳（メタデータ） (2024-10-21T15:55:04Z)
Deep Reinforcement Learning for Online Optimal Execution Strategies [49.1574468325115]
本稿では,動的な金融市場における非マルコフ的最適実行戦略の学習に挑戦する。我々は,Deep Deterministic Policy Gradient(DDPG)に基づく新しいアクター批判アルゴリズムを提案する。提案アルゴリズムは最適実行戦略の近似に成功していることを示す。
論文参考訳（メタデータ） (2024-10-17T12:38:08Z)
Beyond Average Return in Markov Decision Processes [49.157108194438635]
我々は、分散強化学習(DistRL)のより一般的なフレームワークであっても、一般化された手段のみが正確に最適化可能であることを証明した。得られた推定器の誤差境界を提供し、このアプローチの潜在的な可能性とその限界について議論する。
論文参考訳（メタデータ） (2023-10-31T08:36:41Z)
On strategies for risk management and decision making under uncertainty shared across multiple fields [55.2480439325792]
本稿では、このような戦略の110以上の例を見つけ、リスクに対するこのアプローチをRDOT: Risk-reducing Design and Operations Toolkitと呼ぶ。 RDOT戦略は、構造的、反応性、形式的、敵対的、多段階、ポジティブの6つの幅広いカテゴリに分類される。全体的なRDOTは、不確実性に対する多目的応答の見過ごされたクラスを表している。
論文参考訳（メタデータ） (2023-09-06T16:14:32Z)
Strategy Synthesis in Markov Decision Processes Under Limited Sampling Access [3.441021278275805]
グレーボックスマルコフ決定プロセス(MDP)によってモデル化された環境において、エージェントの作用の影響は後継状態の点で知られているが、関連する合成は知られていない。本稿では,区間型MDPを内部モデルとして用いた強化学習により,グレーボックス型MDPの戦略アルゴリズムを考案する。
論文参考訳（メタデータ） (2023-03-22T16:58:44Z)
Reinforcement Learning Methods for Wordle: A POMDP/Adaptive Control Approach [0.3093890460224435]
我々は、新しい強化学習手法を用いて、人気のあるWordleパズルの解法に対処する。 Wordleパズルでは、比較的控えめな計算コストで最適に近いオンラインソリューション戦略が得られる。
論文参考訳（メタデータ） (2022-11-15T03:46:41Z)
Modularity in Reinforcement Learning via Algorithmic Independence in Credit Assignment [79.5678820246642]
提案手法は, 事前決定の順序に対して, スパース変化のみを必要とする伝達問題に対して, 政策段階の手法よりも, より標本効率が高いことを示す。我々は最近提案された社会的意思決定の枠組みをマルコフ決定プロセスよりもよりきめ細かい形式主義として一般化する。
論文参考訳（メタデータ） (2021-06-28T21:29:13Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。