論文の概要: Strategically Linked Decisions in Long-Term Planning and Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2505.16833v1
- Date: Thu, 22 May 2025 16:04:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-23 17:12:48.431437
- Title: Strategically Linked Decisions in Long-Term Planning and Reinforcement Learning
- Title(参考訳): 長期計画と強化学習における戦略的リンク決定
- Authors: Alihan Hüyük, Finale Doshi-Velez,
- Abstract要約: 長期的な計画には、個別に成果を最適化するのではなく、目標に向かって機能する戦略を見つけることが含まれる。
本稿では,計画行動間の依存関係を戦略的リンクスコアで定量化する。
本稿では,3つの実践的応用を通して,戦略的リンクスコアの有用性を実証する。
- 参考スコア(独自算出の注目度): 33.879584051748346
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Long-term planning, as in reinforcement learning (RL), involves finding strategies: actions that collectively work toward a goal rather than individually optimizing their immediate outcomes. As part of a strategy, some actions are taken at the expense of short-term benefit to enable future actions with even greater returns. These actions are only advantageous if followed up by the actions they facilitate, consequently, they would not have been taken if those follow-ups were not available. In this paper, we quantify such dependencies between planned actions with strategic link scores: the drop in the likelihood of one decision under the constraint that a follow-up decision is no longer available. We demonstrate the utility of strategic link scores through three practical applications: (i) explaining black-box RL agents by identifying strategically linked pairs among decisions they make, (ii) improving the worst-case performance of decision support systems by distinguishing whether recommended actions can be adopted as standalone improvements or whether they are strategically linked hence requiring a commitment to a broader strategy to be effective, and (iii) characterizing the planning processes of non-RL agents purely through interventions aimed at measuring strategic link scores - as an example, we consider a realistic traffic simulator and analyze through road closures the effective planning horizon of the emergent routing behavior of many drivers.
- Abstract(参考訳): 強化学習(RL)のように長期計画では、個別に即時結果を最適化するのではなく、目標に向かって集合的に機能する戦略を見つける。
戦略の一環として、いくつかの行動は短期的な利益を犠牲にして、さらに大きなリターンを持つ将来の行動を可能にする。
これらのアクションは、彼らが手助けするアクションに従えば、有利である。
本稿では,計画行動間の依存関係を戦略的リンクスコアで定量化する。これは,フォローアップ決定がもはや利用できないという制約の下での1つの決定の可能性の低下である。
3つの実践的応用を通して,戦略的リンクスコアの有用性を実証する。
一 ブラックボックスのRLエージェントについて、その決定の中で戦略的に結びついたペアを特定することにより説明すること。
2意思決定支援システムの最悪の性能改善には、推奨行動が単独で改善できるか、あるいは戦略的にリンクされているかを見極めることにより、より広範な戦略に力を注ぐ必要がある。
三 戦略的リンクスコアの測定を目的とした介入により、RL以外のエージェントの計画過程を純粋に特徴付けること。例えば、現実的な交通シミュレータを考察し、道路閉鎖を通して多くのドライバーの創発的ルーティング行動の効果的な計画的地平を解析する。
関連論文リスト
- Counterfactual Strategies for Markov Decision Processes [3.42834279186368]
マルコフ決定過程(MDP)に対する反実的戦略を導入する。
MDP実行中、戦略はどのアクションが次に実行されるかを決定する。
限界以下の確率を減少させるために、初期戦略に対する最小限の変更を識別する。
論文 参考訳(メタデータ) (2025-05-14T14:07:27Z) - EPO: Explicit Policy Optimization for Strategic Reasoning in LLMs via Reinforcement Learning [69.55982246413046]
戦略的推論のための明示的なポリシー最適化(EPO)を提案する。
EPOはオープンなアクション空間で戦略を提供し、任意のLLMエージェントにプラグインすることで、ゴール指向の振る舞いを動機付けることができる。
社会的および物理的領域にわたる実験は、EPOの長期的なゴールアライメント能力を示す。
論文 参考訳(メタデータ) (2025-02-18T03:15:55Z) - Game-Of-Goals: Using adversarial games to achieve strategic resilience [2.0902176621159128]
競合するエージェントは、最大限の逆境で行動していると仮定する。
ゲームツリー探索法を用いて最適な実行戦略を選択する。
評価関数は、実行計画を修正可能にしたいという考えに基づいています。
論文 参考訳(メタデータ) (2025-02-16T22:34:59Z) - Indefinite causal order strategy nor adaptive strategy does not improve the estimation of group action [53.64687146666141]
可能ユニタリ演算の集合がコンパクト群の射影ユニタリ表現によって与えられるとき、未知ユニタリ演算の推定を考える。
誤差関数が群共分散を満たす場合,不確定因果順序戦略や適応戦略は,この推定性能を向上しないことを示す。
論文 参考訳(メタデータ) (2025-01-16T06:00:57Z) - Future-Conditioned Recommendations with Multi-Objective Controllable Decision Transformer [12.252515483035737]
現在のレコメンデーション戦略には、2つの大きなハードルがある。
我々は、多目的制御可能なレコメンデーションのための将来条件付き戦略を導入する。
複数の目的から項目列へのマッピングを自律的に学習できるオフライン強化学習(RL)モデルであるMulti-Objective Controllable Decision Transformer (MocDT)を提案する。
論文 参考訳(メタデータ) (2025-01-13T11:12:43Z) - Ensembling Portfolio Strategies for Long-Term Investments: A Distribution-Free Preference Framework for Decision-Making and Algorithms [0.0]
本稿では、長期的富という観点から個別の戦略を上回るために、逐次的ポートフォリオのための複数の戦略をまとめることの問題点について考察する。
我々は,市場条件にかかわらず,戦略を組み合わせるための新たな意思決定枠組みを導入する。
シャープ比の小さなトレードオフがあるにもかかわらず、提案した戦略を支持する結果を示す。
論文 参考訳(メタデータ) (2024-06-05T23:08:57Z) - LLM as a Mastermind: A Survey of Strategic Reasoning with Large Language Models [75.89014602596673]
戦略推論は、戦略を調整しながら、マルチエージェント設定における敵の行動を理解し、予測する必要がある。
大規模言語モデルを用いた戦略的推論に関連するスコープ,アプリケーション,方法論,評価指標について検討する。
戦略的推論を重要な認知能力として重要視し、将来の研究の方向性や潜在的な改善に関する洞察を提供する。
論文 参考訳(メタデータ) (2024-04-01T16:50:54Z) - On strategies for risk management and decision making under uncertainty shared across multiple fields [55.2480439325792]
本稿では、このような戦略の110以上の例を見つけ、リスクに対するこのアプローチをRDOT: Risk-reducing Design and Operations Toolkitと呼ぶ。
RDOT戦略は、構造的、反応性、形式的、敵対的、多段階、ポジティブの6つの幅広いカテゴリに分類される。
全体的なRDOTは、不確実性に対する多目的応答の見過ごされたクラスを表している。
論文 参考訳(メタデータ) (2023-09-06T16:14:32Z) - Imitating Graph-Based Planning with Goal-Conditioned Policies [72.61631088613048]
本稿では,目標目標条件ポリシにサブゴール条件ポリシを蒸留する自己シミュレーション方式を提案する。
提案手法は,既存の目標条件付きRL手法のサンプル効率を大幅に向上させることができることを実証的に示す。
論文 参考訳(メタデータ) (2023-03-20T14:51:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。