論文の概要: Strategically Linked Decisions in Long-Term Planning and Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2505.16833v1
- Date: Thu, 22 May 2025 16:04:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-23 17:12:48.431437
- Title: Strategically Linked Decisions in Long-Term Planning and Reinforcement Learning
- Title(参考訳): 長期計画と強化学習における戦略的リンク決定
- Authors: Alihan Hüyük, Finale Doshi-Velez,
- Abstract要約: 長期的な計画には、個別に成果を最適化するのではなく、目標に向かって機能する戦略を見つけることが含まれる。
本稿では,計画行動間の依存関係を戦略的リンクスコアで定量化する。
本稿では,3つの実践的応用を通して,戦略的リンクスコアの有用性を実証する。
- 参考スコア(独自算出の注目度): 33.879584051748346
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Long-term planning, as in reinforcement learning (RL), involves finding strategies: actions that collectively work toward a goal rather than individually optimizing their immediate outcomes. As part of a strategy, some actions are taken at the expense of short-term benefit to enable future actions with even greater returns. These actions are only advantageous if followed up by the actions they facilitate, consequently, they would not have been taken if those follow-ups were not available. In this paper, we quantify such dependencies between planned actions with strategic link scores: the drop in the likelihood of one decision under the constraint that a follow-up decision is no longer available. We demonstrate the utility of strategic link scores through three practical applications: (i) explaining black-box RL agents by identifying strategically linked pairs among decisions they make, (ii) improving the worst-case performance of decision support systems by distinguishing whether recommended actions can be adopted as standalone improvements or whether they are strategically linked hence requiring a commitment to a broader strategy to be effective, and (iii) characterizing the planning processes of non-RL agents purely through interventions aimed at measuring strategic link scores - as an example, we consider a realistic traffic simulator and analyze through road closures the effective planning horizon of the emergent routing behavior of many drivers.
- Abstract(参考訳): 強化学習(RL)のように長期計画では、個別に即時結果を最適化するのではなく、目標に向かって集合的に機能する戦略を見つける。
戦略の一環として、いくつかの行動は短期的な利益を犠牲にして、さらに大きなリターンを持つ将来の行動を可能にする。
これらのアクションは、彼らが手助けするアクションに従えば、有利である。
本稿では,計画行動間の依存関係を戦略的リンクスコアで定量化する。これは,フォローアップ決定がもはや利用できないという制約の下での1つの決定の可能性の低下である。
3つの実践的応用を通して,戦略的リンクスコアの有用性を実証する。
一 ブラックボックスのRLエージェントについて、その決定の中で戦略的に結びついたペアを特定することにより説明すること。
2意思決定支援システムの最悪の性能改善には、推奨行動が単独で改善できるか、あるいは戦略的にリンクされているかを見極めることにより、より広範な戦略に力を注ぐ必要がある。
三 戦略的リンクスコアの測定を目的とした介入により、RL以外のエージェントの計画過程を純粋に特徴付けること。例えば、現実的な交通シミュレータを考察し、道路閉鎖を通して多くのドライバーの創発的ルーティング行動の効果的な計画的地平を解析する。
関連論文リスト
- EPO: Explicit Policy Optimization for Strategic Reasoning in LLMs via Reinforcement Learning [69.55982246413046]
戦略的推論のための明示的なポリシー最適化(EPO)を提案する。
EPOはオープンなアクション空間で戦略を提供し、任意のLLMエージェントにプラグインすることで、ゴール指向の振る舞いを動機付けることができる。
社会的および物理的領域にわたる実験は、EPOの長期的なゴールアライメント能力を示す。
論文 参考訳(メタデータ) (2025-02-18T03:15:55Z) - Indefinite causal order strategy nor adaptive strategy does not improve the estimation of group action [53.64687146666141]
可能ユニタリ演算の集合がコンパクト群の射影ユニタリ表現によって与えられるとき、未知ユニタリ演算の推定を考える。
誤差関数が群共分散を満たす場合,不確定因果順序戦略や適応戦略は,この推定性能を向上しないことを示す。
論文 参考訳(メタデータ) (2025-01-16T06:00:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。