論文の概要: Completion vs Optimality: Policy Gradient in Long-Horizon Cumulative-Damage Problems
- arxiv url: http://arxiv.org/abs/2605.26657v1
- Date: Tue, 26 May 2026 07:43:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-27 17:51:41.736117
- Title: Completion vs Optimality: Policy Gradient in Long-Horizon Cumulative-Damage Problems
- Title(参考訳): 完遂対最適性:長期累積損失問題における政策グラディエント
- Authors: Wolfgang Maass, Sabine Janzen,
- Abstract要約: このクラスでは、ポリシー段階のメソッドに対して2つの障害モードを識別する。
線形ソフトペナルティを持つPPOの下では、水平アクセスのみを許すことで、完了率を低下させる。
実験可能な4つの予測を導出し、2つの個別の校正環境で評価する。
- 参考スコア(独自算出の注目度): 4.948683867793748
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Long-horizon decision problems with cumulative damage couple locally attractive actions to globally adverse outcomes. We identify two orthogonal failure modes for policy-gradient methods on this class and propose a decomposition that separates them: \emph{completion} (reaching the terminal horizon rather than exiting via an implicit terminal constraint) and \emph{optimality} (matching the dynamic-programming reference given completion). Under PPO with a linear soft penalty, granting horizon access alone reduces the completion rate: the penalty's equilibrium drives the dominant-activity share to zero, while action-space restriction combined with horizon access achieves completion but leaves an optimality gap ($ΔM_{\text{final}} = 0.271$) that we trace to first-phase greedy commitment at the damage origin. We derive four testable predictions and evaluate them in two separately calibrated environments that share the same abstract structure but differ in domain, horizon, activity set, and calibration data: a 49-step bricklayer career and a 20-season NBA power-forward career. All four predictions replicate qualitatively. The horizon-invariance prediction is met at three of four tested horizons, with the exception at $H = 15$ consistent with the $H^*$ boundary ($H^* \in [6, 14]$ under the NBA parameters).
- Abstract(参考訳): 累積的ダメージを伴う長期水平決定問題は、世界的悪影響に対して局所的に魅力的に作用する。
このクラスでは,2つの直交的障害モードを識別し,それらを分離する分解法を提案する。
線形ソフトペナルティを持つPPOの下では、地平線アクセスのみを付与すると、完遂率は減少する: ペナルティの平衡は支配的活性のシェアをゼロにし、一方、地平線アクセスと組み合わされたアクション空間制限は完了するが、損傷原点における第一相グリーディコミットメントを辿る最適性ギャップ(ΔM_{\text{final}} = 0.271$)を残している。
実験可能な4つの予測を導出し、同じ抽象構造を持つが、領域、地平線、アクティビティセット、キャリブレーションデータが異なる2つの個別のキャリブレーション環境で評価する:49ステップのブロックレイヤーキャリアと20シーズンのNBAパワーフォワードキャリアである。
4つの予測はすべて定性的に再現される。
地平線不変性予測は、4つの試験された地平線のうち3つで満たされ、例外は$H^*$境界(H^* \in [6, 14]$)と一致する$H = 15$である。
関連論文リスト
- Bandit Convex Optimization with Gradient Prediction Adaptivity [56.816177049016794]
本研究では, 楽観的な勾配予測が, 最悪の後悔の保証を予測順応的に改善できるかどうかを考察する。
鍵となるアイデアは、分散が勾配ノルムではなく予測誤差でスケールする、新しい分散還元勾配推定器である。
我々は、$(sqrtmathbbE[S_T])$としてスケールする情報理論の下限を確立し、最も達成可能な予測適応的後悔の基本的な特徴を提供する。
論文 参考訳(メタデータ) (2026-05-21T08:57:38Z) - Adaptive Calibration in Non-Stationary Environments [44.81344039432424]
複数のキャリブレーション対策の下で適応的なキャリブレーション保証を実現するアルゴリズムの組を開発する。
我々の手法は先行研究(Hu et al., 2026, Luo et al., 2025)の上に構築され、基礎となる基底真理付近でより微細な分解を割り当てる予測空間の非一様分割を導入する。
論文 参考訳(メタデータ) (2026-05-12T04:06:40Z) - Flatness and Gradient Alignment Are Both Necessary: Spectral-Aware Gradient-Aligned Exploration for Multi-Distribution Learning [7.794885131732119]
マルチディストリビューション・ラーニング・セッティングにおいて,平坦性と勾配のアライメントを考慮すべきであることを示す。
両用語を対象とするSAGE(Spectral-Aware Gradient-Aligned Exploration)を提案する。
5つの領域一般化と2つのマルチタスク学習ベンチマーク実験により,提案手法が新たな最先端技術を確立することを示す。
論文 参考訳(メタデータ) (2026-05-08T15:52:34Z) - Optimal High-Probability Regret for Online Convex Optimization with Two-Point Bandit Feedback [17.238068736229014]
本稿では,2点帯域幅フィードバックによるオンライン凸最適化の問題点について考察する。
O(d(log T + log (1/))/)$$$$$-strongly convex loss。
論文 参考訳(メタデータ) (2026-03-26T04:52:19Z) - From Continual Learning to SGD and Back: Better Rates for Continual Linear Models [50.11453013647086]
以前見られたタスクの損失を、$k$の繰り返しの後、忘れること、すなわち、分析する。
実現可能な最小二乗の設定において、新しい最上界を創出する。
我々は、タスクを繰り返しないランダム化だけで、十分に長いタスクシーケンスで破滅的な事態を防げることを初めて証明した。
論文 参考訳(メタデータ) (2025-04-06T18:39:45Z) - Clustered Switchback Designs for Experimentation Under Spatio-temporal Interference [44.644520116360106]
我々は, 平均治療効果 (GATE) を推定し, 全単位を常に治療やコントロールに曝露した平均結果の差を推定した。
そこで我々は,単位をクラスタにグループ化し,時間ステップをブロックにグループ化する,クラスタ化されたスイッチバック設計を提案する。
良好なクラスタリングを許容するグラフに対して, トラッピングされたHorvitz-Thompson推定器が$tilde O(1/NT)$平均二乗誤差(MSE)を達成することを示す。
我々の結果は、citethu2022switchback、ugander2013graph、citetleung2022rateの結果を同時に一般化する。
論文 参考訳(メタデータ) (2023-12-25T01:00:58Z) - Optimization of Time-Dependent Decoherence Rates and Coherent Control
for a Qutrit System [77.34726150561087]
非コヒーレント制御は、特定の制御方法で時間に応じてデコヒーレンス率を決定する。
我々は、システムの最終状態$rho(T)$と与えられたターゲット状態$rho_rmターゲットとの間のヒルベルト・シュミットの重なりを最大化する問題を考察する。
論文 参考訳(メタデータ) (2023-08-08T01:28:50Z) - Autoregressive Bandits [58.46584210388307]
本稿では,オンライン学習環境であるAutoregressive Banditsを提案する。
報酬プロセスの軽微な仮定の下では、最適ポリシーを便利に計算できることが示される。
次に、新しい楽観的後悔最小化アルゴリズム、すなわちAutoRegressive Upper Confidence Bound (AR-UCB)を考案し、$widetildemathcalO left( frac(k+1)3/2sqrtnT (1-G)のサブ線形後悔を被る。
論文 参考訳(メタデータ) (2022-12-12T21:37:36Z) - Provably Efficient Safe Exploration via Primal-Dual Policy Optimization [105.7510838453122]
制約付きマルコフ決定過程(CMDP)を用いた安全強化学習(SRL)問題について検討する。
本稿では,関数近似設定において,安全な探索を行うCMDPの効率の良いオンラインポリシー最適化アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-03-01T17:47:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。