論文の概要: IGT-OMD: Implicit Gradient Transport for Decision-Focused Learning under Delayed Feedback
- arxiv url: http://arxiv.org/abs/2605.12693v1
- Date: Tue, 12 May 2026 19:43:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-14 23:30:27.651978
- Title: IGT-OMD: Implicit Gradient Transport for Decision-Focused Learning under Delayed Feedback
- Title(参考訳): IGT-OMD:遅延フィードバックによる決定焦点学習のための暗黙のグラディエント・トランスポート
- Authors: Benjamin Amoh, Geoffrey G. Parker, Wesley Marrero,
- Abstract要約: 意思決定にフォーカスした学習トレインは、下流の意思決定損失に対してエンドツーエンドでモデルをモデル化するが、オンライン設定は遅延したフィードバックに悩まされる。
遅延下での2レベル最適化に特有の障害モードであるエンフスタレンス増幅を同定する。
ブラックボックス遅延勾配が内部解法近似誤差から既約後悔コストを生じることを証明した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Decision-focused learning trains predictive models end-to-end against downstream decision loss, but online settings suffer delayed feedback: outcomes may not arrive for many environment interactions. We identify \emph{staleness amplification}, a failure mode unique to bilevel optimization under delay, in which gradient staleness couples with inner-solver sensitivity to inflate regret beyond single-level delay theory. We prove that any black-box delayed optimizer incurs an irreducible regret cost from inner-solver approximation error, and that gradient staleness contributes a quadratically growing transport error without bilevel-aware correction. Our algorithm, \textbf{IGT-OMD}, applies Implicit Gradient Transport to hypergradients within Online Mirror Descent, re-evaluating stale gradients at the current parameters using stored inner solutions. This method reduces transport error from a quadratic to a linear dependence on delay and achieves the first sublinear regret bound for delayed bilevel optimization with queue-length-adaptive step sizes. Controlled experiments provide a \emph{mechanistic fingerprint}: transport benefit is exactly $0.0\%$ ($p=1.00$) at unit delay and grows monotonically to $9.5\%$ at fifty rounds ($p<0.001$), isolating the correction's effect. On Linear Quadratic Regulator, Warcraft shortest-path, and Sinkhorn optimal transport, IGT-OMD reduces decision loss by $17$--$55\%$ relative to single-level baselines, with phase transitions matching the theory.
- Abstract(参考訳): 意思決定に焦点を当てた学習トレインは、下流の意思決定損失に対してエンドツーエンドで予測するが、オンライン設定は遅延したフィードバックに悩まされる。
遅延下での2レベル最適化に特有の障害モードである 'emph{staleness amplification} を同定する。
我々は,ブラックボックス遅延オプティマイザが内部解法近似誤差から既約後悔コストを発生させることを証明し,勾配安定度がバイレベル認識補正なしで2次的に増加する輸送誤差に寄与することを証明した。
提案アルゴリズムはインプリシット・グラディエント・トランスポートをオンラインミラー・ディクエンス内の過度勾配に適用し, 現在のパラメータにおける定常勾配を再評価する。
本手法は,2次数から1次数への遅延依存性を低減し,待ち行列長適応ステップサイズで遅延二段階最適化を行うための第1次サブ線形リフレッシュバウンドを実現する。
輸送効果は正確に0.0 %$(p=1.00$)で単調に成長し、50ラウンドで9.5 %$(p<0.001$)に成長し、補正の効果を分離する。
リニア・クアドラティック・レギュレータ、ウォークラフト・ショート・パス、シンクホーンの最適輸送では、IGT-OMDは決定損失を1つのレベル基底線に対して17$--55\%で削減し、位相遷移は理論と一致する。
関連論文リスト
- Decision-Focused Learning via Tangent-Space Projection of Prediction Error [32.655683009031804]
決定焦点学習(DFL)は、下流の意思決定品質を改善するために予測器を訓練する。
局所的に安定な活性制約を持つ標準正則性の下では、後悔勾配は閉形式幾何学的特徴を持つことを示す。
そこで本研究では, 線形系を減らし, 残差勾配を計算するPEARを提案する。
論文 参考訳(メタデータ) (2026-05-02T10:10:16Z) - Minimizing Surrogate Losses for Decision-Focused Learning using Differentiable Optimization [7.597423277859608]
決定中心学習(DFL)は、最適化問題のパラメータを予測するために機械学習(ML)モデルを訓練する。
勾配に基づくDFLは、予測されたパラメータに対する最適化問題に対する解の微分を計算する必要がある。
線形プログラム(LP)のような多くの最適化問題に対して、予測されたパラメータに対する後悔の勾配はほぼどこでもゼロである。
論文 参考訳(メタデータ) (2025-08-15T09:59:56Z) - Stochastic Approximation with Delayed Updates: Finite-Time Rates under Markovian Sampling [73.5602474095954]
マルコフサンプリングの遅延更新による近似スキームの非漸近的性能について検討した。
我々の理論的な発見は、幅広いアルゴリズムの遅延の有限時間効果に光を当てた。
論文 参考訳(メタデータ) (2024-02-19T03:08:02Z) - Non-stationary Delayed Online Convex Optimization: From Full-information to Bandit Setting [71.82716109461967]
遅延勾配が利用できる全情報ケースに対して Mild-OGD というアルゴリズムを提案する。
ミルド-OGDのダイナミックな後悔は、順番の仮定の下で$O(sqrtbardT(P_T+1))$で自動的に束縛されることを示す。
Mild-OGDのバンディット版も開発し,損失値の遅れのみを考慮に入れた,より困難なケースについて検討した。
論文 参考訳(メタデータ) (2023-05-20T07:54:07Z) - Adaptivity and Non-stationarity: Problem-dependent Dynamic Regret for Online Convex Optimization [70.4342220499858]
本稿では,スムーズさを生かし,問題依存量による動的後悔のT$への依存を補う新しいオンラインアルゴリズムを提案する。
この結果が本質的な難易度に適応しているのは, 既往の結果よりも厳密であり, 最悪の場合, 同一レートの保護が可能であるからである。
論文 参考訳(メタデータ) (2021-12-29T02:42:59Z) - Online Strongly Convex Optimization with Unknown Delays [30.931538196386672]
オンライン凸最適化の問題点を未知の遅延で検討する。
まず、OGDの遅延変形を強凸関数に拡張する。
我々は、$d$が最大遅延である$O(dlog T)$のより良い後悔の境界を確立します。
論文 参考訳(メタデータ) (2021-03-21T10:16:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。