論文の概要: Decision-Focused On-Policy Learning for Contextual Linear Optimization with Partial Feedback
- arxiv url: http://arxiv.org/abs/2606.01081v1
- Date: Sun, 31 May 2026 07:58:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-02 21:34:29.196086
- Title: Decision-Focused On-Policy Learning for Contextual Linear Optimization with Partial Feedback
- Title(参考訳): 部分フィードバックを用いた文脈線形最適化のための意思決定型オンライン学習
- Authors: Wyame Benslimane, Tinghan Ye, Pascal Van Hentenryck, Paul Grigas,
- Abstract要約: 決定中心学習(DFL)は、スタンドアロンの予測精度よりも下流の意思決定品質を最適化することで予測モデルを訓練する。
文脈線形最適化では、既存のDFL法は対象ベクトルの完全な観測をオフラインで行う。
条件分布モデルを更新するための2成分ハイブリッド推定器を提案する。
- 参考スコア(独自算出の注目度): 14.912614425471915
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Decision-focused learning (DFL) trains predictive models by optimizing downstream decision quality rather than standalone prediction accuracy. For contextual linear optimization, most existing DFL methods assume offline data and full observations of the objective cost vector. We develop an on-policy learning method for sequential contextual linear optimization under partial feedback, generalizing the standard bandit feedback setting. Our method learns a stochastic predict-then-optimize policy that samples a cost-vector prediction from a conditional distribution and solves the resulting downstream linear optimization problem. To update this distributional model, we introduce a two-component hybrid gradient estimator. The first component is a score function estimator, which provides an unbiased but potentially high-variance policy gradient estimate. The second is a decision-focused plug-in component that uses an auxiliary nuisance estimate of the latent cost vector to exploit the downstream optimization structure, becoming more informative as the estimate improves. We prove an $\mathcal{O}(T^{-1/2})$ bound on the average squared policy-gradient norm, matching the standard non-convex SGD rate. Experiments on top-$k$ selection, shortest path, combinatorial pricing, and a real-data energy-scheduling benchmark show that the hybrid gradient approach achieves lower cumulative regret than contextual-bandit-style baselines across all benchmarks, using both Gaussian and richer conditional generative models. Code is available at https://github.com/Joeyetinghan/on-policy-bandit-dfl.
- Abstract(参考訳): 決定中心学習(DFL)は、スタンドアロンの予測精度よりも下流の意思決定品質を最適化することで予測モデルを訓練する。
文脈線形最適化では、既存のDFL法の多くは、オフラインデータと目的コストベクトルの完全な観測を前提としている。
そこで我々は,部分フィードバックに基づく逐次文脈線形最適化のためのオンライン学習手法を開発し,標準帯域フィードバック設定を一般化する。
提案手法は,条件分布からコストベクトル予測をサンプリングし,結果の下流線形最適化問題を解く確率的予測列最適化ポリシーを学習する。
この分布モデルを更新するために,2成分ハイブリッド勾配推定器を導入する。
第1の構成要素はスコア関数推定器であり、偏りがなく、潜在的に高分散政策勾配推定を提供する。
2つ目は、遅延コストベクトルの補助ニュアンス推定を用いて下流の最適化構造を利用する決定中心のプラグインコンポーネントであり、見積もりが改善するにつれてより情報的になる。
平均二乗ポリシー次数ノルム上で$\mathcal{O}(T^{-1/2})$バウンドを証明し、標準の非凸SGDレートと一致する。
最上位の$選択、最短経路、組合せ価格、および実データエネルギースケジューリングベンチマークの実験により、ハイブリッド勾配アプローチは、ガウス的およびよりリッチな条件生成モデルを用いて、すべてのベンチマークにおける文脈帯域スタイルのベースラインよりも低い累積後悔を達成することが示された。
コードはhttps://github.com/Joeyetinghan/on-policy-bandit-dfl.comで公開されている。
関連論文リスト
- Bandit Convex Optimization with Gradient Prediction Adaptivity [56.816177049016794]
本研究では, 楽観的な勾配予測が, 最悪の後悔の保証を予測順応的に改善できるかどうかを考察する。
鍵となるアイデアは、分散が勾配ノルムではなく予測誤差でスケールする、新しい分散還元勾配推定器である。
我々は、$(sqrtmathbbE[S_T])$としてスケールする情報理論の下限を確立し、最も達成可能な予測適応的後悔の基本的な特徴を提供する。
論文 参考訳(メタデータ) (2026-05-21T08:57:38Z) - Contextual Preference Distribution Learning [5.872632454395936]
本稿では、優先分布を学習し、下流の問題を解決するためにそれらを活用するための逐次学習最適化パイプラインを提案する。
我々は、(整数)線形プログラムとして定式化できる人間の選択設定に焦点を当てる。
論文 参考訳(メタデータ) (2026-03-17T21:11:21Z) - Zero-Order Optimization for LLM Fine-Tuning via Learnable Direction Sampling [40.94400211806987]
摂動方向のサンプリング分布を学習可能なポリシとして扱う政策駆動型ZOフレームワークを提案する。
学習したサンプリングは、品質勾配情報を改善し、$d$の収束境界への明示的な依存を緩和することを示す。
以上の結果から,適応方向サンプリングはZOの微調整を大規模に実現する上で有望な方法であることが示唆された。
論文 参考訳(メタデータ) (2026-02-14T08:01:41Z) - From Noisy Traces to Stable Gradients: Bias-Variance Optimized Preference Optimization for Aligning Large Reasoning Models [90.45197506653341]
大規模推論モデルは最終回答を生成する前に中間的推論トレースを生成する。
LRMと人間の好みの整合性は、モデルデプロイメントにとって重要な前提条件であり、まだ過小評価されていない。
共通の回避策は1つのサンプル軌道を最適化し、トレースサンプリングからかなり勾配のばらつきをもたらす。
論文 参考訳(メタデータ) (2025-10-06T17:58:01Z) - Calibrated Multi-Preference Optimization for Aligning Diffusion Models [90.15024547673785]
Calibrated Preference Optimization (CaPO) は、テキスト・ツー・イメージ(T2I)拡散モデルを調整する新しい手法である。
CaPOは、人間の注釈のない複数の報酬モデルからの一般的な好みを取り入れている。
実験結果から, CaPOは従来法よりも常に優れていたことが示唆された。
論文 参考訳(メタデータ) (2025-02-04T18:59:23Z) - Contextual Linear Optimization with Partial Feedback [35.38485630117593]
本研究では,異なるタイプのフィードバックを持つ文脈線形最適化(CLO)のためのオフライン学習アルゴリズムのクラスを提案する。
我々は,IERMに対して,不特定モデルクラスとフレキシブルな推定方法の選択を可能にする,新しい高速遅延境界を提供する。
論文 参考訳(メタデータ) (2024-05-26T13:27:27Z) - DF2: Distribution-Free Decision-Focused Learning [30.288876294435294]
決定中心学習(DFL)は,予測列最適化問題に対する強力なアプローチとして登場した。
DFLはモデル誤差、サンプル平均近似誤差、近似誤差の3つのボトルネックに直面している。
本稿では,この3つのボトルネックを緩和する決定自由学習手法であるDF2を提案する。
論文 参考訳(メタデータ) (2023-08-11T00:44:46Z) - Online Contextual Decision-Making with a Smart Predict-then-Optimize
Method [4.061135251278187]
資源制約を考慮したオンライン文脈決定問題について検討する。
本稿では,「スマート予測-then-(SPO)」法に基づく予測ステップと,ミラー降下に基づく2つの更新ステップを混合するアルゴリズムを提案する。
提案手法の全体的な収束速度はオンラインミラー降下の$mathcalO(T-1/2)$収束に依存することを示す。
論文 参考訳(メタデータ) (2022-06-15T06:16:13Z) - Private Stochastic Non-Convex Optimization: Adaptive Algorithms and
Tighter Generalization Bounds [72.63031036770425]
有界非次元最適化のための差分プライベート(DP)アルゴリズムを提案する。
標準勾配法に対する経験的優位性について,2つの一般的なディープラーニング手法を実証する。
論文 参考訳(メタデータ) (2020-06-24T06:01:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。