論文の概要: Online Decision-Focused Learning
- arxiv url: http://arxiv.org/abs/2505.13564v1
- Date: Mon, 19 May 2025 10:40:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-21 14:49:52.445264
- Title: Online Decision-Focused Learning
- Title(参考訳): オンライン意思決定型学習
- Authors: Aymeric Capitaine, Maxime Haddouche, Eric Moulines, Michael I. Jordan, Etienne Boursier, Alain Durmus,
- Abstract要約: 意思決定中心学習(DFL)は、意思決定タスクで出力が使用される予測モデルを訓練するパラダイムとして、ますます人気が高まっている。
対象関数が時間とともに進化しない動的環境におけるDFLについて検討する。
決定空間が単純空間であるときと一般有界凸ポリトープであるときの両方において、期待される動的後悔の限界を確立する。
- 参考スコア(独自算出の注目度): 63.83903681295497
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Decision-focused learning (DFL) is an increasingly popular paradigm for training predictive models whose outputs are used in decision-making tasks. Instead of merely optimizing for predictive accuracy, DFL trains models to directly minimize the loss associated with downstream decisions. This end-to-end strategy holds promise for tackling complex combinatorial problems; however, existing studies focus solely on scenarios where a fixed batch of data is available and the objective function does not change over time. We instead investigate DFL in dynamic environments where the objective function and data distribution evolve over time. This setting is challenging because the objective function has zero or undefined gradients -- which prevents the use of standard first-order optimization methods -- and is generally non-convex. To address these difficulties, we (i) regularize the objective to make it differentiable and (ii) make use of the optimism principle, based on a near-optimal oracle along with an appropriate perturbation. This leads to a practical online algorithm for which we establish bounds on the expected dynamic regret, both when the decision space is a simplex and when it is a general bounded convex polytope. Finally, we demonstrate the effectiveness of our algorithm by comparing its performance with a classic prediction-focused approach on a simple knapsack experiment.
- Abstract(参考訳): 意思決定中心学習(DFL)は、意思決定タスクで出力が使用される予測モデルを訓練するパラダイムとして、ますます人気が高まっている。
単に予測精度を最適化する代わりに、DFLは下流の決定に関連する損失を直接最小化するモデルを訓練する。
このエンドツーエンド戦略は複雑な組合せ問題に取り組むことを約束するが、既存の研究では、固定されたデータのバッチが利用可能であり、目的関数が時間とともに変化しないシナリオにのみ焦点をあてている。
対象関数とデータ分布が時間とともに進化する動的環境におけるDFLについて検討する。
この設定は、目的関数がゼロあるいは未定義の勾配 -- 標準的な一階最適化メソッドの使用を妨げる -- を持ち、一般には凸ではないため、難しい。
これらの困難に対処するために、私たちは
一 目的を定め、差別化させ、
二 適度な摂動とともに、ほぼ最適の託宣に基づく楽観主義の原則を利用すること。
これにより、決定空間が単純空間であるときと一般凸ポリトープであるときの両方において、期待される動的後悔の限界を確立するための実用的なオンラインアルゴリズムが導かれる。
最後に,本アルゴリズムの有効性を,単純なknapsack実験における古典的予測に焦点をあてた手法と比較した。
関連論文リスト
- OPO: Making Decision-Focused Data Acquisition Decisions [0.0]
本稿では,文脈最適化問題における変数のデータ取得決定のためのモデルを提案する。
本研究では, 線形目的関数を学習することにより, 厳密な制約でデータ取得問題を解く。
そこで本研究では,様々な学習モダリティを伴って問題を緩和し,多変量最適化アプローチがランダム検索戦略より優れていることを示す。
論文 参考訳(メタデータ) (2025-04-21T12:41:35Z) - Self-Supervised Penalty-Based Learning for Robust Constrained Optimization [4.297070083645049]
本稿では,自己教師付きペナルティに基づく損失関数を用いた学習に基づいて,パラメータ化制約付きロバスト最適化のための新しい手法を提案する。
我々のアプローチは、従来の解法よりも推論時間がかなり小さいニューラルネットワーク近似を効果的に学習することができる。
論文 参考訳(メタデータ) (2025-03-07T06:42:17Z) - Discovering Preference Optimization Algorithms with and for Large Language Models [50.843710797024805]
オフライン優先最適化は、LLM(Large Language Model)出力の品質を向上・制御するための重要な手法である。
我々は、人間の介入なしに、新しい最先端の選好最適化アルゴリズムを自動で発見する客観的発見を行う。
実験は、ロジスティックと指数的損失を適応的にブレンドする新しいアルゴリズムであるDiscoPOPの最先端性能を示す。
論文 参考訳(メタデータ) (2024-06-12T16:58:41Z) - From Function to Distribution Modeling: A PAC-Generative Approach to
Offline Optimization [30.689032197123755]
本稿では、オフラインデータ例の集合を除いて目的関数が不明なオフライン最適化の問題について考察する。
未知の目的関数を学習して最適化するのではなく、より直感的で直接的な視点で、最適化は生成モデルからサンプリングするプロセスと考えることができる。
論文 参考訳(メタデータ) (2024-01-04T01:32:50Z) - Score Function Gradient Estimation to Widen the Applicability of Decision-Focused Learning [17.962860438133312]
決定中心学習(DFL)パラダイムは、例えば後悔など、タスク損失を直接最小化するためのトレーニングによって制限を克服する。
そこで我々は,このような仮定をせずに,任意のタスク損失に作用するスコア関数推定とスムースに組み合わせた代替手法を提案する。
実験の結果、一般的に多くのエポックを必要とするが、専門的な手法と同等であり、特にソリューションの品質、スケーラビリティ、あるいはその両方の観点から、制約の不確実性に悩む問題に対して、特にうまく機能していることが示されている。
論文 参考訳(メタデータ) (2023-07-11T12:32:13Z) - Introduction to Online Control [34.77535508151501]
オンラインの非確率制御では、コスト関数と仮定された力学モデルからの摂動の両方が敵によって選択される。
目標は、ベンチマーククラスの政策から見て、最高の政策に対して低い後悔を得ることだ。
論文 参考訳(メタデータ) (2022-11-17T16:12:45Z) - Learning MDPs from Features: Predict-Then-Optimize for Sequential
Decision Problems by Reinforcement Learning [52.74071439183113]
我々は、強化学習を通して解決された逐次決定問題(MDP)の文脈における予測列最適化フレームワークについて検討した。
2つの重要な計算課題は、意思決定中心の学習をMDPに適用することである。
論文 参考訳(メタデータ) (2021-06-06T23:53:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。