論文の概要: Contextual Inverse Optimization: Offline and Online Learning
- arxiv url: http://arxiv.org/abs/2106.14015v3
- Date: Sat, 1 Jul 2023 20:23:26 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-05 18:32:04.775197
- Title: Contextual Inverse Optimization: Offline and Online Learning
- Title(参考訳): 文脈逆最適化:オフラインとオンライン学習
- Authors: Omar Besbes, Yuri Fonseca, Ilan Lobel
- Abstract要約: オフラインとオンラインのコンテキスト最適化の問題について,フィードバック情報を用いて検討する。
我々は後悔を最小限に抑えることを目指しており、これは我々の損失と全知の託宣によって引き起こされた損失との違いとして定義される。
- 参考スコア(独自算出の注目度): 3.6739949215165164
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study the problems of offline and online contextual optimization with
feedback information, where instead of observing the loss, we observe,
after-the-fact, the optimal action an oracle with full knowledge of the
objective function would have taken. We aim to minimize regret, which is
defined as the difference between our losses and the ones incurred by an
all-knowing oracle. In the offline setting, the decision-maker has information
available from past periods and needs to make one decision, while in the online
setting, the decision-maker optimizes decisions dynamically over time based a
new set of feasible actions and contextual functions in each period. For the
offline setting, we characterize the optimal minimax policy, establishing the
performance that can be achieved as a function of the underlying geometry of
the information induced by the data. In the online setting, we leverage this
geometric characterization to optimize the cumulative regret. We develop an
algorithm that yields the first regret bound for this problem that is
logarithmic in the time horizon. Finally, we show via simulation that our
proposed algorithms outperform previous methods from the literature.
- Abstract(参考訳): 我々は、オフラインおよびオンラインの文脈最適化の問題をフィードバック情報で検討し、損失を観察する代わりに、目的関数の完全な知識を持つオラクルが行ったであろう最適なアクションを観察する。
我々は後悔を最小限に抑えることを目指しており、これは我々の損失と全知の託宣によって引き起こされた損失との違いとして定義される。
オフライン設定では、意思決定者は過去の期間から利用可能な情報を持ち、1つの決定を行う必要があるが、オンライン設定では、意思決定者は、各期間における実行可能なアクションとコンテキスト関数の新たなセットに基づいて、時間とともに決定を動的に最適化する。
オフライン設定では、最適なミニマックスポリシーを特徴付け、データによって誘導される情報の基本的な幾何学の関数として達成できる性能を確立する。
オンライン環境では、この幾何学的特徴を利用して累積的後悔を最適化する。
我々は,時間軸の対数的問題に対する最初の後悔を生じさせるアルゴリズムを開発した。
最後に,提案手法が従来の手法よりも優れていることをシミュレーションにより示す。
関連論文リスト
- Learning to Cover: Online Learning and Optimization with Irreversible Decisions [50.5775508521174]
後悔は$Thetaleft(mfrac12cdotfrac11-2-Tright)$で半直線的に成長するので、指数関数的に$Theta(sqrtm)$に収束する。
これらの調査結果は、限定的なオンライン学習と最適化の利点を浮き彫りにしている。
論文 参考訳(メタデータ) (2024-06-20T23:00:25Z) - Discovering Preference Optimization Algorithms with and for Large Language Models [50.843710797024805]
オフライン優先最適化は、LLM(Large Language Model)出力の品質を向上・制御するための重要な手法である。
我々は、人間の介入なしに、新しい最先端の選好最適化アルゴリズムを自動で発見する客観的発見を行う。
実験は、ロジスティックと指数的損失を適応的にブレンドする新しいアルゴリズムであるDiscoPOPの最先端性能を示す。
論文 参考訳(メタデータ) (2024-06-12T16:58:41Z) - Learning Goal-Conditioned Policies from Sub-Optimal Offline Data via Metric Learning [22.174803826742963]
目標条件付きオフライン強化学習における最適データセットからの最適行動学習の問題に対処する。
本稿では,目標条件付きオフラインRL問題に対する最適値関数を近似するための計量学習法を提案する。
本手法は,分布外推定誤差に悩まされることなく,高度に最適化されたオフラインデータセットから最適な挙動を推定する。
論文 参考訳(メタデータ) (2024-02-16T16:46:53Z) - End-to-End Learning for Fair Multiobjective Optimization Under
Uncertainty [55.04219793298687]
機械学習における予測-Then-Forecast(PtO)パラダイムは、下流の意思決定品質を最大化することを目的としている。
本稿では,PtO法を拡張して,OWA(Nondifferentiable Ordered Weighted Averaging)の目的を最適化する。
この結果から,不確実性の下でのOWA関数の最適化とパラメトリック予測を効果的に統合できることが示唆された。
論文 参考訳(メタデータ) (2024-02-12T16:33:35Z) - Non-Convex Bilevel Optimization with Time-Varying Objective Functions [57.299128109226025]
本稿では,時間変化の可能なオンライン二段階最適化を提案し,エージェントがオンラインデータを用いて決定を継続的に更新する。
既存のアルゴリズムと比較して、SOBOWは計算効率が良く、以前の関数を知る必要がない。
軽度条件下では,SOBOWはサブリニアな局所的後悔を達成できることを示す。
論文 参考訳(メタデータ) (2023-08-07T06:27:57Z) - Online Joint Assortment-Inventory Optimization under MNL Choices [14.530542487845732]
本稿では,MNL(Multinomial Logit)選択モデルに従えば,各顧客の選択行動が従うと仮定する,オンラインジョイント・アソート・インベントリ最適化問題について考察する。
本稿では,オンラインの品揃えと在庫の意思決定における探索と搾取を効果的にバランスさせる新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-04-04T09:25:34Z) - Efficient Online Learning with Memory via Frank-Wolfe Optimization:
Algorithms with Bounded Dynamic Regret and Applications to Control [15.588080817106563]
動的後悔を最小限に抑えるメモリ付きプロジェクションフリーなメタベース学習アルゴリズムを提案する。
私たちは、自律的なエージェントが時間によって変化する環境に適応する必要がある人工知能アプリケーションによって動機付けられています。
論文 参考訳(メタデータ) (2023-01-02T01:12:29Z) - Data-Driven Offline Decision-Making via Invariant Representation
Learning [97.49309949598505]
オフラインのデータ駆動意思決定は、アクティブなインタラクションなしで最適化された決定を合成する。
オフラインデータからトレーニングされたモデルへの入力に関して最適化する場合、誤って良いように見えるアウト・オブ・ディストリビューション(OOD)インプットを生成するのは簡単です。
本稿では、オフラインデータ駆動意思決定をドメイン適応として定式化し、最適化された決定値の正確な予測を行うことを目標とする。
論文 参考訳(メタデータ) (2022-11-21T11:01:37Z) - Learning to Control under Time-Varying Environment [18.48729114775298]
本稿では,線形時間変化(LTV)力学系における後悔の問題について検討する。
提案するオンラインアルゴリズムは, 計算に難易度を保証した最初のオンラインアルゴリズムである。
論文 参考訳(メタデータ) (2022-06-06T11:40:46Z) - OptiDICE: Offline Policy Optimization via Stationary Distribution
Correction Estimation [59.469401906712555]
より原理的な方法で過大評価を防止するオフライン強化学習アルゴリズムを提案する。
提案アルゴリズムであるOptiDICEは,最適ポリシーの定常分布補正を直接推定する。
OptiDICEは最先端の手法と競合して動作することを示す。
論文 参考訳(メタデータ) (2021-06-21T00:43:30Z) - Online Convex Optimization Perspective for Learning from Dynamically
Revealed Preferences [0.0]
オンライン学習の課題を、明らかにした嗜好から検討する。
学習者は、変化する環境において、エージェントのユーティリティ最大化動作を観察して、非戦略エージェントのプライベートユーティリティ機能を学びたい。
我々は,学習者がエージェントの行動の流れをオンライン形式で観察し,損失関数に関連付けられた後悔によって学習性能を測定するオンライン逆最適化装置を採用する。
論文 参考訳(メタデータ) (2020-08-24T14:05:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。