論文の概要: Learning Decisions Offline from Censored Observations with ε-insensitive Operational Costs
- arxiv url: http://arxiv.org/abs/2408.07305v1
- Date: Wed, 14 Aug 2024 05:44:56 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-15 14:13:57.305927
- Title: Learning Decisions Offline from Censored Observations with ε-insensitive Operational Costs
- Title(参考訳): ε非感受性操作コストによるセンサ観測からのオフライン学習
- Authors: Minxia Chen, Ke Fu, Teng Huang, Miao Bai,
- Abstract要約: 我々は、オフラインのデータ駆動方式で、保護されていない検閲に対処するために、エプシロンに敏感な運用コストを設計し、活用する。
線形回帰(LR)モデルとニューラルネットワーク(NN)を含む2つの代表的なMLモデルを訓練する。
理論結果は,LR-epsilonNVC,LR-epsilonNVC-R,NN-epsilonNVCの安定性と学習性を明らかにする。
- 参考スコア(独自算出の注目度): 1.7249361224827533
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Many important managerial decisions are made based on censored observations. Making decisions without adequately handling the censoring leads to inferior outcomes. We investigate the data-driven decision-making problem with an offline dataset containing the feature data and the censored historical data of the variable of interest without the censoring indicators. Without assuming the underlying distribution, we design and leverage {\epsilon}-insensitive operational costs to deal with the unobserved censoring in an offline data-driven fashion. We demonstrate the customization of the {\epsilon}-insensitive operational costs for a newsvendor problem and use such costs to train two representative ML models, including linear regression (LR) models and neural networks (NNs). We derive tight generalization bounds for the custom LR model without regularization (LR-{\epsilon}NVC) and with regularization (LR-{\epsilon}NVC-R), and a high-probability generalization bound for the custom NN (NN-{\epsilon}NVC) trained by stochastic gradient descent. The theoretical results reveal the stability and learnability of LR-{\epsilon}NVC, LR-{\epsilon}NVC-R and NN-{\epsilon}NVC. We conduct extensive numerical experiments to compare LR-{\epsilon}NVC-R and NN-{\epsilon}NVC with two existing approaches, estimate-as-solution (EAS) and integrated estimation and optimization (IEO). The results show that LR-{\epsilon}NVC-R and NN-{\epsilon}NVC outperform both EAS and IEO, with maximum cost savings up to 14.40% and 12.21% compared to the lowest cost generated by the two existing approaches. In addition, LR-{\epsilon}NVC-R's and NN-{\epsilon}NVC's order quantities are statistically significantly closer to the optimal solutions should the underlying distribution be known.
- Abstract(参考訳): 多くの重要な管理上の決定は検閲された観察に基づいてなされる。
検閲を適切に扱わずに決定を下すと、結果は劣る。
本研究では、特徴データを含むオフラインデータセットと、興味のある変数の検閲履歴データによるデータ駆動決定問題について、検閲指標を使わずに検討する。
基礎となるディストリビューションを仮定せずに、オフラインのデータ駆動方式で、観測されていない検閲に対処するために、不感な運用コストを設計し、活用します。
本稿では,ニュースベンダ問題に対する不感な運用コストのカスタマイズを実演し,線形回帰(LR)モデルとニューラルネットワーク(NN)を含む2つの代表的なMLモデルをトレーニングするために,そのようなコストを使用する。
我々は、正規化のないカスタムLRモデル(LR-{\epsilon}NVC)と正規化(LR-{\epsilon}NVC-R)の厳密な一般化バウンダリと、確率勾配勾配で訓練されたカスタムNN(NN-{\epsilon}NVC)の高確率一般化バウンダリを導出した。
理論結果は, LR-{\epsilon}NVC, LR-{\epsilon}NVC-R, NN-{\epsilon}NVCの安定性と学習性を明らかにする。
我々は、LR-{\epsilon}NVC-RとNN-{\epsilon}NVCを、推定解法(EAS)と統合推定最適化(IEO)の2つの既存手法と比較するために、広範な数値実験を行った。
その結果, LR-{\epsilon}NVC-R とNN-{\epsilon}NVC は EAS と IEO のどちらよりも優れており, 既存の2つのアプローチの最低コストに比べて最大14.40% と 12.21% のコスト削減が可能であった。
さらに、LR-{\epsilon}NVC-R'sとNN-{\epsilon}NVCの位数は、基礎となる分布が知られている場合、最適解に統計的にかなり近い。
関連論文リスト
- Unlocking State-Tracking in Linear RNNs Through Negative Eigenvalues [65.41946981594567]
リニアリカレントニューラルネットワーク(LRNN)は、大規模言語モデリングにおけるトランスフォーマーの効率的な代替手段として登場した。
LRNNは、コード評価やチェスゲーム追跡といったタスクのパフォーマンスを損なうような状態追跡を行うのに苦労している。
我々の研究は、現代のLRNNの表現性を高め、トレーニングや推論のコストを変えることなく適用性を高める。
論文 参考訳(メタデータ) (2024-11-19T14:35:38Z) - Making Large Language Models Better Planners with Reasoning-Decision Alignment [70.5381163219608]
マルチモーダリティ強化LLMに基づくエンドツーエンド意思決定モデルを提案する。
ペア化されたCoTと計画結果との推論・決定アライメントの制約を提案する。
提案する大規模言語プランナをRDA-Driverとして推論・決定アライメントする。
論文 参考訳(メタデータ) (2024-08-25T16:43:47Z) - Contextual Linear Optimization with Bandit Feedback [35.692428244561626]
文脈線形最適化(CLO)は、ランダムコスト係数の不確実性を低減するために予測的文脈特徴を用いる。
我々は,帯域幅フィードバックを用いたCLOのためのオフライン学習アルゴリズムのクラスについて検討する。
IERMに対する高速な後悔境界を示し、不特定モデルクラスと最適化推定の柔軟な選択を可能にする。
論文 参考訳(メタデータ) (2024-05-26T13:27:27Z) - Neural Network Approximation for Pessimistic Offline Reinforcement
Learning [17.756108291816908]
一般ニューラルネットワーク近似を用いた悲観的オフラインRLの非漸近的推定誤差を提案する。
その結果, 推定誤差は2つの部分から構成されることがわかった。第1は, 部分的に制御可能な集束率でサンプルサイズに所望の速度で0に収束し, 第2は残留制約が厳密であれば無視可能である。
論文 参考訳(メタデータ) (2023-12-19T05:17:27Z) - Learning Low Dimensional State Spaces with Overparameterized Recurrent
Neural Nets [57.06026574261203]
我々は、長期記憶をモデル化できる低次元状態空間を学習するための理論的証拠を提供する。
実験は、線形RNNと非線形RNNの両方で低次元状態空間を学習することで、我々の理論を裏付けるものである。
論文 参考訳(メタデータ) (2022-10-25T14:45:15Z) - Rethinking Cost-sensitive Classification in Deep Learning via
Adversarial Data Augmentation [4.479834103607382]
コストに敏感な分類は、誤分類エラーがコストで大きく異なるアプリケーションにおいて重要である。
本稿では,過度パラメータ化モデルにコスト感受性を持たせるために,コスト依存型逆データ拡張フレームワークを提案する。
提案手法は,全体のコストを効果的に最小化し,臨界誤差を低減するとともに,全体的な精度で同等の性能を達成できる。
論文 参考訳(メタデータ) (2022-08-24T19:00:30Z) - Pessimistic Q-Learning for Offline Reinforcement Learning: Towards
Optimal Sample Complexity [51.476337785345436]
有限水平マルコフ決定過程の文脈におけるQ-ラーニングの悲観的変種について検討する。
ほぼ最適サンプル複雑性を実現するために,分散再現型悲観的Q-ラーニングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-02-28T15:39:36Z) - Doubly Robust Distributionally Robust Off-Policy Evaluation and Learning [59.02006924867438]
オフ政治評価と学習(OPE/L)は、オフラインの観察データを使用してより良い意思決定を行う。
近年の研究では、分散ロバストなOPE/L (DROPE/L) が提案されているが、この提案は逆正則重み付けに依存している。
KL分散不確実性集合を用いたDROPE/Lの最初のDRアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-02-19T20:00:44Z) - Solving Multistage Stochastic Linear Programming via Regularized Linear
Decision Rules: An Application to Hydrothermal Dispatch Planning [77.34726150561087]
AdaSO(Adaptive least absolute shrinkage and selection operator)に基づく線形決定規則(LDR)の新しい正規化手法を提案する。
実験により、MSLPを解くために古典的な非正規化LDRを使用する場合、過度に適合する脅威は無視できないことが示された。
LHDP問題に対しては、非正規化ベンチマークと比較して、提案したフレームワークの次の利点を強調した。
論文 参考訳(メタデータ) (2021-10-07T02:36:14Z) - Dimensionality reduction, regularization, and generalization in
overparameterized regressions [8.615625517708324]
主成分回帰(主成分回帰)としても知られるPCA-OLSは次元の減少によって回避できることを示す。
OLSは任意に敵の攻撃を受けやすいが,次元性低下はロバスト性を向上させることを示す。
その結果,プロジェクションがトレーニングデータに依存する手法は,トレーニングデータとは独立にプロジェクションが選択される手法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2020-11-23T15:38:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。