論文の概要: Risk-Aware Linear Bandits: Theory and Applications in Smart Order
Routing
- arxiv url: http://arxiv.org/abs/2208.02389v1
- Date: Thu, 4 Aug 2022 00:21:10 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-05 12:52:22.664302
- Title: Risk-Aware Linear Bandits: Theory and Applications in Smart Order
Routing
- Title(参考訳): リスク対応線形帯域:スマートオーダールーティングの理論と応用
- Authors: Jingwei Ji, Renyuan Xu, Ruihao Zhu
- Abstract要約: 我々は、(初期)未知パラメータの線形関数として報酬を表現できる一連の行動に直面する場合、平均分散尺度の下で後悔の最小化を考える。
分散最小化G-最適設計により,リスク・アウェア・エクスプロイト・then-Commit(RISE)アルゴリズムとリスク・アウェア・シークエンス・エミッション・エミッション(RISE++)アルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 12.321848464852177
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Motivated by practical considerations in machine learning for financial
decision-making, such as risk-aversion and large action space, we initiate the
study of risk-aware linear bandits. Specifically, we consider regret
minimization under the mean-variance measure when facing a set of actions whose
rewards can be expressed as linear functions of (initially) unknown parameters.
Driven by the variance-minimizing G-optimal design, we propose the Risk-Aware
Explore-then-Commit (RISE) algorithm and the Risk-Aware Successive Elimination
(RISE++) algorithm. Then, we rigorously analyze their regret upper bounds to
show that, by leveraging the linear structure, the algorithms can dramatically
reduce the regret when compared to existing methods. Finally, we demonstrate
the performance of the algorithms by conducting extensive numerical experiments
in a synthetic smart order routing setup. Our results show that both RISE and
RISE++ can outperform the competing methods, especially in complex
decision-making scenarios.
- Abstract(参考訳): リスク回避や大規模行動空間などの金融意思決定のための機械学習の実践的考察により、リスク対応線形帯域の研究を開始する。
具体的には、(初期)未知パラメータの線形関数として報酬を表現できる一連のアクションに直面する場合、平均分散尺度の下で後悔の最小化を考える。
分散最小化g-オプティカル設計により,リスク・アウェア・explore-then-commit (rise) アルゴリズムとリスク・アウェア・シーケンシャル・エグゼクション (rise++) アルゴリズムを提案する。
次に,後悔の上限を厳格に分析し,線形構造を利用することで,従来の手法と比較して後悔を劇的に軽減できることを示す。
最後に,合成スマートオーダールーティング設定において,広範囲な数値実験を行い,アルゴリズムの性能を実証する。
以上の結果から,RISE と RISE++ は競合する手法,特に複雑な意思決定シナリオよりも優れていることがわかった。
関連論文リスト
- Model-Based Epistemic Variance of Values for Risk-Aware Policy
Optimization [63.32053223422317]
モデルベース強化学習における累積報酬に対する不確実性を定量化する問題を考察する。
特に、MDP上の分布によって誘導される値の分散を特徴付けることに焦点をあてる。
我々は、解が値の真後分散に収束する新しい不確実性ベルマン方程式(UBE)を提案する。
論文 参考訳(メタデータ) (2023-12-07T15:55:58Z) - Risk-sensitive Markov Decision Process and Learning under General
Utility Functions [3.6260136172126667]
強化学習(Reinforcement Learning, RL)は、様々な応用分野や理論的研究において大きな注目を集めている。
累積報酬の空間上でのエプシロン被覆を用いた修正値アルゴリズムを提案する。
シミュレータが存在しない場合,提案アルゴリズムは高信頼度探索法を用いて設計され,ほぼ最適ポリシーを同定する。
論文 参考訳(メタデータ) (2023-11-22T18:50:06Z) - Large-Scale OD Matrix Estimation with A Deep Learning Method [70.78575952309023]
提案手法は,ディープラーニングと数値最適化アルゴリズムを統合し,行列構造を推論し,数値最適化を導出する。
大規模合成データセットを用いて,提案手法の優れた一般化性能を実証するために実験を行った。
論文 参考訳(メタデータ) (2023-10-09T14:30:06Z) - Empirical Risk Minimization for Losses without Variance [26.30435936379624]
重み付けされた条件下では、データは有限分散を持たないが、$p in (1,2)$で$p$のモーメントしか持たない経験的リスク問題を考察する。
トランカットされた観測データに基づいて推定を行う代わりに,リスク値の最小化による最小化を選択する。
これらのリスク値は、顕著なカトニ法(Catoni, 2012)を用いて、頑健に推定できる。
論文 参考訳(メタデータ) (2023-09-07T16:14:00Z) - Active Learning in the Predict-then-Optimize Framework: A Margin-Based
Approach [5.371816551086118]
本研究では,ラベルのないデータストリームから特徴サンプルのラベルを要求するかどうかを逐次決定する学習手法を開発した。
我々の能動学習法は,予測パラメータによって引き起こされる決定誤差によって直接情報を得る最初の方法である。
論文 参考訳(メタデータ) (2023-05-11T05:44:36Z) - Regret Bounds for Markov Decision Processes with Recursive Optimized
Certainty Equivalents [3.8980564330208662]
本稿では,新しいエピソード型リスク感応型強化学習法を提案する。
本研究では,値反復と高信頼度境界に基づく効率的な学習アルゴリズムを設計する。
我々の限界は,提案アルゴリズムが達成した後悔率は,エピソード数とアクション数に最適に依存することを示している。
論文 参考訳(メタデータ) (2023-01-30T01:22:31Z) - Algorithmic Foundations of Empirical X-risk Minimization [51.58884973792057]
この原稿は、機械学習とAIの新しい最適化フレームワーク、bf empirical X-risk baseline (EXM)を紹介している。
Xリスク(X-risk)は、構成測度または目的の族を表すために導入された用語である。
論文 参考訳(メタデータ) (2022-06-01T12:22:56Z) - Safe Online Bid Optimization with Return-On-Investment and Budget
Constraints subject to Uncertainty [87.81197574939355]
最適化問題と学習問題の両方について検討する。
我々は、潜在的に線形な数の制約違反を犠牲にして、サブ線形後悔を保証するアルゴリズム、すなわちGCBを提供する。
より興味深いことに、我々はGCB_safe(psi,phi)というアルゴリズムを提供し、サブ線形擬似回帰と安全性w.h.p.の両方を、耐性 psi と phi を受け入れるコストで保証する。
論文 参考訳(メタデータ) (2022-01-18T17:24:20Z) - Stochastic Hard Thresholding Algorithms for AUC Maximization [49.00683387735522]
分散分類におけるAUCのためのハードしきい値決定アルゴリズムを開発した。
提案アルゴリズムの有効性と有効性を示す実験を行った。
論文 参考訳(メタデータ) (2020-11-04T16:49:29Z) - Experimental Design for Regret Minimization in Linear Bandits [19.8309784360219]
オンライン・リニア・バンドレットにおける後悔を最小限に抑える設計に基づく新しいアルゴリズムを提案する。
我々は、現在最先端の有限時間後悔保証を提供し、このアルゴリズムが帯域幅と半帯域幅の両方のフィードバックシステムに適用可能であることを示す。
論文 参考訳(メタデータ) (2020-11-01T17:59:19Z) - SAMBA: Safe Model-Based & Active Reinforcement Learning [59.01424351231993]
SAMBAは、確率論的モデリング、情報理論、統計学といった側面を組み合わせた安全な強化学習のためのフレームワークである。
我々は,低次元および高次元の状態表現を含む安全な力学系ベンチマークを用いて,アルゴリズムの評価を行った。
アクティブなメトリクスと安全性の制約を詳細に分析することで,フレームワークの有効性を直感的に評価する。
論文 参考訳(メタデータ) (2020-06-12T10:40:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。