論文の概要: Risk-Aware Linear Bandits: Theory and Applications in Smart Order
Routing
- arxiv url: http://arxiv.org/abs/2208.02389v1
- Date: Thu, 4 Aug 2022 00:21:10 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-05 12:52:22.664302
- Title: Risk-Aware Linear Bandits: Theory and Applications in Smart Order
Routing
- Title(参考訳): リスク対応線形帯域:スマートオーダールーティングの理論と応用
- Authors: Jingwei Ji, Renyuan Xu, Ruihao Zhu
- Abstract要約: 我々は、(初期)未知パラメータの線形関数として報酬を表現できる一連の行動に直面する場合、平均分散尺度の下で後悔の最小化を考える。
分散最小化G-最適設計により,リスク・アウェア・エクスプロイト・then-Commit(RISE)アルゴリズムとリスク・アウェア・シークエンス・エミッション・エミッション(RISE++)アルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 12.321848464852177
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Motivated by practical considerations in machine learning for financial
decision-making, such as risk-aversion and large action space, we initiate the
study of risk-aware linear bandits. Specifically, we consider regret
minimization under the mean-variance measure when facing a set of actions whose
rewards can be expressed as linear functions of (initially) unknown parameters.
Driven by the variance-minimizing G-optimal design, we propose the Risk-Aware
Explore-then-Commit (RISE) algorithm and the Risk-Aware Successive Elimination
(RISE++) algorithm. Then, we rigorously analyze their regret upper bounds to
show that, by leveraging the linear structure, the algorithms can dramatically
reduce the regret when compared to existing methods. Finally, we demonstrate
the performance of the algorithms by conducting extensive numerical experiments
in a synthetic smart order routing setup. Our results show that both RISE and
RISE++ can outperform the competing methods, especially in complex
decision-making scenarios.
- Abstract(参考訳): リスク回避や大規模行動空間などの金融意思決定のための機械学習の実践的考察により、リスク対応線形帯域の研究を開始する。
具体的には、(初期)未知パラメータの線形関数として報酬を表現できる一連のアクションに直面する場合、平均分散尺度の下で後悔の最小化を考える。
分散最小化g-オプティカル設計により,リスク・アウェア・explore-then-commit (rise) アルゴリズムとリスク・アウェア・シーケンシャル・エグゼクション (rise++) アルゴリズムを提案する。
次に,後悔の上限を厳格に分析し,線形構造を利用することで,従来の手法と比較して後悔を劇的に軽減できることを示す。
最後に,合成スマートオーダールーティング設定において,広範囲な数値実験を行い,アルゴリズムの性能を実証する。
以上の結果から,RISE と RISE++ は競合する手法,特に複雑な意思決定シナリオよりも優れていることがわかった。
関連論文リスト
- On the Efficiency of ERM in Feature Learning [31.277788690403522]
特徴写像によって誘導される線形クラスの和和に対する2乗損失を伴う回帰問題に対する経験的リスク最小化の性能について検討する。
集合 $mathcalT$ が大きすぎることと、一意の最適特徴写像が存在するとき、これらの量子は、オラクル手順の過剰なリスクと最大2倍に一致することを示す。
一般仮定下での疎線形回帰における最良部分集合選択法の性能に関する新たな保証を得る。
論文 参考訳(メタデータ) (2024-11-18T20:05:05Z) - Pessimism Meets Risk: Risk-Sensitive Offline Reinforcement Learning [19.292214425524303]
リスクに敏感な強化学習(RL)は,不確実性を管理し,潜在的な有害な結果を最小限に抑えることが不可欠であるシナリオにおいて,意思決定を強化する能力において重要な分野である。
本研究は, エントロピーリスク尺度をRL問題に適用することに焦点を当てる。
我々は,リスクに敏感な観点からはまだ検討されていない理論的枠組みである線形マルコフ決定プロセス(MDP)の設定を中心としている。
論文 参考訳(メタデータ) (2024-07-10T13:09:52Z) - Model-Based Epistemic Variance of Values for Risk-Aware Policy Optimization [59.758009422067]
モデルベース強化学習における累積報酬に対する不確実性を定量化する問題を考察する。
我々は、解が値の真後分散に収束する新しい不確実性ベルマン方程式(UBE)を提案する。
本稿では,リスク・サーキングとリスク・アバース・ポリシー最適化のいずれにも適用可能な汎用ポリシー最適化アルゴリズムQ-Uncertainty Soft Actor-Critic (QU-SAC)を導入する。
論文 参考訳(メタデータ) (2023-12-07T15:55:58Z) - Risk-sensitive Markov Decision Process and Learning under General
Utility Functions [3.6260136172126667]
強化学習(Reinforcement Learning, RL)は、様々な応用分野や理論的研究において大きな注目を集めている。
累積報酬の空間上でのエプシロン被覆を用いた修正値アルゴリズムを提案する。
シミュレータが存在しない場合,提案アルゴリズムは高信頼度探索法を用いて設計され,ほぼ最適ポリシーを同定する。
論文 参考訳(メタデータ) (2023-11-22T18:50:06Z) - Large-Scale OD Matrix Estimation with A Deep Learning Method [70.78575952309023]
提案手法は,ディープラーニングと数値最適化アルゴリズムを統合し,行列構造を推論し,数値最適化を導出する。
大規模合成データセットを用いて,提案手法の優れた一般化性能を実証するために実験を行った。
論文 参考訳(メタデータ) (2023-10-09T14:30:06Z) - Empirical Risk Minimization for Losses without Variance [26.30435936379624]
重み付けされた条件下では、データは有限分散を持たないが、$p in (1,2)$で$p$のモーメントしか持たない経験的リスク問題を考察する。
トランカットされた観測データに基づいて推定を行う代わりに,リスク値の最小化による最小化を選択する。
これらのリスク値は、顕著なカトニ法(Catoni, 2012)を用いて、頑健に推定できる。
論文 参考訳(メタデータ) (2023-09-07T16:14:00Z) - Active Learning in the Predict-then-Optimize Framework: A Margin-Based
Approach [5.371816551086118]
本研究では,ラベルのないデータストリームから特徴サンプルのラベルを要求するかどうかを逐次決定する学習手法を開発した。
我々の能動学習法は,予測パラメータによって引き起こされる決定誤差によって直接情報を得る最初の方法である。
論文 参考訳(メタデータ) (2023-05-11T05:44:36Z) - Algorithmic Foundations of Empirical X-risk Minimization [51.58884973792057]
この原稿は、機械学習とAIの新しい最適化フレームワーク、bf empirical X-risk baseline (EXM)を紹介している。
Xリスク(X-risk)は、構成測度または目的の族を表すために導入された用語である。
論文 参考訳(メタデータ) (2022-06-01T12:22:56Z) - Safe Online Bid Optimization with Return-On-Investment and Budget
Constraints subject to Uncertainty [87.81197574939355]
最適化問題と学習問題の両方について検討する。
我々は、潜在的に線形な数の制約違反を犠牲にして、サブ線形後悔を保証するアルゴリズム、すなわちGCBを提供する。
より興味深いことに、我々はGCB_safe(psi,phi)というアルゴリズムを提供し、サブ線形擬似回帰と安全性w.h.p.の両方を、耐性 psi と phi を受け入れるコストで保証する。
論文 参考訳(メタデータ) (2022-01-18T17:24:20Z) - Stochastic Hard Thresholding Algorithms for AUC Maximization [49.00683387735522]
分散分類におけるAUCのためのハードしきい値決定アルゴリズムを開発した。
提案アルゴリズムの有効性と有効性を示す実験を行った。
論文 参考訳(メタデータ) (2020-11-04T16:49:29Z) - SAMBA: Safe Model-Based & Active Reinforcement Learning [59.01424351231993]
SAMBAは、確率論的モデリング、情報理論、統計学といった側面を組み合わせた安全な強化学習のためのフレームワークである。
我々は,低次元および高次元の状態表現を含む安全な力学系ベンチマークを用いて,アルゴリズムの評価を行った。
アクティブなメトリクスと安全性の制約を詳細に分析することで,フレームワークの有効性を直感的に評価する。
論文 参考訳(メタデータ) (2020-06-12T10:40:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。