論文の概要: Risk-Aware Linear Bandits: Theory and Applications in Smart Order
Routing
- arxiv url: http://arxiv.org/abs/2208.02389v2
- Date: Tue, 23 Jan 2024 22:32:18 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-25 18:15:03.174638
- Title: Risk-Aware Linear Bandits: Theory and Applications in Smart Order
Routing
- Title(参考訳): リスク対応線形帯域:スマートオーダールーティングの理論と応用
- Authors: Jingwei Ji, Renyuan Xu, Ruihao Zhu
- Abstract要約: スマート・オーダー・ルーティング(SOR)におけるリスク・アウェア・バンディットの最適化について検討する。
分散最小化グローバル最適化(G-Optimal)設計により、新しいインスタンス非依存型リスク意識探索-then-Commit(RISE)アルゴリズムとインスタンス依存型リスク意識継承排除(RISE++)アルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 10.69955834942979
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Motivated by practical considerations in machine learning for financial
decision-making, such as risk aversion and large action space, we consider
risk-aware bandits optimization with applications in smart order routing (SOR).
Specifically, based on preliminary observations of linear price impacts made
from the NASDAQ ITCH dataset, we initiate the study of risk-aware linear
bandits. In this setting, we aim at minimizing regret, which measures our
performance deficit compared to the optimum's, under the mean-variance metric
when facing a set of actions whose rewards are linear functions of (initially)
unknown parameters. Driven by the variance-minimizing globally-optimal
(G-optimal) design, we propose the novel instance-independent Risk-Aware
Explore-then-Commit (RISE) algorithm and the instance-dependent Risk-Aware
Successive Elimination (RISE++) algorithm. Then, we rigorously analyze their
near-optimal regret upper bounds to show that, by leveraging the linear
structure, our algorithms can dramatically reduce the regret when compared to
existing methods. Finally, we demonstrate the performance of the algorithms by
conducting extensive numerical experiments in the SOR setup using both
synthetic datasets and the NASDAQ ITCH dataset. Our results reveal that 1) The
linear structure assumption can indeed be well supported by the Nasdaq dataset;
and more importantly 2) Both RISE and RISE++ can significantly outperform the
competing methods, in terms of regret, especially in complex decision-making
scenarios.
- Abstract(参考訳): リスク回避や大規模行動空間などの金融意思決定における機械学習の実践的考察により,スマートオーダールーティング(SOR)の応用によるリスク認識の帯域幅最適化を検討した。
具体的には、NASDAQ ITCHデータセットによる線形価格影響の予備観測に基づいて、リスク対応線形帯域の研究を開始する。
そこで本研究では,未知パラメータの線形関数を報酬とする行動群に対して平均分散メトリックを用いて,最適値と比較して性能の欠如を計測する「後悔」を最小化することを目的とした。
分散最小化グローバル最適化(G-Optimal)設計により、新しいインスタンス非依存型リスク意識探索-then-Commit(RISE)アルゴリズムとインスタンス依存型リスク意識継承排除(RISE++)アルゴリズムを提案する。
そして,この線形構造を利用することで,従来の手法と比較して,後悔を劇的に減らすことができることを示すため,最善の後悔の上限を厳格に解析した。
最後に,合成データセットとnasdaq itchデータセットの両方を用いて,sor設定で広範な数値実験を行い,アルゴリズムの性能を示す。
私たちの結果は
1) 線形構造仮定は、nasdaqデータセットによって、確実に十分に支持することができる。
2)RISEとRISE++はどちらも,特に複雑な意思決定シナリオにおいて,競合する手法よりも優れています。
関連論文リスト
- Pessimism Meets Risk: Risk-Sensitive Offline Reinforcement Learning [19.292214425524303]
リスクに敏感な強化学習(RL)は,不確実性を管理し,潜在的な有害な結果を最小限に抑えることが不可欠であるシナリオにおいて,意思決定を強化する能力において重要な分野である。
本研究は, エントロピーリスク尺度をRL問題に適用することに焦点を当てる。
我々は,リスクに敏感な観点からはまだ検討されていない理論的枠組みである線形マルコフ決定プロセス(MDP)の設定を中心としている。
論文 参考訳(メタデータ) (2024-07-10T13:09:52Z) - Optimizing Sharpe Ratio: Risk-Adjusted Decision-Making in Multi-Armed Bandits [3.5502600490147196]
我々は、シャープ比(SR)が金融時系列の特徴付けにおける重要なパラメータであると考えている。
我々は、レギュレット最小化(RM)とBest Arm Identification(BAI)のために、UCB-RSSRと呼ばれるSRを最適化する新しいアルゴリズムを提案する。
UCB-RSSRは、他のSR最適化バンディットアルゴリズムであるU-UCB Cassel et al(2023)よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-05-28T14:24:36Z) - Model-Based Epistemic Variance of Values for Risk-Aware Policy
Optimization [63.32053223422317]
モデルベース強化学習における累積報酬に対する不確実性を定量化する問題を考察する。
特に、MDP上の分布によって誘導される値の分散を特徴付けることに焦点をあてる。
我々は、解が値の真後分散に収束する新しい不確実性ベルマン方程式(UBE)を提案する。
論文 参考訳(メタデータ) (2023-12-07T15:55:58Z) - Risk-sensitive Markov Decision Process and Learning under General
Utility Functions [3.6260136172126667]
強化学習(Reinforcement Learning, RL)は、様々な応用分野や理論的研究において大きな注目を集めている。
累積報酬の空間上でのエプシロン被覆を用いた修正値アルゴリズムを提案する。
シミュレータが存在しない場合,提案アルゴリズムは高信頼度探索法を用いて設計され,ほぼ最適ポリシーを同定する。
論文 参考訳(メタデータ) (2023-11-22T18:50:06Z) - Large-Scale OD Matrix Estimation with A Deep Learning Method [70.78575952309023]
提案手法は,ディープラーニングと数値最適化アルゴリズムを統合し,行列構造を推論し,数値最適化を導出する。
大規模合成データセットを用いて,提案手法の優れた一般化性能を実証するために実験を行った。
論文 参考訳(メタデータ) (2023-10-09T14:30:06Z) - Empirical Risk Minimization for Losses without Variance [26.30435936379624]
重み付けされた条件下では、データは有限分散を持たないが、$p in (1,2)$で$p$のモーメントしか持たない経験的リスク問題を考察する。
トランカットされた観測データに基づいて推定を行う代わりに,リスク値の最小化による最小化を選択する。
これらのリスク値は、顕著なカトニ法(Catoni, 2012)を用いて、頑健に推定できる。
論文 参考訳(メタデータ) (2023-09-07T16:14:00Z) - Active Learning in the Predict-then-Optimize Framework: A Margin-Based
Approach [5.371816551086118]
本研究では,ラベルのないデータストリームから特徴サンプルのラベルを要求するかどうかを逐次決定する学習手法を開発した。
我々の能動学習法は,予測パラメータによって引き起こされる決定誤差によって直接情報を得る最初の方法である。
論文 参考訳(メタデータ) (2023-05-11T05:44:36Z) - Algorithmic Foundations of Empirical X-risk Minimization [51.58884973792057]
この原稿は、機械学習とAIの新しい最適化フレームワーク、bf empirical X-risk baseline (EXM)を紹介している。
Xリスク(X-risk)は、構成測度または目的の族を表すために導入された用語である。
論文 参考訳(メタデータ) (2022-06-01T12:22:56Z) - Safe Online Bid Optimization with Return-On-Investment and Budget
Constraints subject to Uncertainty [87.81197574939355]
最適化問題と学習問題の両方について検討する。
我々は、潜在的に線形な数の制約違反を犠牲にして、サブ線形後悔を保証するアルゴリズム、すなわちGCBを提供する。
より興味深いことに、我々はGCB_safe(psi,phi)というアルゴリズムを提供し、サブ線形擬似回帰と安全性w.h.p.の両方を、耐性 psi と phi を受け入れるコストで保証する。
論文 参考訳(メタデータ) (2022-01-18T17:24:20Z) - Stochastic Hard Thresholding Algorithms for AUC Maximization [49.00683387735522]
分散分類におけるAUCのためのハードしきい値決定アルゴリズムを開発した。
提案アルゴリズムの有効性と有効性を示す実験を行った。
論文 参考訳(メタデータ) (2020-11-04T16:49:29Z) - SAMBA: Safe Model-Based & Active Reinforcement Learning [59.01424351231993]
SAMBAは、確率論的モデリング、情報理論、統計学といった側面を組み合わせた安全な強化学習のためのフレームワークである。
我々は,低次元および高次元の状態表現を含む安全な力学系ベンチマークを用いて,アルゴリズムの評価を行った。
アクティブなメトリクスと安全性の制約を詳細に分析することで,フレームワークの有効性を直感的に評価する。
論文 参考訳(メタデータ) (2020-06-12T10:40:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。