Fugu-MT 論文翻訳(概要): Risk-Aware Linear Bandits: Theory and Applications in Smart Order Routing

論文の概要: Risk-Aware Linear Bandits: Theory and Applications in Smart Order Routing

arxiv url: http://arxiv.org/abs/2208.02389v2
Date: Tue, 23 Jan 2024 22:32:18 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-25 18:15:03.174638
Title: Risk-Aware Linear Bandits: Theory and Applications in Smart Order Routing
Title（参考訳）: リスク対応線形帯域:スマートオーダールーティングの理論と応用
Authors: Jingwei Ji, Renyuan Xu, Ruihao Zhu
Abstract要約: スマート・オーダー・ルーティング(SOR)におけるリスク・アウェア・バンディットの最適化について検討する。分散最小化グローバル最適化(G-Optimal)設計により、新しいインスタンス非依存型リスク意識探索-then-Commit(RISE)アルゴリズムとインスタンス依存型リスク意識継承排除(RISE++)アルゴリズムを提案する。
参考スコア（独自算出の注目度）: 10.69955834942979
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Motivated by practical considerations in machine learning for financial decision-making, such as risk aversion and large action space, we consider risk-aware bandits optimization with applications in smart order routing (SOR). Specifically, based on preliminary observations of linear price impacts made from the NASDAQ ITCH dataset, we initiate the study of risk-aware linear bandits. In this setting, we aim at minimizing regret, which measures our performance deficit compared to the optimum's, under the mean-variance metric when facing a set of actions whose rewards are linear functions of (initially) unknown parameters. Driven by the variance-minimizing globally-optimal (G-optimal) design, we propose the novel instance-independent Risk-Aware Explore-then-Commit (RISE) algorithm and the instance-dependent Risk-Aware Successive Elimination (RISE++) algorithm. Then, we rigorously analyze their near-optimal regret upper bounds to show that, by leveraging the linear structure, our algorithms can dramatically reduce the regret when compared to existing methods. Finally, we demonstrate the performance of the algorithms by conducting extensive numerical experiments in the SOR setup using both synthetic datasets and the NASDAQ ITCH dataset. Our results reveal that 1) The linear structure assumption can indeed be well supported by the Nasdaq dataset; and more importantly 2) Both RISE and RISE++ can significantly outperform the competing methods, in terms of regret, especially in complex decision-making scenarios.
Abstract（参考訳）: リスク回避や大規模行動空間などの金融意思決定における機械学習の実践的考察により,スマートオーダールーティング(SOR)の応用によるリスク認識の帯域幅最適化を検討した。具体的には、NASDAQ ITCHデータセットによる線形価格影響の予備観測に基づいて、リスク対応線形帯域の研究を開始する。そこで本研究では,未知パラメータの線形関数を報酬とする行動群に対して平均分散メトリックを用いて,最適値と比較して性能の欠如を計測する「後悔」を最小化することを目的とした。分散最小化グローバル最適化(G-Optimal)設計により、新しいインスタンス非依存型リスク意識探索-then-Commit(RISE)アルゴリズムとインスタンス依存型リスク意識継承排除(RISE++)アルゴリズムを提案する。そして,この線形構造を利用することで,従来の手法と比較して,後悔を劇的に減らすことができることを示すため,最善の後悔の上限を厳格に解析した。最後に,合成データセットとnasdaq itchデータセットの両方を用いて,sor設定で広範な数値実験を行い,アルゴリズムの性能を示す。私たちの結果は 1) 線形構造仮定は、nasdaqデータセットによって、確実に十分に支持することができる。 2)RISEとRISE++はどちらも,特に複雑な意思決定シナリオにおいて,競合する手法よりも優れています。

関連論文リスト

Towards Sample-Efficient and Stable Reinforcement Learning for LLM-based Recommendation [56.92367609590823]
Long Chain-of-Thought (Long CoT)推論は、Large Language Models (LLMs)において有望であることを示している。我々はLong CoTが本質的にシーケンシャルなレコメンデーションドメインに不適合であると主張している。提案するRISER(Reinforced Item Space Exploration framework for Recommendation)を提案する。
論文参考訳（メタデータ） (2026-01-31T10:02:43Z)
Constrained Linear Thompson Sampling [39.724313550777715]
Constrained Linear Thompson Sampling (COLTS)は、摂動線形プログラムを解くことでアクションを選択するサンプリングベースのフレームワークである。 S-COLTSはゼロリスクと$widetildeO(sqrtd3 T)を許容するが、R-COLTSは$widetildeO(sqrtd3 T)を許容する。
論文参考訳（メタデータ） (2025-03-03T20:44:58Z)
Efficient Risk-sensitive Planning via Entropic Risk Measures [51.42922439693624]
動的プログラミングにより,エントロピーリスク対策(EntRM)のみを効率的に最適化できることを示す。エントロピーリスクの新たな構造解析と滑らかさ特性により, この最適性を効果的に計算できることを実証する。
論文参考訳（メタデータ） (2025-02-27T09:56:51Z)
On the Efficiency of ERM in Feature Learning [31.277788690403522]
特徴写像によって誘導される線形クラスの和和に対する2乗損失を伴う回帰問題に対する経験的リスク最小化の性能について検討する。集合 $mathcalT$ が大きすぎることと、一意の最適特徴写像が存在するとき、これらの量子は、オラクル手順の過剰なリスクと最大2倍に一致することを示す。一般仮定下での疎線形回帰における最良部分集合選択法の性能に関する新たな保証を得る。
論文参考訳（メタデータ） (2024-11-18T20:05:05Z)
Generalization Bounds of Surrogate Policies for Combinatorial Optimization Problems [53.03951222945921]
我々はスムーズな(摂動された)ポリシーを解析し、線形オラクルが使用する方向に対して制御されたランダムな摂動を付加する。我々の主な貢献は、過剰リスクを摂動バイアス、統計的推定誤差、最適化誤差に分解する一般化境界である。車両のスケジューリングやスムーズ化がトラクタブルトレーニングと制御された一般化の両方を可能にしていることを示す。
論文参考訳（メタデータ） (2024-07-24T12:00:30Z)
Pessimism Meets Risk: Risk-Sensitive Offline Reinforcement Learning [19.292214425524303]
リスクに敏感な強化学習(RL)は,不確実性を管理し,潜在的な有害な結果を最小限に抑えることが不可欠であるシナリオにおいて,意思決定を強化する能力において重要な分野である。本研究は, エントロピーリスク尺度をRL問題に適用することに焦点を当てる。我々は,リスクに敏感な観点からはまだ検討されていない理論的枠組みである線形マルコフ決定プロセス(MDP)の設定を中心としている。
論文参考訳（メタデータ） (2024-07-10T13:09:52Z)
Optimizing Sharpe Ratio: Risk-Adjusted Decision-Making in Multi-Armed Bandits [3.5502600490147196]
我々は、シャープ比(SR)が金融時系列の特徴付けにおける重要なパラメータであると考えている。我々は、レギュレット最小化(RM)とBest Arm Identification(BAI)のために、UCB-RSSRと呼ばれるSRを最適化する新しいアルゴリズムを提案する。 UCB-RSSRは、他のSR最適化バンディットアルゴリズムであるU-UCB Cassel et al(2023)よりも優れていることを示す。
論文参考訳（メタデータ） (2024-05-28T14:24:36Z)
Model-Based Epistemic Variance of Values for Risk-Aware Policy Optimization [59.758009422067]
モデルベース強化学習における累積報酬に対する不確実性を定量化する問題を考察する。我々は、解が値の真後分散に収束する新しい不確実性ベルマン方程式(UBE)を提案する。本稿では,リスク・サーキングとリスク・アバース・ポリシー最適化のいずれにも適用可能な汎用ポリシー最適化アルゴリズムQ-Uncertainty Soft Actor-Critic (QU-SAC)を導入する。
論文参考訳（メタデータ） (2023-12-07T15:55:58Z)
Risk-sensitive Markov Decision Process and Learning under General Utility Functions [3.6260136172126667]
強化学習(Reinforcement Learning, RL)は、様々な応用分野や理論的研究において大きな注目を集めている。累積報酬の空間上でのエプシロン被覆を用いた修正値アルゴリズムを提案する。シミュレータが存在しない場合,提案アルゴリズムは高信頼度探索法を用いて設計され,ほぼ最適ポリシーを同定する。
論文参考訳（メタデータ） (2023-11-22T18:50:06Z)
Large-Scale OD Matrix Estimation with A Deep Learning Method [70.78575952309023]
提案手法は,ディープラーニングと数値最適化アルゴリズムを統合し,行列構造を推論し,数値最適化を導出する。大規模合成データセットを用いて,提案手法の優れた一般化性能を実証するために実験を行った。
論文参考訳（メタデータ） (2023-10-09T14:30:06Z)
Empirical Risk Minimization for Losses without Variance [26.30435936379624]
重み付けされた条件下では、データは有限分散を持たないが、$p in (1,2)$で$p$のモーメントしか持たない経験的リスク問題を考察する。トランカットされた観測データに基づいて推定を行う代わりに,リスク値の最小化による最小化を選択する。これらのリスク値は、顕著なカトニ法(Catoni, 2012)を用いて、頑健に推定できる。
論文参考訳（メタデータ） (2023-09-07T16:14:00Z)
Active Learning in the Predict-then-Optimize Framework: A Margin-Based Approach [5.371816551086118]
本研究では,ラベルのないデータストリームから特徴サンプルのラベルを要求するかどうかを逐次決定する学習手法を開発した。我々の能動学習法は,予測パラメータによって引き起こされる決定誤差によって直接情報を得る最初の方法である。
論文参考訳（メタデータ） (2023-05-11T05:44:36Z)
Algorithmic Foundations of Empirical X-risk Minimization [51.58884973792057]
この原稿は、機械学習とAIの新しい最適化フレームワーク、bf empirical X-risk baseline (EXM)を紹介している。 Xリスク(X-risk)は、構成測度または目的の族を表すために導入された用語である。
論文参考訳（メタデータ） (2022-06-01T12:22:56Z)
Safe Online Bid Optimization with Return-On-Investment and Budget Constraints subject to Uncertainty [87.81197574939355]
最適化問題と学習問題の両方について検討する。我々は、潜在的に線形な数の制約違反を犠牲にして、サブ線形後悔を保証するアルゴリズム、すなわちGCBを提供する。より興味深いことに、我々はGCB_safe(psi,phi)というアルゴリズムを提供し、サブ線形擬似回帰と安全性w.h.p.の両方を、耐性 psi と phi を受け入れるコストで保証する。
論文参考訳（メタデータ） (2022-01-18T17:24:20Z)
Stochastic Hard Thresholding Algorithms for AUC Maximization [49.00683387735522]
分散分類におけるAUCのためのハードしきい値決定アルゴリズムを開発した。提案アルゴリズムの有効性と有効性を示す実験を行った。
論文参考訳（メタデータ） (2020-11-04T16:49:29Z)
SAMBA: Safe Model-Based & Active Reinforcement Learning [59.01424351231993]
SAMBAは、確率論的モデリング、情報理論、統計学といった側面を組み合わせた安全な強化学習のためのフレームワークである。我々は,低次元および高次元の状態表現を含む安全な力学系ベンチマークを用いて,アルゴリズムの評価を行った。アクティブなメトリクスと安全性の制約を詳細に分析することで,フレームワークの有効性を直感的に評価する。
論文参考訳（メタデータ） (2020-06-12T10:40:46Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。