Fugu-MT 論文翻訳(概要): Risk-averse learning with delayed feedback

論文の概要: Risk-averse learning with delayed feedback

arxiv url: http://arxiv.org/abs/2409.16866v1
Date: Wed, 25 Sep 2024 12:32:22 GMT
ステータス: 翻訳完了
システム内更新日: 2024-09-27 03:55:18.715568
Title: Risk-averse learning with delayed feedback
Title（参考訳）: 遅延フィードバックによるリスク回避学習
Authors: Siyi Wang, Zifan Wang, Karl Henrik Johansson, Sandra Hirche,
Abstract要約: 我々は,一点最適化と二点ゼロ階最適化に頼った2つのリスク逆学習アルゴリズムを開発した。その結果,2点リスク逆学習は1点アルゴリズムよりも少ない残差を達成できることが示唆された。
参考スコア（独自算出の注目度）: 17.626195546400247
License: http://creativecommons.org/publicdomain/zero/1.0/
Abstract: In real-world scenarios, the impacts of decisions may not manifest immediately. Taking these delays into account facilitates accurate assessment and management of risk in real-world environments, thereby ensuring the efficacy of strategies. In this paper, we investigate risk-averse learning using Conditional Value at Risk (CVaR) as risk measure, while incorporating delayed feedback with unknown but bounded delays. We develop two risk-averse learning algorithms that rely on one-point and two-point zeroth-order optimization approaches, respectively. The regret achieved by the algorithms is analyzed in terms of the cumulative delay and the number of total samplings. The results suggest that the two-point risk-averse learning achieves a smaller regret bound than the one-point algorithm. Furthermore, the one-point risk-averse learning algorithm attains sublinear regret under certain delay conditions, and the two-point risk-averse learning algorithm achieves sublinear regret with minimal restrictions on the delay. We provide numerical experiments on a dynamic pricing problem to demonstrate the performance of the proposed algorithms.
Abstract（参考訳）: 現実のシナリオでは、意思決定の影響はすぐには現れないかもしれない。これらの遅延を考慮すると、現実世界の環境におけるリスクの正確な評価と管理が容易になり、戦略の有効性が保証される。本稿では,リスク評価の条件値(CVaR)をリスク尺度として用いたリスク逆学習について検討する。そこで我々は,一点最適化と二点ゼロ階最適化を併用した2つのリスク-逆学習アルゴリズムを開発した。アルゴリズムが達成した後悔は累積遅延と全サンプリング数の観点から分析する。その結果,2点リスク逆学習は1点アルゴリズムよりも少ない残差を達成できることが示唆された。さらに、一点リスク回避学習アルゴリズムは、一定の遅延条件下でサブリニア後悔を達成し、二点リスク回避学習アルゴリズムは遅延の最小限の制限でサブリニア後悔を達成できる。提案アルゴリズムの性能を示すために,動的価格問題に関する数値実験を行った。

関連論文リスト

Risk-Averse Learning with Varying Risk Levels [8.646001948552264]
本研究では,リスクレベルの異なる動的環境におけるリスク-逆オンライン最適化について検討する。環境のダイナミクスとリスクレベルを捉えるために,機能変動指標を用い,新たなリスクレベル変動指標を導入する。我々は,限られたサンプリング予算でリスク回避学習アルゴリズムを開発し,機能変動,リスクレベル変動,サンプル総数の観点から,それらの動的後悔境界を解析した。
論文参考訳（メタデータ） (2025-12-28T16:09:29Z)
Planning and Learning in Average Risk-aware MDPs [4.696083734269232]
我々はリスクニュートラルアルゴリズムを拡張し、より一般的なリスク対策のクラスに対応する。 RVIアルゴリズムとQラーニングアルゴリズムの両方が最適性に収束することが証明されている。弊社のアプローチは、エージェントの複雑なリスク認識に微調整されたポリシーの特定を可能にする。
論文参考訳（メタデータ） (2025-03-22T03:18:09Z)
Pessimism Meets Risk: Risk-Sensitive Offline Reinforcement Learning [19.292214425524303]
リスクに敏感な強化学習(RL)は,不確実性を管理し,潜在的な有害な結果を最小限に抑えることが不可欠であるシナリオにおいて,意思決定を強化する能力において重要な分野である。本研究は, エントロピーリスク尺度をRL問題に適用することに焦点を当てる。我々は,リスクに敏感な観点からはまだ検討されていない理論的枠組みである線形マルコフ決定プロセス(MDP)の設定を中心としている。
論文参考訳（メタデータ） (2024-07-10T13:09:52Z)
Risk-averse Learning with Non-Stationary Distributions [18.15046585146849]
本稿では,ランダムなコスト分布が時間とともに変化するリスク-逆オンライン最適化について検討する。リスクの条件値(CVaR)をリスク尺度として用いたリスク逆目的関数を最小化する。設計した学習アルゴリズムは,凸関数と凸関数の両方に対して高い確率で線形動的後悔を実現する。
論文参考訳（メタデータ） (2024-04-03T18:16:47Z)
Towards Efficient Risk-Sensitive Policy Gradient: An Iteration Complexity Analysis [16.32678094159896]
強化学習(Reinforcement Learning, RL)は、様々なアプリケーションで例外的な性能を示している。リスクに敏感な政策勾配法は、期待されるリターンとリスク対策の両方を取り入れ、より堅牢な政策を得る能力について検討されてきた。本稿では,リスクに敏感なポリシー勾配法に対して,指数関数的効用関数を持つREINFORCEアルゴリズムに着目し,厳密な反復複雑性解析を行う。
論文参考訳（メタデータ） (2024-03-13T20:50:49Z)
Model-Based Epistemic Variance of Values for Risk-Aware Policy Optimization [59.758009422067]
モデルベース強化学習における累積報酬に対する不確実性を定量化する問題を考察する。我々は、解が値の真後分散に収束する新しい不確実性ベルマン方程式(UBE)を提案する。本稿では,リスク・サーキングとリスク・アバース・ポリシー最適化のいずれにも適用可能な汎用ポリシー最適化アルゴリズムQ-Uncertainty Soft Actor-Critic (QU-SAC)を導入する。
論文参考訳（メタデータ） (2023-12-07T15:55:58Z)
Is Risk-Sensitive Reinforcement Learning Properly Resolved? [54.00107408956307]
本稿では,RSRL問題に対するポリシー改善のための新しいアルゴリズムであるトラジェクトリQ-Learning(TQL)を提案する。新たな学習アーキテクチャに基づいて,さまざまなリスク対応政策を学習するための,さまざまなリスク対策の汎用的かつ実践的な実装を自由に導入できる。
論文参考訳（メタデータ） (2023-07-02T11:47:21Z)
RASR: Risk-Averse Soft-Robust MDPs with EVaR and Entropic Risk [28.811725782388688]
本研究では,有限水平および割引無限水平MDPにおける不確実性に関連するリスクを共同でモデル化する新しい枠組みを提案し,分析する。リスク回避をEVaRかエントロピーリスクのいずれかを用いて定義すると、RASRの最適ポリシーは時間依存型リスクレベルを持つ新しい動的プログラム定式化を用いて効率的に計算できることを示す。
論文参考訳（メタデータ） (2022-09-09T00:34:58Z)
Risk-Aware Linear Bandits: Theory and Applications in Smart Order Routing [10.69955834942979]
スマート・オーダー・ルーティング(SOR)におけるリスク・アウェア・バンディットの最適化について検討する。分散最小化グローバル最適化(G-Optimal)設計により、新しいインスタンス非依存型リスク意識探索-then-Commit(RISE)アルゴリズムとインスタンス依存型リスク意識継承排除(RISE++)アルゴリズムを提案する。
論文参考訳（メタデータ） (2022-08-04T00:21:10Z)
Deep Learning for Systemic Risk Measures [3.274367403737527]
本研究の目的は,システム的リスク対策のための新しい方法論の枠組みを検討することである。この新たな枠組みの下で、システム的リスク対策は、集約されたシステムを保護する最小限の現金として解釈できる。ディープラーニングは、金融モデリングやリスク管理においてますます注目を集めている。
論文参考訳（メタデータ） (2022-07-02T05:01:19Z)
Conditionally Elicitable Dynamic Risk Measures for Deep Reinforcement Learning [0.0]
我々は,ディープニューラルネットワークを用いた動的スペクトルリスク尺度のクラスを推定する効率的な手法を開発した。また,リスクに敏感なアクター・クリティック・アルゴリズムも開発しており,追加のネスト・トランジションを必要としない。
論文参考訳（メタデータ） (2022-06-29T14:11:15Z)
Efficient Risk-Averse Reinforcement Learning [79.61412643761034]
リスク逆強化学習(RL)では、リターンのリスク測定を最適化することが目標である。特定の条件下では、これは必然的に局所最適障壁につながることを証明し、それを回避するためのソフトリスク機構を提案する。迷路ナビゲーション,自律運転,資源配分ベンチマークにおいて,リスク回避の改善を示す。
論文参考訳（メタデータ） (2022-05-10T19:40:52Z)
TOPS: Transition-based VOlatility-controlled Policy Search and its Global Convergence [9.607937067646617]
本稿では,遷移型ボラティリティ制御ポリシサーチ(TOPS)を提案する。このアルゴリズムは、連続した軌道ではなく(おそらく非連続的な)遷移から学習することで、リスク-逆問題の解法である。理論的解析と実験結果の両方が、リスク・逆ポリシー探索手法の最先端レベルを示している。
論文参考訳（メタデータ） (2022-01-24T18:29:23Z)
Learning Sampling Policy for Faster Derivative Free Optimization [100.27518340593284]
ランダムサンプリングではなく,ZO最適化における摂動を生成するためのサンプリングポリシを学習する,新たな強化学習ベースのZOアルゴリズムを提案する。その結果,ZO-RLアルゴリズムはサンプリングポリシを学習することでZO勾配の分散を効果的に低減し,既存のZOアルゴリズムよりも高速に収束できることが示唆された。
論文参考訳（メタデータ） (2021-04-09T14:50:59Z)
A Regret Minimization Approach to Iterative Learning Control [61.37088759497583]
我々は、標準的な不確実性の仮定を最悪の場合の後悔に置き換える新しいパフォーマンスメトリック、計画後悔を提案します。提案アルゴリズムがいくつかのベンチマークで既存の手法よりも優れているという理論的および実証的な証拠を提供します。
論文参考訳（メタデータ） (2021-02-26T13:48:49Z)
Risk-Sensitive Deep RL: Variance-Constrained Actor-Critic Provably Finds Globally Optimal Policy [95.98698822755227]
本研究は,リスクに敏感な深層強化学習を,分散リスク基準による平均報酬条件下で研究する試みである。本稿では,ポリシー,ラグランジュ乗算器,フェンシェル双対変数を反復的かつ効率的に更新するアクタ批判アルゴリズムを提案する。
論文参考訳（メタデータ） (2020-12-28T05:02:26Z)
Risk-Sensitive Reinforcement Learning: Near-Optimal Risk-Sample Tradeoff in Regret [115.85354306623368]
本研究では,未知の遷移カーネルを持つマルコフ決定過程におけるリスク感応性強化学習について検討する。確率的に効率的なモデルレスアルゴリズムとして、リスク感性価値反復(RSVI)とリスク感性Q-ラーニング(RSQ)を提案する。 RSVIが $tildeObig(lambda(|beta| H2) cdot sqrtH3 S2AT big) に達したことを証明しています。
論文参考訳（メタデータ） (2020-06-22T19:28:26Z)
Reparameterized Variational Divergence Minimization for Stable Imitation [57.06909373038396]
確率的発散の選択における変動が、より高性能なILOアルゴリズムをもたらす可能性について検討する。本稿では,提案する$f$-divergence最小化フレームワークの課題を軽減するために,逆模倣学習のための再パラメータ化手法を提案する。経験的に、我々の設計選択は、ベースラインアプローチより優れ、低次元連続制御タスクにおける専門家のパフォーマンスとより密に適合するIOOアルゴリズムを許容することを示した。
論文参考訳（メタデータ） (2020-06-18T19:04:09Z)
Learning Bounds for Risk-sensitive Learning [86.50262971918276]
リスクに敏感な学習では、損失のリスク・アバース(またはリスク・シーキング)を最小化する仮説を見つけることを目的としている。最適化された確実性等価性によって最適性を記述するリスク感応学習スキームの一般化特性について検討する。
論文参考訳（メタデータ） (2020-06-15T05:25:02Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。