Fugu-MT 論文翻訳(概要): Conditionally Risk-Averse Contextual Bandits

論文の概要: Conditionally Risk-Averse Contextual Bandits

arxiv url: http://arxiv.org/abs/2210.13573v2
Date: Sat, 8 Jul 2023 15:33:53 GMT
ステータス: 翻訳完了
システム内更新日: 2023-07-11 19:14:45.652274
Title: Conditionally Risk-Averse Contextual Bandits
Title（参考訳）: 条件付きリスク-逆コンテキスト帯域
Authors: M\'onika Farsang and Paul Mineiro and Wangda Zhang
Abstract要約: 平均ケース統計保証付きコンテキスト帯域は、リスク逆の状況では不十分である。提案手法は,オンライン後悔の保証を施した最初のリスク-逆文脈的帯域幅アルゴリズムである。最悪の結果を避けるべきさまざまなシナリオから実験を行う。
参考スコア（独自算出の注目度）: 8.894935073145252
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Contextual bandits with average-case statistical guarantees are inadequate in risk-averse situations because they might trade off degraded worst-case behaviour for better average performance. Designing a risk-averse contextual bandit is challenging because exploration is necessary but risk-aversion is sensitive to the entire distribution of rewards; nonetheless we exhibit the first risk-averse contextual bandit algorithm with an online regret guarantee. We conduct experiments from diverse scenarios where worst-case outcomes should be avoided, from dynamic pricing, inventory management, and self-tuning software; including a production exascale data processing system.
Abstract（参考訳）: 平均ケースの統計的保証を持つ文脈的帯域幅は、劣化した最悪のケースの振る舞いをトレードオフして平均パフォーマンスを向上させるため、リスク回避の状況では不十分である。リスク・アバース・コンテキスト・バンディットを設計することは、探索が不可欠であるが、リスク・アバース・バンディットは報酬の分布全体に敏感であるため困難である。動的な価格設定、在庫管理、セルフチューニングソフトウェアなど、最悪の結果を避けるべきさまざまなシナリオで実験を行い、本番のエクサスケールデータ処理システムを含む。

関連論文リスト

Beyond Safe Answers: A Benchmark for Evaluating True Risk Awareness in Large Reasoning Models [29.569220030102986]
textbfBeyond Safe Answers (BSA) ベンチは,3つの異なるSSAシナリオタイプに構成された2,000のチャレンジインスタンスからなる,新しいベンチマークである。 19の最先端のLEMの評価では、このベンチマークの難しさが示され、最高性能のモデルはリスクの合理性を正確に識別する上で、わずか38.0%の精度しか達成していない。我々の研究は、LEMの安全性推論の忠実さを評価し改善するための総合的な評価ツールを提供し、真にリスクを意識し、確実に安全なAIシステムの開発を進める。
論文参考訳（メタデータ） (2025-05-26T08:49:19Z)
Data-driven decision-making under uncertainty with entropic risk measure [5.407319151576265]
エントロピーリスク尺度は、不確実な損失に関連する尾のリスクを考慮に入れた高い意思決定に広く用いられている。経験的エントロピーリスク推定器を劣化させるため, 強く一貫したブートストラップ手法を提案する。検証性能のバイアスが補正されない場合,クロスバリデーション手法は,保険業者のアウト・オブ・サンプルリスクを著しく高める可能性があることを示す。
論文参考訳（メタデータ） (2024-09-30T04:02:52Z)
Data-Adaptive Tradeoffs among Multiple Risks in Distribution-Free Prediction [55.77015419028725]
しきい値とトレードオフパラメータが適応的に選択された場合、リスクの有効な制御を可能にする手法を開発する。提案手法は単調なリスクとほぼ単調なリスクをサポートするが,それ以外は分布的な仮定はしない。
論文参考訳（メタデータ） (2024-03-28T17:28:06Z)
SafeAR: Safe Algorithmic Recourse by Risk-Aware Policies [2.291948092032746]
本稿では,コストの変動を考慮したレコメンデーションポリシーの計算手法を提案する。我々は,既存のデシダラタが高コストのリスクを捕捉できないことを示す。
論文参考訳（メタデータ） (2023-08-23T18:12:11Z)
A Survey of Risk-Aware Multi-Armed Bandits [84.67376599822569]
我々は、様々な利害リスク対策をレビューし、その特性についてコメントする。我々は,探索と探索のトレードオフが現れる,後悔の最小化設定のためのアルゴリズムを検討する。今後の研究の課題と肥大化についてコメントし、締めくくりに締めくくります。
論文参考訳（メタデータ） (2022-05-12T02:20:34Z)
Efficient Risk-Averse Reinforcement Learning [79.61412643761034]
リスク逆強化学習(RL)では、リターンのリスク測定を最適化することが目標である。特定の条件下では、これは必然的に局所最適障壁につながることを証明し、それを回避するためのソフトリスク機構を提案する。迷路ナビゲーション,自律運転,資源配分ベンチマークにおいて,リスク回避の改善を示す。
論文参考訳（メタデータ） (2022-05-10T19:40:52Z)
Risk-Constrained Thompson Sampling for CVaR Bandits [82.47796318548306]
CVaR(Conditional Value at Risk)として知られる量的ファイナンスにおける一般的なリスク尺度について考察する。本稿では,トンプソンサンプリングに基づくCVaR-TSアルゴリズムの性能について検討する。
論文参考訳（メタデータ） (2020-11-16T15:53:22Z)
Near-Optimal MNL Bandits Under Risk Criteria [13.251377915797674]
リスク基準の下で,従来のマルチアームバンディット問題の変種であるMNLバンディットについて検討した。リスク基準は広く, 既知条件付きリスク, シャープ比, エントロピーリスクに限られるが, ほぼ最適の後悔を被ることを示すアルゴリズムを設計する。
論文参考訳（メタデータ） (2020-09-26T03:24:40Z)
Learning Bounds for Risk-sensitive Learning [86.50262971918276]
リスクに敏感な学習では、損失のリスク・アバース(またはリスク・シーキング)を最小化する仮説を見つけることを目的としている。最適化された確実性等価性によって最適性を記述するリスク感応学習スキームの一般化特性について検討する。
論文参考訳（メタデータ） (2020-06-15T05:25:02Z)
Robustness Guarantees for Mode Estimation with an Application to Bandits [131.21717367564963]
平均ではなく報酬分布のモードを値とするマルチアームバンディットの理論を導入する。我々は,我々のアルゴリズムが逆雑音列による腕の摂動に頑健であることを示すシミュレーションで示す。
論文参考訳（メタデータ） (2020-03-05T21:29:27Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。