Fugu-MT 論文翻訳(概要): Softmax gradient policy for variance minimization and risk-averse multi armed bandits

論文の概要: Softmax gradient policy for variance minimization and risk-averse multi armed bandits

arxiv url: http://arxiv.org/abs/2604.00241v1
Date: Tue, 31 Mar 2026 21:08:14 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-02 16:44:31.724064
Title: Softmax gradient policy for variance minimization and risk-averse multi armed bandits
Title（参考訳）: 分散最小化とリスク回避のためのソフトマックス勾配ポリシー
Authors: Gabriel Turinici,
Abstract要約: マルチアーマド・バンドイット(MAB)問題に対するアルゴリズムについて検討する。我々は、低い分散度でアームを選択し、潜在的に高いが不確実なリターンよりも安定性を優先するリスクを意識した設定に焦点を当てる。本稿では,最小分散(最小リスク)アームを選択し,その収束性を自然条件下で証明するアルゴリズムを提案する。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Algorithms for the Multi-Armed Bandit (MAB) problem play a central role in sequential decision-making and have been extensively explored both theoretically and numerically. While most classical approaches aim to identify the arm with the highest expected reward, we focus on a risk-aware setting where the goal is to select the arm with the lowest variance, favoring stability over potentially high but uncertain returns. To model the decision process, we consider a softmax parameterization of the policy; we propose a new algorithm to select the minimal variance (or minimal risk) arm and prove its convergence under natural conditions. The algorithm constructs an unbiased estimate of the objective by using two independent draws from the current's arm distribution. We provide numerical experiments that illustrate the practical behavior of these algorithms and offer guidance on implementation choices. The setting also covers general risk-aware problems where there is a trade-off between maximizing the average reward and minimizing its variance.
Abstract（参考訳）: マルチアーマッド・バンディット(MAB)問題に対するアルゴリズムは、シーケンシャルな意思決定において中心的な役割を果たしており、理論的にも数値的にも広く研究されてきた。ほとんどの古典的なアプローチは、最も期待された報酬で腕を識別することを目的としていますが、我々は、最も低いばらつきで腕を選択することを目標とし、潜在的に高いが不確実なリターンよりも安定性を優先するリスク対応の設定に焦点を当てます。決定過程をモデル化するために、ポリシーのソフトマックスパラメータ化を検討し、最小分散(または最小リスク)アームを選択し、その収束を自然条件下で証明する新しいアルゴリズムを提案する。このアルゴリズムは、電流の腕分布から2つの独立したドローを用いることで、目標の偏りのない推定値を構成する。提案手法は,これらのアルゴリズムの実践的な動作を示す数値実験であり,実装選択に関するガイダンスを提供する。この設定はまた、平均報酬の最大化と分散の最小化の間にトレードオフがある一般的なリスク認識の問題もカバーしている。

関連論文リスト

Risk-sensitive Reinforcement Learning Based on Convex Scoring Functions [8.758206783988404]
コンベックススコアリング機能を特徴とする多種多様なリスク目標に基づく強化学習フレームワークを提案する。このクラスは、分散、期待不足、エントロピックなバリュー・アット・リスク、平均リスクユーティリティなど、多くの一般的なリスク対策をカバーしている。我々は,統計的仲裁取引における金融的応用によるシミュレーション実験におけるアプローチの有効性を検証し,アルゴリズムの有効性を実証する。
論文参考訳（メタデータ） (2025-05-07T16:31:42Z)
Best Arm Identification with Fixed Budget: A Large Deviation Perspective [54.305323903582845]
我々は、様々な武器の報酬間の経験的ギャップに基づいて、あらゆるラウンドで腕を拒絶できる真に適応的なアルゴリズムであるsredを提示する。特に、様々な武器の報酬の間の経験的ギャップに基づいて、あらゆるラウンドで腕を拒絶できる真に適応的なアルゴリズムであるsredを提示する。
論文参考訳（メタデータ） (2023-12-19T13:17:43Z)
Model-Based Epistemic Variance of Values for Risk-Aware Policy Optimization [59.758009422067]
モデルベース強化学習における累積報酬に対する不確実性を定量化する問題を考察する。我々は、解が値の真後分散に収束する新しい不確実性ベルマン方程式(UBE)を提案する。本稿では,リスク・サーキングとリスク・アバース・ポリシー最適化のいずれにも適用可能な汎用ポリシー最適化アルゴリズムQ-Uncertainty Soft Actor-Critic (QU-SAC)を導入する。
論文参考訳（メタデータ） (2023-12-07T15:55:58Z)
Mean-Semivariance Policy Optimization via Risk-Averse Reinforcement Learning [12.022303947412917]
本稿では,強化学習における平均半変量基準の最適化を目的とした。我々は,政策依存型報酬関数を用いて一連のRL問題を反復的に解くことで,MSV問題を解くことができることを明らかにした。政策勾配理論と信頼領域法に基づく2つのオンラインアルゴリズムを提案する。
論文参考訳（メタデータ） (2022-06-15T08:32:53Z)
Risk-Sensitive Deep RL: Variance-Constrained Actor-Critic Provably Finds Globally Optimal Policy [95.98698822755227]
本研究は,リスクに敏感な深層強化学習を,分散リスク基準による平均報酬条件下で研究する試みである。本稿では,ポリシー,ラグランジュ乗算器,フェンシェル双対変数を反復的かつ効率的に更新するアクタ批判アルゴリズムを提案する。
論文参考訳（メタデータ） (2020-12-28T05:02:26Z)
Constrained regret minimization for multi-criterion multi-armed bandits [5.349852254138086]
リスク制約を条件として,所与の時間的地平線上での後悔の最小化の問題について検討する。本稿では,対数的後悔を保証するリスク制約付き低信頼境界アルゴリズムを提案する。我々は,リスク制約付き後悔最小化アルゴリズムの性能に低い限界を証明した。
論文参考訳（メタデータ） (2020-06-17T04:23:18Z)
Thompson Sampling Algorithms for Mean-Variance Bandits [97.43678751629189]
我々は平均分散MABのためのトンプソンサンプリング型アルゴリズムを開発した。我々はまた、ガウシアンとベルヌーイの盗賊に対する包括的後悔の分析も提供する。我々のアルゴリズムは、全てのリスク許容度に対して既存のLCBベースのアルゴリズムを著しく上回っている。
論文参考訳（メタデータ） (2020-02-01T15:33:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。