論文の概要: Risk-Averse Best Arm Set Identification with Fixed Budget and Fixed Confidence
- arxiv url: http://arxiv.org/abs/2506.22253v1
- Date: Fri, 27 Jun 2025 14:21:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-30 21:12:23.231551
- Title: Risk-Averse Best Arm Set Identification with Fixed Budget and Fixed Confidence
- Title(参考訳): 固定予算と固定信頼を用いたリスク回避型ベストアームセット同定
- Authors: Shunta Nonaga, Koji Tabata, Yuta Mizuno, Tamiki Komatsuzaki,
- Abstract要約: 本稿では,期待報酬の最大化と関連する不確実性の最小化に対処するバンディット最適化における新たな問題設定を提案する。
固定信頼と固定最適体制の両方の下で動作可能な統一的メタ予算ゴリトミックフレームワークを提案する。
提案手法は,精度と試料効率の両面で既存手法より優れている。
- 参考スコア(独自算出の注目度): 0.562479170374811
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Decision making under uncertain environments in the maximization of expected reward while minimizing its risk is one of the ubiquitous problems in many subjects. Here, we introduce a novel problem setting in stochastic bandit optimization that jointly addresses two critical aspects of decision-making: maximizing expected reward and minimizing associated uncertainty, quantified via the mean-variance(MV) criterion. Unlike traditional bandit formulations that focus solely on expected returns, our objective is to efficiently and accurately identify the Pareto-optimal set of arms that strikes the best trade-off between expected performance and risk. We propose a unified meta-algorithmic framework capable of operating under both fixed-confidence and fixed-budget regimes, achieved through adaptive design of confidence intervals tailored to each scenario using the same sample exploration strategy. We provide theoretical guarantees on the correctness of the returned solutions in both settings. To complement this theoretical analysis, we conduct extensive empirical evaluations across synthetic benchmarks, demonstrating that our approach outperforms existing methods in terms of both accuracy and sample efficiency, highlighting its broad applicability to risk-aware decision-making tasks in uncertain environments.
- Abstract(参考訳): リスクを最小化しながら、期待される報酬の最大化において、不確実な環境下での意思決定は、多くの主題においてユビキタスな問題の1つである。
本稿では,確率的バンディット最適化において,期待される報酬の最大化と関連する不確実性の最小化という,意思決定の2つの重要な側面に共同で対処する新たな問題設定を提案する。
期待されるリターンのみに焦点を当てた従来のバンディットの定式化とは異なり、我々の目標は、期待されるパフォーマンスとリスクの最良のトレードオフを打つパレート最適の武器の集合を効率的かつ正確に識別することである。
我々は,同一のサンプル探索戦略を用いて,各シナリオに適合した信頼区間を適応設計することで,固定信頼と固定予算の両体制の下で動作可能な統一メタアルゴリズムフレームワークを提案する。
両設定で返却された解の正しさを理論的に保証する。
この理論解析を補完するため,我々は,提案手法が既存の手法よりも精度とサンプル効率の両面において優れており,不確実な環境下でのリスク認識意思決定タスクに広く適用可能であることを実証した。
関連論文リスト
- Robust Satisficing Gaussian Process Bandits Under Adversarial Attacks [7.701333337093469]
そこでは、敵条件下であっても、事前に定義された性能閾値$tau$を一貫して達成することが目標である。
本稿では,頑健な充足の異なる定式化に基づく2つの新しいアルゴリズムを提案し,それらが一般的な頑健な充足フレームワークの例であることを示す。
具体的には、2つの残念な境界を導き出す: 1つは、敵の特定の条件と満足しきい値$tau$を仮定し、もう1つは摂動の規模でスケールするが、敵の仮定を必要としない。
論文 参考訳(メタデータ) (2025-06-02T13:04:18Z) - Bounded Rationality for LLMs: Satisficing Alignment at Inference-Time [52.230936493691985]
本稿では,2次基準のしきい値に基づく制約を満たしつつ,主目的を最大化し,アライメントの多面性に対処する推論フレームワークSITAlignを提案する。
我々は、満足度に基づく推論アライメントアプローチの準最適境界を導出することで理論的洞察を提供する。
論文 参考訳(メタデータ) (2025-05-29T17:56:05Z) - An Optimisation Framework for Unsupervised Environment Design [88.29733214939544]
非教師なし環境設計(UED)は、エージェントの全般的な堅牢性を最大化することを目的としている。
ゼロサム設定において、証明可能な収束アルゴリズムを提供する。
提案手法の有効性を実証的に検証する。
論文 参考訳(メタデータ) (2025-05-27T03:07:26Z) - SConU: Selective Conformal Uncertainty in Large Language Models [59.25881667640868]
SconU(Selective Conformal Uncertainity)と呼ばれる新しいアプローチを提案する。
我々は,特定の管理可能なリスクレベルで設定されたキャリブレーションの不確実性分布から,与えられたサンプルが逸脱するかどうかを決定するのに役立つ2つの共形p値を開発する。
我々のアプローチは、単一ドメインと学際的コンテキストの両方にわたる誤発見率の厳密な管理を促進するだけでなく、予測の効率を高める。
論文 参考訳(メタデータ) (2025-04-19T03:01:45Z) - End-to-end Conditional Robust Optimization [6.363653898208231]
条件付きロバスト最適化(CRO)は、不確実な定量化と堅牢な最適化を組み合わせることで、高利得アプリケーションの安全性と信頼性を促進する。
本稿では,CROモデルの学習方法として,所定の決定の実証的リスクと,それをサポートする文脈不確実性セットの条件付きカバレッジの質の両方を考慮に入れた,新しいエンドツーエンドアプローチを提案する。
提案したトレーニングアルゴリズムは,従来の推定値を上回って,アプローチを最適化する決定を生成する。
論文 参考訳(メタデータ) (2024-03-07T17:16:59Z) - Model-Based Epistemic Variance of Values for Risk-Aware Policy Optimization [59.758009422067]
モデルベース強化学習における累積報酬に対する不確実性を定量化する問題を考察する。
我々は、解が値の真後分散に収束する新しい不確実性ベルマン方程式(UBE)を提案する。
本稿では,リスク・サーキングとリスク・アバース・ポリシー最適化のいずれにも適用可能な汎用ポリシー最適化アルゴリズムQ-Uncertainty Soft Actor-Critic (QU-SAC)を導入する。
論文 参考訳(メタデータ) (2023-12-07T15:55:58Z) - Federated Distributionally Robust Optimization with Non-Convex
Objectives: Algorithm and Analysis [24.64654924173679]
Asynchronous Single-looP alternatIve gRadient projEction という非同期分散アルゴリズムを提案する。
新しい不確実性集合、すなわち制約付きD-ノルムの不確実性集合は、以前の分布を利用し、強靭性の度合いを柔軟に制御するために開発される。
実世界のデータセットに関する実証研究は、提案手法が高速収束を達成できるだけでなく、悪意のある攻撃だけでなく、データに対する堅牢性も維持できることを示した。
論文 参考訳(メタデータ) (2023-07-25T01:56:57Z) - A Distribution Optimization Framework for Confidence Bounds of Risk
Measures [23.46659319363579]
本稿では,従来の手法と比較して,各種リスク対策の信頼性境界を大幅に改善する分布最適化フレームワークを提案する。
本フレームワークは, エントロピーリスク尺度, CVaR, スペクトルリスク尺度, 歪みリスク尺度, 等価確実性, ランク依存予測ユーティリティなどの一般的なリスク尺度を含む。
論文 参考訳(メタデータ) (2023-06-12T12:13:06Z) - Distributed Distributionally Robust Optimization with Non-Convex
Objectives [24.64654924173679]
Asynchronous Single-looP alternatIve gRadient projEction という非同期分散アルゴリズムを提案する。
新しい不確実性集合、すなわち制約付きD-ノルムの不確実性集合は、以前の分布を利用し、強靭性の度合いを柔軟に制御するために開発される。
実世界のデータセットに関する実証研究は、提案手法が高速収束を達成できるだけでなく、悪意のある攻撃だけでなく、データに対する堅牢性も維持できることを示した。
論文 参考訳(メタデータ) (2022-10-14T07:39:13Z) - Learning Bounds for Risk-sensitive Learning [86.50262971918276]
リスクに敏感な学習では、損失のリスク・アバース(またはリスク・シーキング)を最小化する仮説を見つけることを目的としている。
最適化された確実性等価性によって最適性を記述するリスク感応学習スキームの一般化特性について検討する。
論文 参考訳(メタデータ) (2020-06-15T05:25:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。