論文の概要: Price of Safety in Linear Best Arm Identification
- arxiv url: http://arxiv.org/abs/2309.08709v1
- Date: Fri, 15 Sep 2023 19:01:21 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-19 19:53:59.231814
- Title: Price of Safety in Linear Best Arm Identification
- Title(参考訳): リニアベストアーム識別における安全価格
- Authors: Xuedong Shang and Igor Colin and Merwan Barlier and Hamza Cherkaoui
- Abstract要約: 線形フィードバックを用いた安全ベストアーム識別フレームワークを提案する。
エージェントは、未知のパラメータベクトルに線形に依存する段階的な安全制約を受ける。
本稿では,段階的安全性を確保しつつ,有意義なサンプル複雑性を実現するギャップベースアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 6.82469220191368
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce the safe best-arm identification framework with linear feedback,
where the agent is subject to some stage-wise safety constraint that linearly
depends on an unknown parameter vector. The agent must take actions in a
conservative way so as to ensure that the safety constraint is not violated
with high probability at each round. Ways of leveraging the linear structure
for ensuring safety has been studied for regret minimization, but not for
best-arm identification to the best our knowledge. We propose a gap-based
algorithm that achieves meaningful sample complexity while ensuring the
stage-wise safety. We show that we pay an extra term in the sample complexity
due to the forced exploration phase incurred by the additional safety
constraint. Experimental illustrations are provided to justify the design of
our algorithm.
- Abstract(参考訳): 安全ベストアーム識別フレームワークを線形フィードバックで導入し、エージェントは未知のパラメータベクトルに線形に依存する段階的な安全制約を受ける。
エージェントは、各ラウンドにおいて高い確率で安全制約に違反しないように、保守的な方法で行動しなければならない。
安全性を確保するために線形構造を活用する方法は、後悔の最小化のために研究されてきたが、私たちの知識を最大限に活用するための最高の武器識別には向いていない。
本稿では,段階的安全性を確保しつつ,有意義なサンプル複雑性を実現するギャップベースアルゴリズムを提案する。
我々は,追加の安全性制約によって引き起こされる強制探査フェーズにより,サンプルの複雑さに余分な期間を支払っていることを示す。
提案アルゴリズムの設計を正当化するための実験図面が提供される。
関連論文リスト
- Revisiting Safe Exploration in Safe Reinforcement learning [0.098314893665023]
我々は,トレーニング中の安全性に対処する新しい測定基準であるEMCCを導入する。
EMCCは特に長期の安全違反と時折の安全違反の区別に有効である。
本稿では,アルゴリズム設計のための高速な評価を可能にする,新しい軽量なベンチマークタスクを提案する。
論文 参考訳(メタデータ) (2024-09-02T13:29:29Z) - Nothing in Excess: Mitigating the Exaggerated Safety for LLMs via Safety-Conscious Activation Steering [56.92068213969036]
重大言語モデル(LLM)が悪意のある命令から脅威を守るためには、安全性の調整が不可欠である。
近年の研究では、過大な安全性の問題により、安全性に配慮したLCMは、良質な問い合わせを拒否する傾向にあることが明らかになっている。
過大な安全性の懸念を和らげるために,SCANS法を提案する。
論文 参考訳(メタデータ) (2024-08-21T10:01:34Z) - Safeguarded Progress in Reinforcement Learning: Safe Bayesian
Exploration for Control Policy Synthesis [63.532413807686524]
本稿では、強化学習(RL)におけるトレーニング中の安全維持の問題に対処する。
探索中の効率的な進捗と安全性のトレードオフを扱う新しいアーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-12-18T16:09:43Z) - Distributionally Safe Reinforcement Learning under Model Uncertainty: A
Single-Level Approach by Differentiable Convex Programming [4.825619788907192]
We present a tractable distributionally safe reinforcement learning framework to enforce safety under a distributional shift by a Wasserstein metric。
トラクタビリティを向上させるために、まず双対性理論を用いて、低次最適化を無限次元確率空間から有限次元パラメトリック空間に変換する。
微分可能凸プログラミングにより、二段階安全な学習問題は、さらに2つの逐次計算効率のモジュールを持つ1つのレベルに削減される。
論文 参考訳(メタデータ) (2023-10-03T22:05:05Z) - Safety Margins for Reinforcement Learning [53.10194953873209]
安全マージンを生成するためにプロキシ臨界度メトリクスをどのように活用するかを示す。
Atari 環境での APE-X と A3C からの学習方針に対するアプローチを評価する。
論文 参考訳(メタデータ) (2023-07-25T16:49:54Z) - Enforcing Hard Constraints with Soft Barriers: Safe Reinforcement
Learning in Unknown Stochastic Environments [84.3830478851369]
本研究では,環境を協調的に学習し,制御ポリシーを最適化する安全な強化学習手法を提案する。
本手法は, 安全性の制約を効果的に適用し, シミュレーションにより測定したシステム安全率においてCMDPベースのベースライン法を著しく上回っている。
論文 参考訳(メタデータ) (2022-09-29T20:49:25Z) - Log Barriers for Safe Black-box Optimization with Application to Safe
Reinforcement Learning [72.97229770329214]
本稿では,学習時の安全性維持が不可欠である高次元非線形最適化問題に対する一般的なアプローチを提案する。
LBSGDと呼ばれるアプローチは、慎重に選択されたステップサイズで対数障壁近似を適用することに基づいている。
安全強化学習における政策課題の違反を最小限に抑えるためのアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2022-07-21T11:14:47Z) - Best Arm Identification with Safety Constraints [3.7783523378336112]
マルチアームバンディット設定における最高の腕識別問題は、多くの実世界の意思決定問題の優れたモデルである。
安全クリティカルな環境でのベストアーム識別の課題について検討し、エージェントのゴールは、最も安全な選択肢を見つけることである。
本手法では,安全な学習が保証されるアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-11-23T20:53:12Z) - Learning to Act Safely with Limited Exposure and Almost Sure Certainty [1.0323063834827415]
本稿では,未知の環境における安全な行動を取るための学習を,探索試験を必要とせずに実現できるという考えを提唱する。
本稿では,まず標準的マルチアームバンディット問題に着目し,不確実性の存在下での学習安全性の本質的なトレードオフについて検討する。
論文 参考訳(メタデータ) (2021-05-18T18:05:12Z) - Context-Aware Safe Reinforcement Learning for Non-Stationary
Environments [24.75527261989899]
現実的なタスクのために強化学習エージェントを展開する場合、安全は重要な問題である。
非定常環境における安全な適応を実現するために,文脈認識型安全強化学習法(CASRL)を提案する。
提案アルゴリズムは,安全性とロバスト性の観点から,既存のベースラインを著しく上回ることを示す。
論文 参考訳(メタデータ) (2021-01-02T23:52:22Z) - Optimal Best-arm Identification in Linear Bandits [79.3239137440876]
サンプルの複雑さが既知のインスタンス固有の下界と一致する単純なアルゴリズムを考案する。
既存のベストアーム識別戦略とは異なり、我々のアルゴリズムは武器の数に依存しない停止規則を用いる。
論文 参考訳(メタデータ) (2020-06-29T14:25:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。