Fugu-MT 論文翻訳(概要): Price of Safety in Linear Best Arm Identification

論文の概要: Price of Safety in Linear Best Arm Identification

arxiv url: http://arxiv.org/abs/2309.08709v1
Date: Fri, 15 Sep 2023 19:01:21 GMT
ステータス: 翻訳完了
システム内更新日: 2023-09-19 19:53:59.231814
Title: Price of Safety in Linear Best Arm Identification
Title（参考訳）: リニアベストアーム識別における安全価格
Authors: Xuedong Shang and Igor Colin and Merwan Barlier and Hamza Cherkaoui
Abstract要約: 線形フィードバックを用いた安全ベストアーム識別フレームワークを提案する。エージェントは、未知のパラメータベクトルに線形に依存する段階的な安全制約を受ける。本稿では,段階的安全性を確保しつつ,有意義なサンプル複雑性を実現するギャップベースアルゴリズムを提案する。
参考スコア（独自算出の注目度）: 6.82469220191368
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We introduce the safe best-arm identification framework with linear feedback, where the agent is subject to some stage-wise safety constraint that linearly depends on an unknown parameter vector. The agent must take actions in a conservative way so as to ensure that the safety constraint is not violated with high probability at each round. Ways of leveraging the linear structure for ensuring safety has been studied for regret minimization, but not for best-arm identification to the best our knowledge. We propose a gap-based algorithm that achieves meaningful sample complexity while ensuring the stage-wise safety. We show that we pay an extra term in the sample complexity due to the forced exploration phase incurred by the additional safety constraint. Experimental illustrations are provided to justify the design of our algorithm.
Abstract（参考訳）: 安全ベストアーム識別フレームワークを線形フィードバックで導入し、エージェントは未知のパラメータベクトルに線形に依存する段階的な安全制約を受ける。エージェントは、各ラウンドにおいて高い確率で安全制約に違反しないように、保守的な方法で行動しなければならない。安全性を確保するために線形構造を活用する方法は、後悔の最小化のために研究されてきたが、私たちの知識を最大限に活用するための最高の武器識別には向いていない。本稿では,段階的安全性を確保しつつ,有意義なサンプル複雑性を実現するギャップベースアルゴリズムを提案する。我々は,追加の安全性制約によって引き起こされる強制探査フェーズにより,サンプルの複雑さに余分な期間を支払っていることを示す。提案アルゴリズムの設計を正当化するための実験図面が提供される。

関連論文リスト

Advancing Neural Network Verification through Hierarchical Safety Abstract Interpretation [52.626086874715284]
我々は、安全でない出力の階層構造を検証する抽象的DNN検証と呼ばれる新しい問題定式化を導入する。出力到達可能な集合に関する抽象的解釈と推論を活用することにより,形式的検証プロセスにおいて,複数の安全性レベルを評価することができる。我々の貢献には、新しい抽象的安全性の定式化と既存のアプローチとの関係を理論的に探求することが含まれる。
論文参考訳（メタデータ） (2025-05-08T13:29:46Z)
TraCeS: Trajectory Based Credit Assignment From Sparse Safety Feedback [15.904640266226023]
安全強化学習(RL)では、エージェントを安全な意思決定に合わせるために補助的な安全コストが使用される。実際には、コスト関数や予算を含む安全性の制約は、不明または特定が難しい。我々は、真の安全定義が不明な一般的な設定に対処し、少ないラベル付きデータから学ぶ必要がある。
論文参考訳（メタデータ） (2025-04-17T01:11:08Z)
Probabilistic Shielding for Safe Reinforcement Learning [51.35559820893218]
現実のシナリオでは、強化学習(RL)エージェントはトレーニング時間を含む安全な振る舞いをしなければならない。我々は,Safe RLの厳密な保証を享受する,スケーラブルな新しい手法を提案する。当社のアプローチは、トレーニングやテスト時にエージェントが安全であることを保証する厳格な公式な安全保証を提供する。
論文参考訳（メタデータ） (2025-03-09T17:54:33Z)
Revisiting Safe Exploration in Safe Reinforcement learning [0.098314893665023]
我々は,トレーニング中の安全性に対処する新しい測定基準であるEMCCを導入する。 EMCCは特に長期の安全違反と時折の安全違反の区別に有効である。本稿では,アルゴリズム設計のための高速な評価を可能にする,新しい軽量なベンチマークタスクを提案する。
論文参考訳（メタデータ） (2024-09-02T13:29:29Z)
Nothing in Excess: Mitigating the Exaggerated Safety for LLMs via Safety-Conscious Activation Steering [56.92068213969036]
重大言語モデル(LLM)が悪意のある命令から脅威を守るためには、安全性の調整が不可欠である。近年の研究では、過大な安全性の問題により、安全性に配慮したLCMは、良質な問い合わせを拒否する傾向にあることが明らかになっている。過大な安全性の懸念を和らげるために,SCANS法を提案する。
論文参考訳（メタデータ） (2024-08-21T10:01:34Z)
Safeguarded Progress in Reinforcement Learning: Safe Bayesian Exploration for Control Policy Synthesis [63.532413807686524]
本稿では、強化学習(RL)におけるトレーニング中の安全維持の問題に対処する。探索中の効率的な進捗と安全性のトレードオフを扱う新しいアーキテクチャを提案する。
論文参考訳（メタデータ） (2023-12-18T16:09:43Z)
Distributionally Safe Reinforcement Learning under Model Uncertainty: A Single-Level Approach by Differentiable Convex Programming [4.825619788907192]
We present a tractable distributionally safe reinforcement learning framework to enforce safety under a distributional shift by a Wasserstein metric。トラクタビリティを向上させるために、まず双対性理論を用いて、低次最適化を無限次元確率空間から有限次元パラメトリック空間に変換する。微分可能凸プログラミングにより、二段階安全な学習問題は、さらに2つの逐次計算効率のモジュールを持つ1つのレベルに削減される。
論文参考訳（メタデータ） (2023-10-03T22:05:05Z)
Safety Margins for Reinforcement Learning [53.10194953873209]
安全マージンを生成するためにプロキシ臨界度メトリクスをどのように活用するかを示す。 Atari 環境での APE-X と A3C からの学習方針に対するアプローチを評価する。
論文参考訳（メタデータ） (2023-07-25T16:49:54Z)
Enforcing Hard Constraints with Soft Barriers: Safe Reinforcement Learning in Unknown Stochastic Environments [84.3830478851369]
本研究では,環境を協調的に学習し,制御ポリシーを最適化する安全な強化学習手法を提案する。本手法は, 安全性の制約を効果的に適用し, シミュレーションにより測定したシステム安全率においてCMDPベースのベースライン法を著しく上回っている。
論文参考訳（メタデータ） (2022-09-29T20:49:25Z)
Log Barriers for Safe Black-box Optimization with Application to Safe Reinforcement Learning [72.97229770329214]
本稿では,学習時の安全性維持が不可欠である高次元非線形最適化問題に対する一般的なアプローチを提案する。 LBSGDと呼ばれるアプローチは、慎重に選択されたステップサイズで対数障壁近似を適用することに基づいている。安全強化学習における政策課題の違反を最小限に抑えるためのアプローチの有効性を実証する。
論文参考訳（メタデータ） (2022-07-21T11:14:47Z)
Best Arm Identification with Safety Constraints [3.7783523378336112]
マルチアームバンディット設定における最高の腕識別問題は、多くの実世界の意思決定問題の優れたモデルである。安全クリティカルな環境でのベストアーム識別の課題について検討し、エージェントのゴールは、最も安全な選択肢を見つけることである。本手法では,安全な学習が保証されるアルゴリズムを提案する。
論文参考訳（メタデータ） (2021-11-23T20:53:12Z)
Learning to Act Safely with Limited Exposure and Almost Sure Certainty [1.0323063834827415]
本稿では,未知の環境における安全な行動を取るための学習を,探索試験を必要とせずに実現できるという考えを提唱する。本稿では,まず標準的マルチアームバンディット問題に着目し,不確実性の存在下での学習安全性の本質的なトレードオフについて検討する。
論文参考訳（メタデータ） (2021-05-18T18:05:12Z)
Context-Aware Safe Reinforcement Learning for Non-Stationary Environments [24.75527261989899]
現実的なタスクのために強化学習エージェントを展開する場合、安全は重要な問題である。非定常環境における安全な適応を実現するために,文脈認識型安全強化学習法(CASRL)を提案する。提案アルゴリズムは,安全性とロバスト性の観点から,既存のベースラインを著しく上回ることを示す。
論文参考訳（メタデータ） (2021-01-02T23:52:22Z)
Optimal Best-arm Identification in Linear Bandits [79.3239137440876]
サンプルの複雑さが既知のインスタンス固有の下界と一致する単純なアルゴリズムを考案する。既存のベストアーム識別戦略とは異なり、我々のアルゴリズムは武器の数に依存しない停止規則を用いる。
論文参考訳（メタデータ） (2020-06-29T14:25:51Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。