論文の概要: Risk-Aware Continuous Control with Neural Contextual Bandits
- arxiv url: http://arxiv.org/abs/2312.09961v1
- Date: Fri, 15 Dec 2023 17:16:04 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-18 14:58:09.141993
- Title: Risk-Aware Continuous Control with Neural Contextual Bandits
- Title(参考訳): ニューラルネットワークを用いたリスク対応連続制御
- Authors: Jose A. Ayala-Romero, Andres Garcia-Saavedra, Xavier Costa-Perez
- Abstract要約: 本稿では,コンテキスト的盗聴問題に対するリスク認識型意思決定フレームワークを提案する。
私たちのフレームワークは、さまざまなリスクレベルに対応し、パフォーマンスに対する制約満足度を効果的にバランスするように設計されています。
5Gモバイルネットワークを含む実世界のユースケースで,我々のフレームワークを評価した。
- 参考スコア(独自算出の注目度): 8.911816419902427
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in learning techniques have garnered attention for their
applicability to a diverse range of real-world sequential decision-making
problems. Yet, many practical applications have critical constraints for
operation in real environments. Most learning solutions often neglect the risk
of failing to meet these constraints, hindering their implementation in
real-world contexts. In this paper, we propose a risk-aware decision-making
framework for contextual bandit problems, accommodating constraints and
continuous action spaces. Our approach employs an actor multi-critic
architecture, with each critic characterizing the distribution of performance
and constraint metrics. Our framework is designed to cater to various risk
levels, effectively balancing constraint satisfaction against performance. To
demonstrate the effectiveness of our approach, we first compare it against
state-of-the-art baseline methods in a synthetic environment, highlighting the
impact of intrinsic environmental noise across different risk configurations.
Finally, we evaluate our framework in a real-world use case involving a 5G
mobile network where only our approach consistently satisfies the system
constraint (a signal processing reliability target) with a small performance
toll (8.5% increase in power consumption).
- Abstract(参考訳): 近年の学習技術の進歩は、様々な現実世界の逐次的意思決定問題への適用性に注目が集まっている。
しかし、現実の環境での運用には重要な制約がある。
ほとんどの学習ソリューションは、しばしばこれらの制約を満たさないリスクを無視し、現実世界の文脈での実装を妨げる。
本稿では,コンテキスト的バンディット問題,制約の緩和,継続的な行動空間に対するリスク認識型意思決定フレームワークを提案する。
このアプローチでは,アクタのマルチクリティックアーキテクチャを採用し,各批評家がパフォーマンス分布と制約メトリクスを特徴付ける。
私たちのフレームワークは、さまざまなリスクレベルに対応し、パフォーマンスに対する制約満足度を効果的にバランスするように設計されています。
本手法の有効性を示すために,本手法を合成環境における最先端のベースライン手法と比較し,様々なリスク構成における内在的環境騒音の影響を明らかにした。
最後に,本手法がシステム制約(信号処理信頼性目標)を一貫して満たし,少ない性能(消費電力の8.5%増加)でシステム制約を満たしている5gモバイルネットワークを含む実世界のユースケースにおいて,このフレームワークを評価した。
関連論文リスト
- A CMDP-within-online framework for Meta-Safe Reinforcement Learning [23.57318558833378]
CMDP-within-onlineフレームワークを用いたメタセーフ強化学習(Meta-SRL)の課題について検討する。
我々は,勾配に基づくメタ学習を用いて,目に見えない(最適性ギャップ)と制約違反に対する平均的後悔境界を求める。
本稿では,タスク内最適性ギャップと制約違反の上限において,不正確なオンライン学習を行うメタアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-05-26T15:28:42Z) - Uniformly Safe RL with Objective Suppression for Multi-Constraint Safety-Critical Applications [73.58451824894568]
広く採用されているCMDPモデルは予測のリスクを制約しており、長い尾の州で危険な行動を起こす余地がある。
安全クリティカルな領域では、そのような行動は破滅的な結果をもたらす可能性がある。
本稿では,目標を最大化するタスク報酬を適応的に抑制する新しい手法であるObjective Suppressionを提案する。
論文 参考訳(メタデータ) (2024-02-23T23:22:06Z) - Learning Safety Constraints From Demonstration Using One-Class Decision
Trees [1.81343777902022]
本稿では,一級決定木を利用して専門家によるデモンストレーションから学習を容易にする手法を提案する。
学習された制約は、その後、オラクル制約強化学習フレームワークに適用される。
他の手法とは対照的に,本手法は安全クリティカルな環境において重要な特徴である制約の解釈可能な表現を提供する。
論文 参考訳(メタデータ) (2023-12-14T11:48:22Z) - ASSERT: Automated Safety Scenario Red Teaming for Evaluating the
Robustness of Large Language Models [65.79770974145983]
ASSERT、Automated Safety Scenario Red Teamingは、セマンティックなアグリゲーション、ターゲットブートストラップ、敵の知識注入という3つの方法で構成されている。
このプロンプトを4つの安全領域に分割し、ドメインがモデルの性能にどのように影響するかを詳細に分析する。
統計的に有意な性能差は, 意味的関連シナリオにおける絶対分類精度が最大11%, ゼロショット逆数設定では最大19%の絶対誤差率であることがわかった。
論文 参考訳(メタデータ) (2023-10-14T17:10:28Z) - Maximum Causal Entropy Inverse Constrained Reinforcement Learning [3.409089945290584]
本稿では,最大因果エントロピーの原理を用いて制約と最適ポリシーを学習する手法を提案する。
得られた報酬と制約違反数を評価することで,学習方針の有効性を評価する。
本手法は様々なタスクや環境にまたがって最先端の手法より優れていることが示されている。
論文 参考訳(メタデータ) (2023-05-04T14:18:19Z) - When Demonstrations Meet Generative World Models: A Maximum Likelihood
Framework for Offline Inverse Reinforcement Learning [62.00672284480755]
本稿では, 専門家エージェントから, 一定の有限個の実演において観測された動作を過小評価する報酬と環境力学の構造を復元することを目的とする。
タスクを実行するための正確な専門知識モデルは、臨床的意思決定や自律運転のような安全に敏感な応用に応用できる。
論文 参考訳(メタデータ) (2023-02-15T04:14:20Z) - Reinforcement Learning with Stepwise Fairness Constraints [50.538878453547966]
本稿では,段階的公正性制約を伴う強化学習について紹介する。
我々は、ポリシーの最適性と公正性違反に関して、強力な理論的保証を持つ学習アルゴリズムを提供する。
論文 参考訳(メタデータ) (2022-11-08T04:06:23Z) - Constrained Policy Optimization for Controlled Self-Learning in
Conversational AI Systems [18.546197100318693]
ユーザ定義制約により、個々のドメインに対するきめ細かい探索ターゲットをサポートするスケーラブルなフレームワークを導入する。
この問題に対処するために,スケーラブルで実用的なメタ段階学習手法を提案する。
我々は、現実的な制約ベンチマークのセット上で、現実世界の会話型AIのデータを使用して広範な実験を行う。
論文 参考訳(メタデータ) (2022-09-17T23:44:13Z) - Constrained Policy Optimization via Bayesian World Models [79.0077602277004]
LAMBDAは、マルコフ決定プロセスを通じてモデル化された安全クリティカルタスクにおけるポリシー最適化のためのモデルに基づくアプローチである。
LAMBDA のSafety-Gymベンチマークスイートにおける技術性能について,サンプル効率と制約違反の観点から示す。
論文 参考訳(メタデータ) (2022-01-24T17:02:22Z) - Constrained Markov Decision Processes via Backward Value Functions [43.649330976089004]
制約付きマルコフ決定プロセスとして,制約付き学習の問題をモデル化する。
我々のアプローチの重要な貢献は、累積的なコスト制約を状態ベースの制約に変換することである。
我々は、エージェントが訓練の過程で安全を確保しながら収束する理論的保証を提供する。
論文 参考訳(メタデータ) (2020-08-26T20:56:16Z) - SAMBA: Safe Model-Based & Active Reinforcement Learning [59.01424351231993]
SAMBAは、確率論的モデリング、情報理論、統計学といった側面を組み合わせた安全な強化学習のためのフレームワークである。
我々は,低次元および高次元の状態表現を含む安全な力学系ベンチマークを用いて,アルゴリズムの評価を行った。
アクティブなメトリクスと安全性の制約を詳細に分析することで,フレームワークの有効性を直感的に評価する。
論文 参考訳(メタデータ) (2020-06-12T10:40:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。