論文の概要: Trustworthy Reinforcement Learning Against Intrinsic Vulnerabilities:
Robustness, Safety, and Generalizability
- arxiv url: http://arxiv.org/abs/2209.08025v1
- Date: Fri, 16 Sep 2022 16:10:08 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-19 13:08:23.195577
- Title: Trustworthy Reinforcement Learning Against Intrinsic Vulnerabilities:
Robustness, Safety, and Generalizability
- Title(参考訳): 固有の脆弱性に対する信頼できる強化学習:ロバスト性、安全性、一般化性
- Authors: Mengdi Xu, Zuxin Liu, Peide Huang, Wenhao Ding, Zhepeng Cen, Bo Li and
Ding Zhao
- Abstract要約: 信頼に足る強化学習アルゴリズムは、現実世界の問題を解決するのに長けるべきである。
本研究の目的は、信頼に値する強化学習の主な視点を概観することである。
- 参考スコア(独自算出の注目度): 23.82257896376779
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A trustworthy reinforcement learning algorithm should be competent in solving
challenging real-world problems, including {robustly} handling uncertainties,
satisfying {safety} constraints to avoid catastrophic failures, and
{generalizing} to unseen scenarios during deployments. This study aims to
overview these main perspectives of trustworthy reinforcement learning
considering its intrinsic vulnerabilities on robustness, safety, and
generalizability. In particular, we give rigorous formulations, categorize
corresponding methodologies, and discuss benchmarks for each perspective.
Moreover, we provide an outlook section to spur promising future directions
with a brief discussion on extrinsic vulnerabilities considering human
feedback. We hope this survey could bring together separate threads of studies
together in a unified framework and promote the trustworthiness of
reinforcement learning.
- Abstract(参考訳): 信頼に値する強化学習アルゴリズムは、不確実性を扱うこと、壊滅的な失敗を避けるために安全制約を満たすこと、展開中に想定外のシナリオに一般化することなど、現実世界の課題を解決する能力を持つべきである。
本研究の目的は,頑健性,安全性,一般化性に関する本質的脆弱性を考慮した信頼度強化学習の主な視点を概観することである。
特に、厳密な定式化を行い、対応する方法論を分類し、各視点のベンチマークについて議論する。
さらに,人間フィードバックを考慮した外部脆弱性に関する簡単な議論を行い,今後の方向性を示唆する見通しセクションを提供する。
この調査は、個別の学習スレッドを統一的な枠組みでまとめ、強化学習の信頼性を高めることを願っている。
関連論文リスト
- Feasibility Consistent Representation Learning for Safe Reinforcement Learning [25.258227763316228]
FCSRL(Fasibility Consistent Safe Reinforcement Learning)という新しいフレームワークを導入する。
本フレームワークは、表現学習と実現可能性指向の目的を組み合わせることで、安全RLのために生の状態から安全関連情報を識別し、抽出する。
本手法は,従来の表現学習ベースラインよりも安全性に配慮した埋め込みを学習し,優れた性能を実現する。
論文 参考訳(メタデータ) (2024-05-20T01:37:21Z) - A Survey of Constraint Formulations in Safe Reinforcement Learning [15.593999581562203]
現実世界の問題に強化学習を適用する場合、安全性は重要です。
一般的な安全なRLアプローチは、期待される累積報酬を最大化する制約付き基準に基づいている。
近年のRLの安全性向上努力にもかかわらず、この分野の体系的な理解は依然として困難である。
論文 参考訳(メタデータ) (2024-02-03T04:40:31Z) - The Art of Defending: A Systematic Evaluation and Analysis of LLM
Defense Strategies on Safety and Over-Defensiveness [56.174255970895466]
大規模言語モデル(LLM)は、自然言語処理アプリケーションにおいて、ますます重要な役割を担っている。
本稿では,SODE(Safety and Over-Defensiveness Evaluation)ベンチマークを提案する。
論文 参考訳(メタデータ) (2023-12-30T17:37:06Z) - A Systematic Review on Fostering Appropriate Trust in Human-AI
Interaction [19.137907393497848]
人工知能の適切な信頼(AI)システムは、研究者と実践者の両方にとって、急速に重要な領域になってきた。
信頼度スコア、説明、信頼度基準、不確実性通信など、様々なアプローチがそれを達成するために使われてきた。
本稿では、適切な信頼を構築するための現在の実践、それを測定するためのさまざまな方法、使用するタスクの種類、それに関連する潜在的な課題を特定するための体系的なレビューを示す。
論文 参考訳(メタデータ) (2023-11-08T12:19:58Z) - Causal Reinforcement Learning: A Survey [57.368108154871]
強化学習は、不確実性の下でのシーケンシャルな決定問題の解決に不可欠なパラダイムである。
主な障害の1つは、強化学習エージェントが世界に対する根本的な理解を欠いていることである。
因果性は、体系的な方法で知識を形式化できるという点で顕著な利点がある。
論文 参考訳(メタデータ) (2023-07-04T03:00:43Z) - Towards Safer Generative Language Models: A Survey on Safety Risks,
Evaluations, and Improvements [76.80453043969209]
本調査では,大規模モデルに関する安全研究の枠組みについて述べる。
まず、広範囲にわたる安全問題を導入し、その後、大型モデルの安全性評価手法を掘り下げる。
トレーニングからデプロイメントまで,大規模なモデルの安全性を高めるための戦略について検討する。
論文 参考訳(メタデータ) (2023-02-18T09:32:55Z) - Disentangled Text Representation Learning with Information-Theoretic
Perspective for Adversarial Robustness [17.5771010094384]
敵の脆弱性は信頼性の高いNLPシステムを構築する上で大きな障害である。
最近の研究は、モデルの敵意的な脆弱性は教師あり訓練における非破壊的な特徴によって引き起こされると主張している。
本稿では,不整合表現学習の観点から,敵対的課題に取り組む。
論文 参考訳(メタデータ) (2022-10-26T18:14:39Z) - On the Complexity of Adversarial Decision Making [101.14158787665252]
決定推定係数は, 相手の意思決定に対する後悔度を低く抑えるのに必要であり, 十分であることを示す。
我々は、決定推定係数を他のよく知られた複雑性尺度の変種に結びつける新しい構造結果を提供する。
論文 参考訳(メタデータ) (2022-06-27T06:20:37Z) - Where Did You Learn That From? Surprising Effectiveness of Membership
Inference Attacks Against Temporally Correlated Data in Deep Reinforcement
Learning [114.9857000195174]
深い強化学習を産業的に広く採用する上での大きな課題は、プライバシー侵害の潜在的な脆弱性である。
本稿では, 深層強化学習アルゴリズムの脆弱性を検証し, メンバーシップ推論攻撃に適応する対戦型攻撃フレームワークを提案する。
論文 参考訳(メタデータ) (2021-09-08T23:44:57Z) - Exploring Robustness of Unsupervised Domain Adaptation in Semantic
Segmentation [74.05906222376608]
クリーンな画像とそれらの逆の例との一致を、出力空間における対照的な損失によって最大化する、逆向きの自己スーパービジョンUDA(ASSUDA)を提案する。
i) セマンティックセグメンテーションにおけるUDA手法のロバスト性は未解明のままであり, (ii) 一般的に自己スーパービジョン(回転やジグソーなど) は分類や認識などのイメージタスクに有効であるが, セグメンテーションタスクの識別的表現を学習する重要な監視信号の提供には失敗している。
論文 参考訳(メタデータ) (2021-05-23T01:50:44Z) - Synthesizing Safe Policies under Probabilistic Constraints with
Reinforcement Learning and Bayesian Model Checking [4.797216015572358]
制約条件下での強化学習者の要求仕様作成のためのフレームワークを提案する。
本研究では,制約満足度に対するエージェントの信頼度が,学習過程における最適化と安全性のバランスをとる上で有用な信号であることを示す。
論文 参考訳(メタデータ) (2020-05-08T08:11:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。