論文の概要: Safety-Aware Task Composition for Discrete and Continuous Reinforcement
Learning
- arxiv url: http://arxiv.org/abs/2306.17033v1
- Date: Thu, 29 Jun 2023 15:34:26 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-30 12:49:23.171807
- Title: Safety-Aware Task Composition for Discrete and Continuous Reinforcement
Learning
- Title(参考訳): 離散・連続強化学習のための安全認識タスク構成
- Authors: Kevin Leahy and Makai Mann and Zachary Serlin
- Abstract要約: 強化学習(Reinforcement Learning, RL)は近年, タスク学習においてかなりの成功を収めている。
RLの既存のブール構成は、離散的な行動空間を持つ環境で満足な吸収状態に到達することに焦点を当てているが、構成可能な安全制約はサポートしていない。
本枠組みでは, 安全性の2つの概念を紹介し, 安全性のセマンティクスを強制し, 正当性を(いくつかの仮定の下で)証明し, 安全性概念間のトレードオフを解析する方法を示す。
- 参考スコア(独自算出の注目度): 0.048342038441006804
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Compositionality is a critical aspect of scalable system design.
Reinforcement learning (RL) has recently shown substantial success in task
learning, but has only recently begun to truly leverage composition. In this
paper, we focus on Boolean composition of learned tasks as opposed to
functional or sequential composition. Existing Boolean composition for RL
focuses on reaching a satisfying absorbing state in environments with discrete
action spaces, but does not support composable safety (i.e., avoidance)
constraints. We advance the state of the art in Boolean composition of learned
tasks with three contributions: i) introduce two distinct notions of safety in
this framework; ii) show how to enforce either safety semantics, prove
correctness (under some assumptions), and analyze the trade-offs between the
two safety notions; and iii) extend Boolean composition from discrete action
spaces to continuous action spaces. We demonstrate these techniques using
modified versions of value iteration in a grid world, Deep Q-Network (DQN) in a
grid world with image observations, and Twin Delayed DDPG (TD3) in a
continuous-observation and continuous-action Bullet physics environment. We
believe that these contributions advance the theory of safe reinforcement
learning by allowing zero-shot composition of policies satisfying safety
properties.
- Abstract(参考訳): 構成性は、スケーラブルなシステム設計の重要な側面です。
強化学習(Reinforcement Learning, RL)は近年, タスク学習においてかなりの成功を収めている。
本稿では,機能的・逐次的構成とは対照的に,学習課題のブール構成に着目した。
既存のRLのブール合成は、離散的な作用空間を持つ環境で満足な吸収状態に達することに焦点を当てているが、構成可能な安全性(すなわち回避)の制約をサポートしない。
我々は,学習課題のブール構成における技術の現状を3つの貢献で進める。
一 この枠組みに2つの異なる安全概念を導入すること。
二 安全意味論を施行し、正当性を証明し、かつ、二つの安全概念のトレードオフを分析する方法を示すこと。
iii) 離散作用空間から連続作用空間へブール合成を拡張。
本稿では, グリッド環境における値反復の修正版, 画像観察を伴うグリッド環境におけるディープQネットワーク(DQN), 連続観測および連続動作ブルエ物理環境におけるツイン遅延DDPG(TD3)を用いた手法について述べる。
これらの貢献は,安全特性を満たす政策のゼロショット合成を可能にすることによって,安全強化学習の理論を前進させると信じている。
関連論文リスト
- Superficial Safety Alignment Hypothesis [8.297367440457508]
本稿では,安全アライメントが安全でないモデルに正しい推論方向を選択するよう教えるべきであるとする,表向きの安全アライメント仮説(SSAH)を提案する。
安全に整合した大言語モデル(LLM)における属性クリティカルな4つのコンポーネントを同定する。
本研究は,特定の安全クリティカル成分の凍結を微調整中に行うことにより,新しい作業に適応しつつ,その安全性特性を維持できることを示した。
論文 参考訳(メタデータ) (2024-10-07T19:53:35Z) - Integrating Present and Past in Unsupervised Continual Learning [28.208585464074176]
教師なし連続学習(UCL)のための統一的枠組みを定式化する。
既存のUCLアプローチの多くは、クロスタスク統合を見落とし、共有埋め込み空間における可塑性と安定性のバランスを図っている。
論文 参考訳(メタデータ) (2024-04-29T22:31:21Z) - Synergistic Anchored Contrastive Pre-training for Few-Shot Relation
Extraction [4.7220779071424985]
Few-shot Relation extract (FSRE) は、ラベル付きコーパスのスパースセットから事実を抽出することを目的としている。
近年の研究では、事前学習言語モデルを用いたFSREの有望な結果が示されている。
本稿では,新しい相乗的アンカー付きコントラスト事前学習フレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-19T10:16:24Z) - State-Wise Safe Reinforcement Learning With Pixel Observations [12.338614299403305]
本稿では,未知の危険領域に対する安全性の制約を効率的にエンコードする,新しい画素オブザービングセーフなRLアルゴリズムを提案する。
共同学習の枠組みとして,画素観測から導出した低次元潜在空間を用いた潜在力学モデルの構築から着目する。
次に、潜時力学の上に潜時バリアのような機能を構築・学習し、同時にポリシー最適化を行い、それによって安全性と総リターンの両方を改善します。
論文 参考訳(メタデータ) (2023-11-03T20:32:30Z) - Enhancing Robust Representation in Adversarial Training: Alignment and
Exclusion Criteria [61.048842737581865]
対人訓練 (AT) は, 頑健な特徴の学習を省略し, 対人的頑健さの低下を招いた。
非対称な負のコントラストと逆の注意によって、頑健な表現を得るためのATの一般的なフレームワークを提案する。
3つのベンチマークデータセットの実証評価により,ATの堅牢性を大幅に向上し,最先端の性能を実現することができた。
論文 参考訳(メタデータ) (2023-10-05T07:29:29Z) - Language-free Compositional Action Generation via Decoupling Refinement [67.50452446686725]
本稿では,言語補助に頼らずに作曲行動を生成する新しい枠組みを提案する。
このアプローチは,アクション結合,条件付きアクション生成,デカップリングリファインメントという3つの主要コンポーネントから構成される。
論文 参考訳(メタデータ) (2023-07-07T12:00:38Z) - Approximate Shielding of Atari Agents for Safe Exploration [83.55437924143615]
遮蔽の概念に基づく安全な探索のための原理的アルゴリズムを提案する。
本稿では,我々の近似遮蔽アルゴリズムが安全違反率を効果的に低減することを示す予備的な結果を示す。
論文 参考訳(メタデータ) (2023-04-21T16:19:54Z) - Evaluating Model-free Reinforcement Learning toward Safety-critical
Tasks [70.76757529955577]
本稿では、国家安全RLの観点から、この領域における先行研究を再考する。
安全最適化と安全予測を組み合わせた共同手法であるUnrolling Safety Layer (USL)を提案する。
この領域のさらなる研究を容易にするため、我々は関連するアルゴリズムを統一パイプラインで再現し、SafeRL-Kitに組み込む。
論文 参考訳(メタデータ) (2022-12-12T06:30:17Z) - Provable Safe Reinforcement Learning with Binary Feedback [62.257383728544006]
状態, アクションペアの安全性に対するバイナリフィードバックを提供するオフラインオラクルへのアクセスを与えられた場合, 証明可能な安全なRLの問題を考える。
我々は,その設定に対してブラックボックスPAC RLアルゴリズムに与えられた任意のMDP設定に適用可能な,新しいメタアルゴリズムSABREを提案する。
論文 参考訳(メタデータ) (2022-10-26T05:37:51Z) - Safety Aware Reinforcement Learning (SARL) [4.4617911035181095]
我々は、エージェントが第一のタスクでポリシーを実行しながら、望ましくない副作用を引き起こすことができるシナリオの研究に焦点をあてる。
与えられた環境ダイナミクスに対して複数のタスクを定義することができるので、2つの重要な課題があります。
仮想安全なエージェントが主報酬に基づくエージェントの行動を調整し、副作用を最小限に抑えるためのフレームワークである安全意識強化学習(SARL)を提案する。
論文 参考訳(メタデータ) (2020-10-06T16:08:28Z) - Tree-Structured Policy based Progressive Reinforcement Learning for
Temporally Language Grounding in Video [128.08590291947544]
非トリミングビデオにおける一時的言語接地は、ビデオ理解における新たな課題である。
ヒトの粗大な意思決定パラダイムにインスパイアされた我々は、新しい木構造政策に基づくプログレッシブ強化学習フレームワークを定式化した。
論文 参考訳(メタデータ) (2020-01-18T15:08:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。