論文の概要: Can Agents Run Relay Race with Strangers? Generalization of RL to
Out-of-Distribution Trajectories
- arxiv url: http://arxiv.org/abs/2304.13424v1
- Date: Wed, 26 Apr 2023 10:12:12 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-27 14:38:40.593528
- Title: Can Agents Run Relay Race with Strangers? Generalization of RL to
Out-of-Distribution Trajectories
- Title(参考訳): エージェントはストランガーでレースをリレーできるのか?
分布外軌道へのRLの一般化
- Authors: Li-Cheng Lan, Huan Zhang, Cho-Jui Hsieh
- Abstract要約: 異種エージェントの制御可能な状態に対する一般化失敗の有病率を示す。
本稿では,学習中のQ関数に従って環境をエージェントの旧状態にリセットする,STA(Self-Trajectory Augmentation)という新しい手法を提案する。
- 参考スコア(独自算出の注目度): 88.08381083207449
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we define, evaluate, and improve the ``relay-generalization''
performance of reinforcement learning (RL) agents on the out-of-distribution
``controllable'' states. Ideally, an RL agent that generally masters a task
should reach its goal starting from any controllable state of the environment
instead of memorizing a small set of trajectories. For example, a self-driving
system should be able to take over the control from humans in the middle of
driving and must continue to drive the car safely. To practically evaluate this
type of generalization, we start the test agent from the middle of other
independently well-trained \emph{stranger} agents' trajectories. With extensive
experimental evaluation, we show the prevalence of \emph{generalization
failure} on controllable states from stranger agents. For example, in the
Humanoid environment, we observed that a well-trained Proximal Policy
Optimization (PPO) agent, with only 3.9\% failure rate during regular testing,
failed on 81.6\% of the states generated by well-trained stranger PPO agents.
To improve "relay generalization," we propose a novel method called
Self-Trajectory Augmentation (STA), which will reset the environment to the
agent's old states according to the Q function during training. After applying
STA to the Soft Actor Critic's (SAC) training procedure, we reduced the failure
rate of SAC under relay-evaluation by more than three times in most settings
without impacting agent performance and increasing the needed number of
environment interactions. Our code is available at
https://github.com/lan-lc/STA.
- Abstract(参考訳): 本稿では,'relay-generalization'状態における強化学習(rl)エージェントの性能を定義し,評価し,改善する。
理想的には、タスクをマスターするRLエージェントは、小さなトラジェクトリのセットを記憶するのではなく、環境の制御可能な状態から始まる目標を達成するべきである。
例えば、自動運転システムは、運転中に人間の制御を乗っ取り、安全に運転し続けなければならない。
このような一般化を現実的に評価するために、テストエージェントは独立に訓練された他の 'emph{stranger} エージェントの軌道の中間から開始する。
実験的評価により,異種エージェントの制御可能な状態に対する \emph{ Generalization failure} の有病率を示す。
例えば, ヒューマノイド環境では, 訓練された近位政策最適化 (ppo) エージェントは, 正常なテスト中に3.9\%の失敗率しか得られず, 訓練された知らないppoエージェントによって生成された状態の81.6\%で失敗した。
遅延一般化」を改善するために,学習中のQ関数に従ってエージェントの旧状態に環境をリセットする,STA(Self-Trajectory Augmentation)と呼ばれる新しい手法を提案する。
STAをSoft Actor Critic(SAC)トレーニング手順に適用した後、エージェント性能に影響を与えることなくリレー評価時のSACの故障率を3倍以上に削減し、必要な環境相互作用数を増大させた。
私たちのコードはhttps://github.com/lan-lc/staで利用可能です。
関連論文リスト
- Human-compatible driving partners through data-regularized self-play reinforcement learning [3.9682126792844583]
HR-PPO(Human-Regularized PPO)は、エージェントが人間の参照ポリシーから逸脱する小さなペナルティで自己プレイを通じて訓練されるマルチエージェントアルゴリズムである。
その結果,HR-PPOは93%,オフロード率3.5%,衝突率3%の目標達成に極めて有効であることがわかった。
論文 参考訳(メタデータ) (2024-03-28T17:56:56Z) - ReAct Meets ActRe: When Language Agents Enjoy Training Data Autonomy [47.42940885853956]
A$3$TはAutonomousを実現するフレームワークである。
法律の様式における代理人軌道の
AlfWorldでは、A$3$Tで訓練されたエージェントが1発成功率96%、100%成功率4回を達成している。
論文 参考訳(メタデータ) (2024-03-21T17:43:44Z) - Mastering the Unsupervised Reinforcement Learning Benchmark from Pixels [112.63440666617494]
強化学習アルゴリズムは成功するが、エージェントと環境の間の大量の相互作用を必要とする。
本稿では,教師なしモデルベースRLを用いてエージェントを事前学習する手法を提案する。
我々はReal-Word RLベンチマークにおいて、適応中の環境摂動に対する抵抗性を示唆し、堅牢な性能を示す。
論文 参考訳(メタデータ) (2022-09-24T14:22:29Z) - Explaining Reinforcement Learning Policies through Counterfactual
Trajectories [147.7246109100945]
人間の開発者は、RLエージェントがテスト時にうまく機能することを検証しなければならない。
本手法では, エージェントの挙動をより広い軌道分布で示すことにより, エージェントの挙動を分布変化下で表現する。
本研究では,2つのエージェント検証タスクのうちの1つに対して,ベースライン法よりも優れたスコアを得られることを示す。
論文 参考訳(メタデータ) (2022-01-29T00:52:37Z) - Explore and Control with Adversarial Surprise [78.41972292110967]
強化学習(Reinforcement Learning, RL)は、目標指向のポリシーを学習するためのフレームワークである。
本稿では,RLエージェントが経験した驚きの量と競合する2つのポリシーを相殺する対戦ゲームに基づく,新しい教師なしRL手法を提案する。
本手法は, 明確な相転移を示すことによって, 複雑なスキルの出現につながることを示す。
論文 参考訳(メタデータ) (2021-07-12T17:58:40Z) - Robust Deep Reinforcement Learning through Adversarial Loss [74.20501663956604]
近年の研究では、深層強化学習剤は、エージェントの入力に対する小さな逆方向の摂動に弱いことが示されている。
敵攻撃に対する堅牢性を向上した強化学習エージェントを訓練するための原則的フレームワークであるRADIAL-RLを提案する。
論文 参考訳(メタデータ) (2020-08-05T07:49:42Z) - Automatic Data Augmentation for Generalization in Deep Reinforcement
Learning [39.477038093585726]
深層強化学習(RL)エージェントは、しばしば目に見えないシナリオへの一般化に失敗する。
近年,RL剤の試料効率と一般化が向上することが示されている。
エージェントはエージェントに影響を与えない環境の変化に対してより堅牢なポリシーや表現を学ぶ。
論文 参考訳(メタデータ) (2020-06-23T09:50:22Z) - Safe Reinforcement Learning via Curriculum Induction [94.67835258431202]
安全クリティカルなアプリケーションでは、自律エージェントはミスが非常にコストがかかる環境で学ぶ必要がある。
既存の安全な強化学習手法は、エージェントが危険な状況を避けるために、事前にエージェントを頼りにしている。
本稿では,エージェントが自動インストラクターの指導の下で学習する,人間の指導にインスパイアされた代替手法を提案する。
論文 参考訳(メタデータ) (2020-06-22T10:48:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。