論文の概要: Decision Transformer under Random Frame Dropping
- arxiv url: http://arxiv.org/abs/2303.03391v1
- Date: Fri, 3 Mar 2023 14:56:36 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-08 17:49:55.462303
- Title: Decision Transformer under Random Frame Dropping
- Title(参考訳): ランダムフレーム落下時の決定変換器
- Authors: Kaizhe Hu, Ray Chen Zheng, Yang Gao, Huazhe Xu
- Abstract要約: Decision Transformer(DeFog)はオフラインのRLアルゴリズムで、エージェントがオンラインインタラクションなしでフレームドロップシナリオで堅牢に動作できるようにする。
DeFogは90%のフレームダウン率で強いベースラインを上回ります。
当社のアプローチでは,制限あるいは信頼性の低いデータで実環境のエージェントを制御する,堅牢でデプロイ可能なソリューションを提供しています。
- 参考スコア(独自算出の注目度): 17.72056773757238
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Controlling agents remotely with deep reinforcement learning~(DRL) in the
real world is yet to come. One crucial stepping stone is to devise RL
algorithms that are robust in the face of dropped information from corrupted
communication or malfunctioning sensors. Typical RL methods usually require
considerable online interaction data that are costly and unsafe to collect in
the real world. Furthermore, when applying to the frame dropping scenarios,
they perform unsatisfactorily even with moderate drop rates. To address these
issues, we propose Decision Transformer under Random Frame Dropping~(DeFog), an
offline RL algorithm that enables agents to act robustly in frame dropping
scenarios without online interaction. DeFog first randomly masks out data in
the offline datasets and explicitly adds the time span of frame dropping as
inputs. After that, a finetuning stage on the same offline dataset with a
higher mask rate would further boost the performance. Empirical results show
that DeFog outperforms strong baselines under severe frame drop rates like
90\%, while maintaining similar returns under non-frame-dropping conditions in
the regular MuJoCo control benchmarks and the Atari environments. Our approach
offers a robust and deployable solution for controlling agents in real-world
environments with limited or unreliable data.
- Abstract(参考訳): 遠隔地におけるエージェントの深層強化学習(DRL)の制御はまだ行われていない。
重要なステップストーンの1つは、破損した通信や誤作動するセンサーからのドロップ情報に対して堅牢なRLアルゴリズムを考案することである。
典型的なRL法は、通常、実際の世界で収集するのに費用がかかり安全でない、かなりのオンラインインタラクションデータを必要とする。
さらに、フレームドロップシナリオに適用する場合は、適度なドロップレートでも不満足に実行する。
これらの問題に対処するために,オンラインインタラクションを伴わないフレームドロップシナリオにおいて,エージェントが堅牢に動作可能なオフラインRLアルゴリズムであるRandom Frame Dropping~(DeFog)を提案する。
DeFogはまず、オフラインデータセットのデータをランダムにマスクアウトし、フレームドロップの時間を入力として明示的に追加する。
その後、マスクレートの高い同一オフラインデータセット上の微調整ステージにより、パフォーマンスがさらに向上する。
実験結果によると、DeFogは90\%のような厳しいフレームドロップ率で強いベースラインを上回り、通常の MuJoCo コントロールベンチマークや Atari 環境では、非フレームドロップ条件で同様のリターンを維持している。
当社のアプローチでは,制限あるいは信頼性の低いデータで実環境のエージェントを制御する,堅牢でデプロイ可能なソリューションを提供しています。
関連論文リスト
- Real-Time Motion Prediction via Heterogeneous Polyline Transformer with
Relative Pose Encoding [121.08841110022607]
既存のエージェント中心の手法は、公開ベンチマークで顕著な性能を示した。
K-nearest neighbor attention with relative pose encoding (KNARPE) は、トランスフォーマーがペアワイズ相対表現を使用できる新しいアテンション機構である。
エージェント間でコンテキストを共有し、変化しないコンテキストを再利用することで、私たちのアプローチはシーン中心のメソッドと同じくらい効率的になり、最先端のエージェント中心のメソッドと同等に実行されます。
論文 参考訳(メタデータ) (2023-10-19T17:59:01Z) - Self-Confirming Transformer for Locally Consistent Online Adaptation in
Multi-Agent Reinforcement Learning [13.33996350474556]
オフライン強化学習は、オフラインデータセットとオンライン環境の間の分散シフトに悩まされる。
本研究は,オンライン非定常性に対処するオフライン変圧器訓練における自己確認損失(SCL)を提案する。
論文 参考訳(メタデータ) (2023-10-06T20:43:08Z) - Beyond Uniform Sampling: Offline Reinforcement Learning with Imbalanced
Datasets [53.8218145723718]
オフラインポリシー学習は、既存のトラジェクトリのデータセットを使用して、追加データを収集せずに意思決定ポリシーを学ぶことを目的としている。
我々は、データセットが最適下軌道に支配されている場合、最先端のオフラインRLアルゴリズムはデータセットにおけるトラジェクトリの戻り平均よりも大幅に改善されないことを論じる。
本稿では,標準オフラインRLアルゴリズムにおいて,サンプリング戦略の実現と,プラグイン・アンド・プレイモジュールとして使用できるアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-10-06T17:58:14Z) - Train Hard, Fight Easy: Robust Meta Reinforcement Learning [78.16589993684698]
実世界のアプリケーションにおける強化学習(RL)の大きな課題は、環境、タスク、クライアントの違いである。
標準的なMRL法は、タスクよりも平均的なリターンを最適化するが、リスクや難易度の高いタスクでは悪い結果に悩まされることが多い。
本研究では, MRL の頑健な目標を制御レベルで定義する。
ロバストメタRLアルゴリズム(RoML)を用いてデータ非効率に対処する
論文 参考訳(メタデータ) (2023-01-26T14:54:39Z) - Adaptive Behavior Cloning Regularization for Stable Offline-to-Online
Reinforcement Learning [80.25648265273155]
オフライン強化学習は、固定データセットから学習することで、環境と対話することなくエージェントの動作を学ぶことができる。
オンラインの微調整中、オフラインからオンラインデータへの突然の分散シフトにより、事前訓練されたエージェントのパフォーマンスが急速に低下する可能性がある。
エージェントの性能と訓練安定性に基づいて,オンラインファインチューニングにおける行動クローンの損失を適応的に評価することを提案する。
実験の結果,提案手法はD4RLベンチマークにおいて,最先端のオフライン-オンライン強化学習性能が得られることがわかった。
論文 参考訳(メタデータ) (2022-10-25T09:08:26Z) - FIRE: A Failure-Adaptive Reinforcement Learning Framework for Edge
Computing Migrations [55.131858975133085]
FIREは、エッジコンピューティングのディジタルツイン環境でRLポリシーをトレーニングすることで、まれなイベントに適応するフレームワークである。
ImREは重要なサンプリングに基づくQ-ラーニングアルゴリズムであり、希少事象をその値関数への影響に比例してサンプリングする。
FIREは故障時にバニラRLやグリーディベースラインと比較してコストを削減できることを示す。
論文 参考訳(メタデータ) (2022-09-28T19:49:39Z) - Online vs. Offline Adaptive Domain Randomization Benchmark [20.69035879843824]
オフラインとオンラインの両方の手法(SimOpt、BayRn、DROID、DROPO)のオープンなベンチマークを行い、各設定やタスクに最も適しているものを列挙する。
オンライン手法は次のイテレーションで学習したポリシーの品質によって制限されているのに対し,オフライン手法はオープンループコマンドによるシミュレーションでトラジェクトリを再生する際に失敗することがあることがわかった。
論文 参考訳(メタデータ) (2022-06-29T14:03:53Z) - Weakly Supervised Scene Text Detection using Deep Reinforcement Learning [6.918282834668529]
強化学習(RL)を利用したシーンテキスト検出の弱い監視手法を提案する。
RLエージェントが受ける報酬は、ニューラルネットワークによって推定される。
次に,提案するシステムを用いて,実世界のデータに対する弱い半教師付きトレーニングを行う。
論文 参考訳(メタデータ) (2022-01-13T10:15:42Z) - The Least Restriction for Offline Reinforcement Learning [0.0]
我々は、創造的なオフライン強化学習フレームワーク、Least Restriction (LR)を提案する。
LRは、アクションを選択することを確率分布からサンプルを取るとみなす。
ランダムとサブ最適のデモを含む、さまざまなオフラインデータセットから堅牢に学習することができる。
論文 参考訳(メタデータ) (2021-07-05T01:50:40Z) - Continuous Doubly Constrained Batch Reinforcement Learning [93.23842221189658]
環境とのオンラインインタラクションではなく、固定されたオフラインデータセットのみを使用して効果的なポリシーを学ぶバッチRLのアルゴリズムを提案する。
バッチRLにおける制限されたデータは、トレーニングデータに不十分に表現された状態/動作の値推定に固有の不確実性をもたらす。
この分散を減らすための政策制約と、過度に楽観的な見積もりを妨げる価値制約という2つの簡単な罰則によってこの問題を軽減することを提案する。
論文 参考訳(メタデータ) (2021-02-18T08:54:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。