論文の概要: Decision Transformer under Random Frame Dropping
- arxiv url: http://arxiv.org/abs/2303.03391v1
- Date: Fri, 3 Mar 2023 14:56:36 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-08 17:49:55.462303
- Title: Decision Transformer under Random Frame Dropping
- Title(参考訳): ランダムフレーム落下時の決定変換器
- Authors: Kaizhe Hu, Ray Chen Zheng, Yang Gao, Huazhe Xu
- Abstract要約: Decision Transformer(DeFog)はオフラインのRLアルゴリズムで、エージェントがオンラインインタラクションなしでフレームドロップシナリオで堅牢に動作できるようにする。
DeFogは90%のフレームダウン率で強いベースラインを上回ります。
当社のアプローチでは,制限あるいは信頼性の低いデータで実環境のエージェントを制御する,堅牢でデプロイ可能なソリューションを提供しています。
- 参考スコア(独自算出の注目度): 17.72056773757238
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Controlling agents remotely with deep reinforcement learning~(DRL) in the
real world is yet to come. One crucial stepping stone is to devise RL
algorithms that are robust in the face of dropped information from corrupted
communication or malfunctioning sensors. Typical RL methods usually require
considerable online interaction data that are costly and unsafe to collect in
the real world. Furthermore, when applying to the frame dropping scenarios,
they perform unsatisfactorily even with moderate drop rates. To address these
issues, we propose Decision Transformer under Random Frame Dropping~(DeFog), an
offline RL algorithm that enables agents to act robustly in frame dropping
scenarios without online interaction. DeFog first randomly masks out data in
the offline datasets and explicitly adds the time span of frame dropping as
inputs. After that, a finetuning stage on the same offline dataset with a
higher mask rate would further boost the performance. Empirical results show
that DeFog outperforms strong baselines under severe frame drop rates like
90\%, while maintaining similar returns under non-frame-dropping conditions in
the regular MuJoCo control benchmarks and the Atari environments. Our approach
offers a robust and deployable solution for controlling agents in real-world
environments with limited or unreliable data.
- Abstract(参考訳): 遠隔地におけるエージェントの深層強化学習(DRL)の制御はまだ行われていない。
重要なステップストーンの1つは、破損した通信や誤作動するセンサーからのドロップ情報に対して堅牢なRLアルゴリズムを考案することである。
典型的なRL法は、通常、実際の世界で収集するのに費用がかかり安全でない、かなりのオンラインインタラクションデータを必要とする。
さらに、フレームドロップシナリオに適用する場合は、適度なドロップレートでも不満足に実行する。
これらの問題に対処するために,オンラインインタラクションを伴わないフレームドロップシナリオにおいて,エージェントが堅牢に動作可能なオフラインRLアルゴリズムであるRandom Frame Dropping~(DeFog)を提案する。
DeFogはまず、オフラインデータセットのデータをランダムにマスクアウトし、フレームドロップの時間を入力として明示的に追加する。
その後、マスクレートの高い同一オフラインデータセット上の微調整ステージにより、パフォーマンスがさらに向上する。
実験結果によると、DeFogは90\%のような厳しいフレームドロップ率で強いベースラインを上回り、通常の MuJoCo コントロールベンチマークや Atari 環境では、非フレームドロップ条件で同様のリターンを維持している。
当社のアプローチでは,制限あるいは信頼性の低いデータで実環境のエージェントを制御する,堅牢でデプロイ可能なソリューションを提供しています。
関連論文リスト
- Streetwise Agents: Empowering Offline RL Policies to Outsmart Exogenous Stochastic Disturbances in RTC [21.20874303316171]
本稿では,配布外部分空間のリアルタイムな特徴付けを前提としたポリシーのデプロイ後シェーピングを提案する。
BWEおよび他の標準オフラインRLベンチマーク環境に対する実験結果から,大幅な改善が示された。
論文 参考訳(メタデータ) (2024-11-11T09:22:09Z) - Scalable Offline Reinforcement Learning for Mean Field Games [6.8267158622784745]
Off-MMDは、純粋なオフラインデータを用いて平均フィールドゲームにおける平衡ポリシーを近似する新しい平均フィールドRLアルゴリズムである。
我々のアルゴリズムは複雑な環境にスケールし、群衆探索やナビゲーションといったベンチマークタスクで強いパフォーマンスを示す。
論文 参考訳(メタデータ) (2024-10-23T14:16:34Z) - Robust Decision Transformer: Tackling Data Corruption in Offline RL via Sequence Modeling [34.547551367941246]
センサーや人間から収集された現実世界のデータには、しばしばノイズやエラーが含まれている。
時間差分学習に基づく従来のオフラインRL手法は、データ破損時に決定変換器(DT)を過小評価する傾向にある。
本稿では,ロバスト決定変換器 (RDT) を提案する。
論文 参考訳(メタデータ) (2024-07-05T06:34:32Z) - Real-Time Motion Prediction via Heterogeneous Polyline Transformer with
Relative Pose Encoding [121.08841110022607]
既存のエージェント中心の手法は、公開ベンチマークで顕著な性能を示した。
K-nearest neighbor attention with relative pose encoding (KNARPE) は、トランスフォーマーがペアワイズ相対表現を使用できる新しいアテンション機構である。
エージェント間でコンテキストを共有し、変化しないコンテキストを再利用することで、私たちのアプローチはシーン中心のメソッドと同じくらい効率的になり、最先端のエージェント中心のメソッドと同等に実行されます。
論文 参考訳(メタデータ) (2023-10-19T17:59:01Z) - Beyond Uniform Sampling: Offline Reinforcement Learning with Imbalanced
Datasets [53.8218145723718]
オフラインポリシー学習は、既存のトラジェクトリのデータセットを使用して、追加データを収集せずに意思決定ポリシーを学ぶことを目的としている。
我々は、データセットが最適下軌道に支配されている場合、最先端のオフラインRLアルゴリズムはデータセットにおけるトラジェクトリの戻り平均よりも大幅に改善されないことを論じる。
本稿では,標準オフラインRLアルゴリズムにおいて,サンプリング戦略の実現と,プラグイン・アンド・プレイモジュールとして使用できるアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-10-06T17:58:14Z) - Train Hard, Fight Easy: Robust Meta Reinforcement Learning [78.16589993684698]
実世界のアプリケーションにおける強化学習(RL)の大きな課題は、環境、タスク、クライアントの違いである。
標準的なMRL法は、タスクよりも平均的なリターンを最適化するが、リスクや難易度の高いタスクでは悪い結果に悩まされることが多い。
本研究では, MRL の頑健な目標を制御レベルで定義する。
ロバストメタRLアルゴリズム(RoML)を用いてデータ非効率に対処する
論文 参考訳(メタデータ) (2023-01-26T14:54:39Z) - Adaptive Behavior Cloning Regularization for Stable Offline-to-Online
Reinforcement Learning [80.25648265273155]
オフライン強化学習は、固定データセットから学習することで、環境と対話することなくエージェントの動作を学ぶことができる。
オンラインの微調整中、オフラインからオンラインデータへの突然の分散シフトにより、事前訓練されたエージェントのパフォーマンスが急速に低下する可能性がある。
エージェントの性能と訓練安定性に基づいて,オンラインファインチューニングにおける行動クローンの損失を適応的に評価することを提案する。
実験の結果,提案手法はD4RLベンチマークにおいて,最先端のオフライン-オンライン強化学習性能が得られることがわかった。
論文 参考訳(メタデータ) (2022-10-25T09:08:26Z) - FIRE: A Failure-Adaptive Reinforcement Learning Framework for Edge Computing Migrations [52.85536740465277]
FIREは、エッジコンピューティングのディジタルツイン環境でRLポリシーをトレーニングすることで、まれなイベントに適応するフレームワークである。
ImREは重要なサンプリングに基づくQ-ラーニングアルゴリズムであり、希少事象をその値関数への影響に比例してサンプリングする。
FIREは故障時にバニラRLやグリーディベースラインと比較してコストを削減できることを示す。
論文 参考訳(メタデータ) (2022-09-28T19:49:39Z) - The Least Restriction for Offline Reinforcement Learning [0.0]
我々は、創造的なオフライン強化学習フレームワーク、Least Restriction (LR)を提案する。
LRは、アクションを選択することを確率分布からサンプルを取るとみなす。
ランダムとサブ最適のデモを含む、さまざまなオフラインデータセットから堅牢に学習することができる。
論文 参考訳(メタデータ) (2021-07-05T01:50:40Z) - Continuous Doubly Constrained Batch Reinforcement Learning [93.23842221189658]
環境とのオンラインインタラクションではなく、固定されたオフラインデータセットのみを使用して効果的なポリシーを学ぶバッチRLのアルゴリズムを提案する。
バッチRLにおける制限されたデータは、トレーニングデータに不十分に表現された状態/動作の値推定に固有の不確実性をもたらす。
この分散を減らすための政策制約と、過度に楽観的な見積もりを妨げる価値制約という2つの簡単な罰則によってこの問題を軽減することを提案する。
論文 参考訳(メタデータ) (2021-02-18T08:54:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。