論文の概要: Reinforcement Learning with Euclidean Data Augmentation for State-Based Continuous Control
- arxiv url: http://arxiv.org/abs/2410.12983v1
- Date: Wed, 16 Oct 2024 19:25:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-18 13:21:17.997237
- Title: Reinforcement Learning with Euclidean Data Augmentation for State-Based Continuous Control
- Title(参考訳): 状態ベース連続制御のためのユークリッドデータ強化による強化学習
- Authors: Jinzhu Luo, Dingyang Chen, Qi Zhang,
- Abstract要約: この研究は、RLエージェントが生のキネマティックとタスクの機能を直接観察できる状態ベースの制御に焦点を当てている。
我々は、回転のような変換の下でユークリッド対称性に基づいて、これらの特徴に適用される別のデータ拡張を考える。
この新たなユークリッドデータ拡張戦略は、広範囲な連続制御タスクにおいて、RLのデータ効率と性能の両方を大幅に改善することを示す。
- 参考スコア(独自算出の注目度): 6.86255498856117
- License:
- Abstract: Data augmentation creates new data points by transforming the original ones for a reinforcement learning (RL) agent to learn from, which has been shown to be effective for the objective of improving the data efficiency of RL for continuous control. Prior work towards this objective has been largely restricted to perturbation-based data augmentation where new data points are created by perturbing the original ones, which has been impressively effective for tasks where the RL agent observes control states as images with perturbations including random cropping, shifting, etc. This work focuses on state-based control, where the RL agent can directly observe raw kinematic and task features, and considers an alternative data augmentation applied to these features based on Euclidean symmetries under transformations like rotations. We show that the default state features used in exiting benchmark tasks that are based on joint configurations are not amenable to Euclidean transformations. We therefore advocate using state features based on configurations of the limbs (i.e., the rigid bodies connected by the joints) that instead provide rich augmented data under Euclidean transformations. With minimal hyperparameter tuning, we show this new Euclidean data augmentation strategy significantly improves both data efficiency and asymptotic performance of RL on a wide range of continuous control tasks.
- Abstract(参考訳): データ拡張は、強化学習(RL)エージェントが学習するための元のデータを変換して新しいデータポイントを生成し、連続的な制御のためにRLのデータ効率を改善する目的のために有効であることが示されている。
この目的に向けた以前の研究は、主に摂動に基づくデータ拡張に限られており、元のデータポイントを摂動することで新しいデータポイントが生成される。
この研究は、RLエージェントが生のキネマティックおよびタスクの特徴を直接観察できる状態ベース制御に焦点を当て、回転のような変換の下でユークリッド対称性に基づいてこれらの特徴に適用される代替データ拡張を検討する。
共同構成に基づくベンチマークタスクの終了時に使用されるデフォルトの状態機能は、ユークリッド変換には適さないことを示す。
したがって、我々は、ユークリッド変換の下でリッチな拡張データを提供する手足(つまり関節によって連結された剛体)の構成に基づく状態特徴の使用を提唱する。
最小限のハイパーパラメータチューニングにより、この新しいユークリッドデータ拡張戦略は、広範囲の連続制御タスクにおいて、RLのデータ効率と漸近性能の両方を大幅に改善することを示す。
関連論文リスト
- A Recipe for Unbounded Data Augmentation in Visual Reinforcement Learning [12.889687274108248]
Q-learningアルゴリズムは、視覚的な観察からトレーニングされた時に、不安定さを過度に調整し、訓練する傾向がある。
そこで本研究では,より広範に拡張可能な一般化されたレシピであるSADAを提案する。
提案手法は,RLエージェントのトレーニング安定性と一般化を,多種多様な拡張セットで大幅に向上させる。
論文 参考訳(メタデータ) (2024-05-27T17:58:23Z) - CUDC: A Curiosity-Driven Unsupervised Data Collection Method with
Adaptive Temporal Distances for Offline Reinforcement Learning [62.58375643251612]
本稿では,Curiosity-driven Unsupervised Data Collection (CUDC)法を提案する。
この適応的な到達性機構により、特徴表現は多様化することができ、エージェントは、好奇心で高品質なデータを集めるために自分自身をナビゲートすることができる。
実験的に、CUDCはDeepMindコントロールスイートの様々なダウンストリームオフラインRLタスクにおいて、既存の教師なし手法よりも効率と学習性能が優れている。
論文 参考訳(メタデータ) (2023-12-19T14:26:23Z) - Hybrid Reinforcement Learning for Optimizing Pump Sustainability in
Real-World Water Distribution Networks [55.591662978280894]
本稿では,実世界の配水ネットワーク(WDN)のリアルタイム制御を強化するために,ポンプスケジューリング最適化問題に対処する。
我々の主な目的は、エネルギー消費と運用コストを削減しつつ、物理的な運用上の制約を遵守することである。
進化に基づくアルゴリズムや遺伝的アルゴリズムのような伝統的な最適化手法は、収束保証の欠如によってしばしば不足する。
論文 参考訳(メタデータ) (2023-10-13T21:26:16Z) - Equivariant Data Augmentation for Generalization in Offline
Reinforcement Learning [10.00979536266327]
オフライン強化学習(RL)における一般化の課題に対処する新しいアプローチを提案する。
具体的には,エージェントのアウト・オブ・ディストリビューション目標への一般化能力の向上を目指す。
我々は、オフラインのオフラインRLアルゴリズムを用いて、拡張データセットに基づいて新しいポリシーをオフラインで学習する。
論文 参考訳(メタデータ) (2023-09-14T10:22:33Z) - DRAG: Divergence-based Adaptive Aggregation in Federated learning on
Non-IID Data [11.830891255837788]
局所勾配降下(SGD)は、フェデレートラーニング(FL)におけるコミュニケーション効率向上の基本的なアプローチである
我々は,局所勾配と大域基準方向の角度を定量化する「発散度」と呼ばれる新しい計量を導入する。
本稿では,各ラウンドの参照方向に対して受信した局所的な更新を,余分な通信オーバーヘッドを伴わずに動的にドラッグする分散型アダプティブアグリゲーション(DRAG)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-09-04T19:40:58Z) - Boosting Offline Reinforcement Learning via Data Rebalancing [104.3767045977716]
オフライン強化学習(RL)は、学習ポリシーとデータセットの分散シフトによって問題となる。
本稿では,データセットの再サンプリングが分散サポートを一定に保っているという観察に基づいて,オフラインRLアルゴリズムをシンプルかつ効果的に向上させる手法を提案する。
ReD(Return-based Data Re Balance)メソッドをダブします。これは10行未満のコード変更で実装でき、無視できる実行時間を追加します。
論文 参考訳(メタデータ) (2022-10-17T16:34:01Z) - Automatic Data Augmentation via Invariance-Constrained Learning [94.27081585149836]
下位のデータ構造は、しばしば学習タスクのソリューションを改善するために利用される。
データ拡張は、入力データに複数の変換を適用することで、トレーニング中にこれらの対称性を誘導する。
この作業は、学習タスクを解決しながらデータ拡張を自動的に適応することで、これらの問題に対処する。
論文 参考訳(メタデータ) (2022-09-29T18:11:01Z) - Stabilizing Deep Q-Learning with ConvNets and Vision Transformers under
Data Augmentation [25.493902939111265]
オフ・ポリティクス強化学習アルゴリズムにおけるデータ強化における不安定性の原因について検討する。
本稿では,このアルゴリズムを拡張の下で安定化するための,シンプルで効果的な手法を提案する。
本手法は,画像ベースRLの最先端手法と競合し,ConvNetの安定性とサンプル効率を大幅に向上させる。
論文 参考訳(メタデータ) (2021-07-01T17:58:05Z) - Reinforcement Learning for Datacenter Congestion Control [50.225885814524304]
渋滞制御アルゴリズムの成功は、レイテンシとネットワーク全体のスループットを劇的に改善する。
今日まで、このような学習ベースのアルゴリズムはこの領域で実用的な可能性を示さなかった。
実世界のデータセンターネットワークの様々な構成に一般化することを目的としたRLに基づくアルゴリズムを考案する。
本稿では,この手法が他のRL手法よりも優れており,トレーニング中に見られなかったシナリオに一般化可能であることを示す。
論文 参考訳(メタデータ) (2021-02-18T13:49:28Z) - PerSim: Data-Efficient Offline Reinforcement Learning with Heterogeneous
Agents via Personalized Simulators [19.026312915461553]
我々はpersimと呼ばれるモデルベースオフライン強化学習(rl)手法を提案する。
まず,各エージェントのパーソナライズされたシミュレータを,政策を学ぶ前に,各エージェントの履歴軌跡をまとめて学習する。
この表現は、エージェントごとの遷移ダイナミクスを効果的に学習するための、単純で正規化されたニューラルネットワークアーキテクチャを示唆している。
論文 参考訳(メタデータ) (2021-02-13T17:16:41Z) - Provably Efficient Causal Reinforcement Learning with Confounded
Observational Data [135.64775986546505]
オフラインで収集されたデータセット(観測データ)を組み込んで、オンライン環境でのサンプル効率を改善する方法について検討する。
提案手法は,観測データを効率よく組み込んだ,分解された楽観的値反復 (DOVI) アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-22T14:49:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。