論文の概要: Offline Reinforcement Learning at Multiple Frequencies
- arxiv url: http://arxiv.org/abs/2207.13082v1
- Date: Tue, 26 Jul 2022 17:54:49 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-27 12:30:38.706644
- Title: Offline Reinforcement Learning at Multiple Frequencies
- Title(参考訳): 複数の周波数でのオフライン強化学習
- Authors: Kaylee Burns, Tianhe Yu, Chelsea Finn, Karol Hausman
- Abstract要約: 本研究では、オフライン強化学習アルゴリズムが、トレーニング中に複数の周波数を混合したデータに対応できるかどうかについて検討する。
学習を安定させるために$Q$-valueの更新率で一貫性を強制する、単純だが効果的なソリューションを提案する。
- 参考スコア(独自算出の注目度): 62.08749079914275
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Leveraging many sources of offline robot data requires grappling with the
heterogeneity of such data. In this paper, we focus on one particular aspect of
heterogeneity: learning from offline data collected at different control
frequencies. Across labs, the discretization of controllers, sampling rates of
sensors, and demands of a task of interest may differ, giving rise to a mixture
of frequencies in an aggregated dataset. We study how well offline
reinforcement learning (RL) algorithms can accommodate data with a mixture of
frequencies during training. We observe that the $Q$-value propagates at
different rates for different discretizations, leading to a number of learning
challenges for off-the-shelf offline RL. We present a simple yet effective
solution that enforces consistency in the rate of $Q$-value updates to
stabilize learning. By scaling the value of $N$ in $N$-step returns with the
discretization size, we effectively balance $Q$-value propagation, leading to
more stable convergence. On three simulated robotic control problems, we
empirically find that this simple approach outperforms na\"ive mixing by 50% on
average.
- Abstract(参考訳): オフラインロボットデータの多くのソースを活用するには、そのようなデータの異質性に不満を抱く必要がある。
本稿では、異なる制御周波数で収集されたオフラインデータから学習する、異種性の特定の側面に焦点を当てる。
ラボ全体では、コントローラの離散化、センサーのサンプリング率、興味のあるタスクの要求が異なる可能性があるため、集約されたデータセットの周波数が混在する。
本研究では,オフライン強化学習(rl)アルゴリズムが,トレーニング中の周波数の混合によるデータ適応性について検討する。
q$-値が異なる離散化に対して異なるレートで伝播するのを観察し、オフラインのrlで多くの学習課題を引き起こした。
学習を安定させるために,$q$-value 更新率の一貫性を強制する,シンプルかつ効果的なソリューションを提案する。
離散化サイズで$N$-stepの値をスケールすることで、$Q$-valueの伝搬を効果的にバランスさせ、より安定した収束をもたらす。
3つのシミュレートロボット制御問題において,この単純なアプローチが平均50%のna\"iveミキシングよりも優れていることがわかった。
関連論文リスト
- Equivariant Offline Reinforcement Learning [7.822389399560674]
実演数が少ないオフラインRLに対して,$SO(2)$-equivariantなニューラルネットワークを使用することを検討した。
実験の結果,保守的Q-Learning(CQL)とImplicit Q-Learning(IQL)の同変バージョンは,同変でないQ-Learningよりも優れていることがわかった。
論文 参考訳(メタデータ) (2024-06-20T03:02:49Z) - Value function estimation using conditional diffusion models for control [62.27184818047923]
拡散値関数(DVF)と呼ばれる単純なアルゴリズムを提案する。
拡散モデルを用いて環境-ロボット相互作用の連成多段階モデルを学ぶ。
本稿では,DVFを用いて複数のコントローラの状態を効率よく把握する方法を示す。
論文 参考訳(メタデータ) (2023-06-09T18:40:55Z) - Federated Empirical Risk Minimization via Second-Order Method [18.548661105227488]
連合学習環境下での一般的な経験的リスク最小化問題を解決するためのインテリアポイント法(IPM)を提案する。
IPMの各イテレーションの通信複雑性は$tildeO(d3/2)$であり、$d$はデータセットの次元(つまり、多くの機能)である。
論文 参考訳(メタデータ) (2023-05-27T14:23:14Z) - Toward Understanding Generative Data Augmentation [16.204251285425478]
生成データの増大は、発散項の順序が$o(maxleft( log(m)beta_m, 1 / sqrtm)right)$である場合、より高速に学習できることを示す。
いずれの場合も、生成データの増大は学習速度の速さを損なうものではないが、列車セットが小さい場合、一定のレベルで学習保証を改善することができることを証明している。
論文 参考訳(メタデータ) (2023-05-27T13:46:08Z) - Deep Q-learning: a robust control approach [4.125187280299247]
ニューラルネットワークカーネルを用いて不確実な線形時間不変モデルを定式化し,学習を記述する。
周波数領域におけるエージェントの動作を学習し解析することの不安定さを示す。
OpenAI Gym環境における数値シミュレーションにより,$mathcalH_infty$制御学習はDouble Deep Q-learningよりも若干優れていたことが示唆された。
論文 参考訳(メタデータ) (2022-01-21T09:47:34Z) - An Experimental Design Perspective on Model-Based Reinforcement Learning [73.37942845983417]
環境からの状態遷移を観察するのは費用がかかる。
標準RLアルゴリズムは通常、学習するために多くの観測を必要とする。
本稿では,マルコフ決定過程について,状態-作用対がどの程度の情報を提供するかを定量化する獲得関数を提案する。
論文 参考訳(メタデータ) (2021-12-09T23:13:57Z) - Quasi-Global Momentum: Accelerating Decentralized Deep Learning on
Heterogeneous Data [77.88594632644347]
ディープラーニングモデルの分散トレーニングは、ネットワーク上でデータプライバシとデバイス上での学習を可能にする重要な要素である。
現実的な学習シナリオでは、異なるクライアントのローカルデータセットに異質性が存在することが最適化の課題となる。
本稿では,この分散学習の難しさを軽減するために,運動量に基づく新しい手法を提案する。
論文 参考訳(メタデータ) (2021-02-09T11:27:14Z) - Attentional-Biased Stochastic Gradient Descent [74.49926199036481]
深層学習におけるデータ不均衡やラベルノイズ問題に対処するための証明可能な手法(ABSGD)を提案する。
本手法は運動量SGDの簡易な修正であり,各試料に個別の重み付けを行う。
ABSGDは追加コストなしで他の堅牢な損失と組み合わせられるほど柔軟である。
論文 参考訳(メタデータ) (2020-12-13T03:41:52Z) - Coded Stochastic ADMM for Decentralized Consensus Optimization with Edge
Computing [113.52575069030192]
セキュリティ要件の高いアプリケーションを含むビッグデータは、モバイルデバイスやドローン、車両など、複数の異種デバイスに収集され、格納されることが多い。
通信コストとセキュリティ要件の制限のため、核融合センターにデータを集約するのではなく、分散的に情報を抽出することが最重要となる。
分散エッジノードを介してデータを局所的に処理するマルチエージェントシステムにおいて,モデルパラメータを学習する問題を考える。
分散学習モデルを開発するために,乗算器アルゴリズムの最小バッチ交互方向法(ADMM)のクラスについて検討した。
論文 参考訳(メタデータ) (2020-10-02T10:41:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。