論文の概要: Continuous Transition: Improving Sample Efficiency for Continuous
Control Problems via MixUp
- arxiv url: http://arxiv.org/abs/2011.14487v2
- Date: Sun, 7 Mar 2021 04:59:11 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-06 14:39:15.247629
- Title: Continuous Transition: Improving Sample Efficiency for Continuous
Control Problems via MixUp
- Title(参考訳): 連続遷移:ミックスアップによる連続制御問題に対するサンプル効率の改善
- Authors: Junfan Lin, Zhongzhan Huang, Keze Wang, Xiaodan Liang, Weiwei Chen,
and Liang Lin
- Abstract要約: 本稿では,連続的遷移を構築するための簡潔かつ強力な手法を提案する。
具体的には、連続的な遷移を線形に補間することにより、トレーニングのための新しい遷移を合成することを提案する。
また, 建設過程を自動案内する判別器を開発した。
- 参考スコア(独自算出の注目度): 119.69304125647785
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Although deep reinforcement learning (RL) has been successfully applied to a
variety of robotic control tasks, it's still challenging to apply it to
real-world tasks, due to the poor sample efficiency. Attempting to overcome
this shortcoming, several works focus on reusing the collected trajectory data
during the training by decomposing them into a set of policy-irrelevant
discrete transitions. However, their improvements are somewhat marginal since
i) the amount of the transitions is usually small, and ii) the value assignment
only happens in the joint states. To address these issues, this paper
introduces a concise yet powerful method to construct Continuous Transition,
which exploits the trajectory information by exploiting the potential
transitions along the trajectory. Specifically, we propose to synthesize new
transitions for training by linearly interpolating the consecutive transitions.
To keep the constructed transitions authentic, we also develop a discriminator
to guide the construction process automatically. Extensive experiments
demonstrate that our proposed method achieves a significant improvement in
sample efficiency on various complex continuous robotic control problems in
MuJoCo and outperforms the advanced model-based / model-free RL methods. The
source code is available.
- Abstract(参考訳): 深部強化学習(RL)は様々なロボット制御タスクにうまく適用されているが、サンプル効率の低さから現実のタスクに応用することは依然として困難である。
この欠点を克服しようと、いくつかの研究は、訓練中に収集された軌跡データを政策に関係のない離散的な遷移に分解することで再利用することに焦点を当てた。
しかし、その改善は (i) 遷移の量は通常小さく、 (i) 値の割り当ては結合状態でのみ発生するため、多少限界がある。
これらの問題に対処するため,本論文では,経路に沿った潜在的な遷移を利用して軌道情報を利用する連続遷移を構築するための簡潔かつ強力な手法を提案する。
具体的には,連続的な遷移を線形補間することにより,学習のための新しい遷移を合成する。
構築された遷移を本物に保つために、我々は、自動的に構築プロセスを導く識別器も開発する。
提案手法は, MuJoCo の複雑な連続ロボット制御問題に対して, サンプル効率を大幅に向上し, モデルベース/モデルフリー RL 法より優れていることを示す。
ソースコードは利用可能である。
関連論文リスト
- Offline Reinforcement Learning from Datasets with Structured Non-Stationarity [50.35634234137108]
現在の強化学習(RL)は、成功するポリシーを学ぶのに必要な大量のデータによって制限されることが多い。
本稿では,データセットを収集しながら,各エピソードの遷移と報酬関数が徐々に変化するが,各エピソード内で一定に保たれるような新しいオフラインRL問題に対処する。
本稿では、オフラインデータセットにおけるこの非定常性を識別し、ポリシーのトレーニング時にそれを説明し、評価中に予測するContrastive Predictive Codingに基づく手法を提案する。
論文 参考訳(メタデータ) (2024-05-23T02:41:36Z) - Beyond Anti-Forgetting: Multimodal Continual Instruction Tuning with Positive Forward Transfer [21.57847333976567]
MCIT(Multimodal Continual Instruction Tuning)は、Multimodal Large Language Models(MLLM)が、高価なリトレーニングなしで継続的な要求を満たすことを可能にする。
MCITは、破滅的な忘れ(古い知識が忘れられている)と負の転送という2つの大きな障害に直面している。
本稿では,これらの問題に対処するため,Pwd-Prompt Forward Transfer(Pwd-Prompt)を用いたPrompt Tuningを提案する。
論文 参考訳(メタデータ) (2024-01-17T12:44:17Z) - Solving Continual Offline Reinforcement Learning with Decision Transformer [78.59473797783673]
連続的オフライン強化学習(CORL)は、連続的およびオフライン的な強化学習を組み合わせたものである。
Actor-Critic構造とエクスペリエンス・リプレイ(ER)を取り入れた既存の手法は、分散シフト、低効率、知識共有の弱さに悩まされている。
我々は,マルチヘッドDT (MH-DT) とローランク適応DT (LoRA-DT) を導入し,DTの無視問題を緩和する。
論文 参考訳(メタデータ) (2024-01-16T16:28:32Z) - Diffusion Generative Flow Samplers: Improving learning signals through
partial trajectory optimization [87.21285093582446]
Diffusion Generative Flow Samplers (DGFS) はサンプルベースのフレームワークであり、学習プロセスを短い部分的軌道セグメントに分解することができる。
生成フローネットワーク(GFlowNets)のための理論から着想を得た。
論文 参考訳(メタデータ) (2023-10-04T09:39:05Z) - Contrastive Example-Based Control [163.6482792040079]
報酬関数ではなく多段階遷移の暗黙的なモデルを学ぶオフラインのサンプルベース制御法を提案する。
状態ベースおよび画像ベースのオフライン制御タスクの範囲で、学習された報酬関数を使用するベースラインよりも優れています。
論文 参考訳(メタデータ) (2023-07-24T19:43:22Z) - Real-time Controllable Motion Transition for Characters [14.88407656218885]
リアルタイムの動作生成はゲームでは普遍的に必要であり、既存のアニメーションパイプラインでは非常に望ましい。
我々のアプローチは、運動多様体と条件遷移という2つの重要な構成要素から構成される。
提案手法は,複数の測定基準の下で測定された高品質な動きを生成できることを示す。
論文 参考訳(メタデータ) (2022-05-05T10:02:54Z) - Transition Motion Tensor: A Data-Driven Approach for Versatile and
Controllable Agents in Physically Simulated Environments [6.8438089867929905]
本稿では,動きデータセットの外部に新しい,物理的に正確な遷移を生成する,データ駆動型フレームワークを提案する。
シミュレーションキャラクタは、既存のものを変更することなく、効率よく、堅牢に新しいモーションスキルを採用できる。
論文 参考訳(メタデータ) (2021-11-30T02:17:25Z) - Adversarial Imitation Learning with Trajectorial Augmentation and
Correction [61.924411952657756]
本稿では,拡張軌道の成功を保った新しい拡張手法を提案する。
我々は, 合成専門家を用いた模倣エージェントの訓練を行うために, 逆データ拡張模倣アーキテクチャを開発した。
実験により,我々のデータ拡張戦略は,敵対的模倣の精度と収束時間を向上できることが示された。
論文 参考訳(メタデータ) (2021-03-25T14:49:32Z) - Data-efficient Weakly-supervised Learning for On-line Object Detection
under Domain Shift in Robotics [24.878465999976594]
文献では、Deep Convolutional Neural Networks (DCNNs)に基づく多数のオブジェクト検出方法が提案されている。
これらの手法はロボティクスに重要な制限がある:オフラインデータのみに学習するとバイアスが発生し、新しいタスクへの適応を防ぐことができる。
本研究では,弱い教師付き学習がこれらの問題にどのように対処できるかを検討する。
論文 参考訳(メタデータ) (2020-12-28T16:36:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。