論文の概要: Towards Deep Robot Learning with Optimizer applicable to Non-stationary
Problems
- arxiv url: http://arxiv.org/abs/2007.15890v1
- Date: Fri, 31 Jul 2020 07:55:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-04 06:11:08.387860
- Title: Towards Deep Robot Learning with Optimizer applicable to Non-stationary
Problems
- Title(参考訳): 非定常問題に適用可能な最適化を用いた深層ロボット学習に向けて
- Authors: Taisuke Kobayashi
- Abstract要約: 実世界のデータでは、ロボットのスキルを学ぶために使われるデータセットからノイズとアウトリーチを除外することはできない。
この問題を解決するためにいくつかのノイズロバストが開発されており、そのうちの1つ、AmsGradは収束の証明を持っている。
実際には、ロボットのシナリオにおける学習性能は向上しない。
非定常問題に適応するために、改良されたバージョンが提案され、これは緩やかに第2モーメントを減衰させる。
- 参考スコア(独自算出の注目度): 8.071506311915396
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper proposes a new optimizer for deep learning, named d-AmsGrad. In
the real-world data, noise and outliers cannot be excluded from dataset to be
used for learning robot skills. This problem is especially striking for robots
that learn by collecting data in real time, which cannot be sorted manually.
Several noise-robust optimizers have therefore been developed to resolve this
problem, and one of them, named AmsGrad, which is a variant of Adam optimizer,
has a proof of its convergence. However, in practice, it does not improve
learning performance in robotics scenarios. This reason is hypothesized that
most of robot learning problems are non-stationary, but AmsGrad assumes the
maximum second momentum during learning to be stationarily given. In order to
adapt to the non-stationary problems, an improved version, which slowly decays
the maximum second momentum, is proposed. The proposed optimizer has the same
capability of reaching the global optimum as baselines, and its performance
outperformed that of the baselines in robotics problems.
- Abstract(参考訳): 本稿では,d-amsgradと呼ばれる深層学習のための新しい最適化器を提案する。
実世界のデータでは、ロボットのスキルを学ぶために使用するデータセットからノイズや外れ値を排除することはできない。
この問題は、データをリアルタイムで収集することで学習するロボットにとって特に重要であり、手作業ではソートできない。
そのため、この問題を解決するためにいくつかのノイズローバストオプティマイザが開発され、Adam Optimizationr の変種である AmsGrad は、その収束の証明を持っている。
しかし、実際にはロボットのシナリオにおける学習性能は向上しない。
この理由は、ほとんどのロボット学習問題は静止していないと仮定されているが、AmsGradは学習中に最大2番目の運動量を与えると仮定している。
非定常問題に適応するために, 最大2次運動量を緩やかに減少させる改良版を提案する。
提案するオプティマイザは,ベースラインと同じ世界的最適点に達する能力を有し,その性能はロボティクス問題におけるベースラインよりも優れていた。
関連論文リスト
- SERL: A Software Suite for Sample-Efficient Robotic Reinforcement
Learning [85.21378553454672]
筆者らは,報酬の計算と環境のリセットを行う手法とともに,効率的なオフ・ポリティクス・ディープ・RL法を含むライブラリを開発した。
我々は,PCBボードアセンブリ,ケーブルルーティング,オブジェクトの移動に関するポリシを,非常に効率的な学習を実現することができることを発見した。
これらの政策は完全な成功率またはほぼ完全な成功率、摂動下でさえ極端な堅牢性を実現し、突発的な堅牢性回復と修正行動を示す。
論文 参考訳(メタデータ) (2024-01-29T10:01:10Z) - Robustness for Free: Quality-Diversity Driven Discovery of Agile Soft
Robotic Gaits [0.7829600874436199]
地形変化に頑健な歩留まりのレパートリーを,品質多様性アルゴリズムがいかに生み出すかを示す。
このロバスト性は、単一の目的最適化アルゴリズムによって生成される歩留まりを大きく上回る。
論文 参考訳(メタデータ) (2023-11-02T14:00:11Z) - Towards Robust Continual Learning with Bayesian Adaptive Moment
Regularization [57.71118589124002]
継続的な学習は破滅的な忘れ込みという課題を克服しようと試み、そこでは新しいタスクを解くための学習が、モデルが以前に学習した情報を忘れる原因となる。
本稿では,パラメータ成長の制約を緩和し,破滅的な忘れ込みを抑える新しい事前手法を提案する。
以上の結果から, BAdamは, 単頭クラスインクリメンタル実験に挑戦する先行手法に対して, 最先端の性能を達成できることが示唆された。
論文 参考訳(メタデータ) (2023-09-15T17:10:51Z) - On-Robot Bayesian Reinforcement Learning for POMDPs [16.667924736270415]
本稿では,ロボット工学におけるベイズ強化学習を,物理システムのための特殊フレームワークの提案により進める。
この知識を因子表現で捉え、後続の分解を同様の形で示し、最終的にベイズ的枠組みでモデルを定式化する。
次に,モンテカルロ木探索と粒子フィルタリングに基づくサンプルベースオンライン解法を提案する。
論文 参考訳(メタデータ) (2023-07-22T01:16:29Z) - Open Problems in Applied Deep Learning [2.1320960069210475]
この研究は、機械学習メカニズムを二段階最適化問題として定式化する。
内部レベル最適化ループは、トレーニングデータに基づいて評価された適切に選択された損失関数を最小化する。
外部レベルの最適化ループは、あまりよく研究されておらず、バリデーションデータに基づいて評価された適切に選択された性能指標を最大化する。
論文 参考訳(メタデータ) (2023-01-26T18:55:43Z) - Delayed Geometric Discounts: An Alternative Criterion for Reinforcement
Learning [1.52292571922932]
強化学習(RL)は、最適行動を学ぶ理論的背景を提案する。
実際には、RLアルゴリズムはこの最適性を評価するために幾何割引に依存する。
本稿では,遅延対象関数の族による割引問題定式化を一般化することにより,これらの問題に対処する。
論文 参考訳(メタデータ) (2022-09-26T07:49:38Z) - Don't Start From Scratch: Leveraging Prior Data to Automate Robotic
Reinforcement Learning [70.70104870417784]
強化学習(RL)アルゴリズムは、ロボットシステムの自律的なスキル獲得を可能にするという約束を持っている。
現実のロボットRLは、通常、環境をリセットするためにデータ収集と頻繁な人間の介入を必要とする。
本研究では,従来のタスクから収集した多様なオフラインデータセットを効果的に活用することで,これらの課題にどのように対処できるかを検討する。
論文 参考訳(メタデータ) (2022-07-11T08:31:22Z) - Model Predictive Control for Fluid Human-to-Robot Handovers [50.72520769938633]
人間の快適さを考慮に入れた計画運動は、人間ロボットのハンドオーバプロセスの一部ではない。
本稿では,効率的なモデル予測制御フレームワークを用いてスムーズな動きを生成することを提案する。
ユーザ数名の多様なオブジェクトに対して,人間とロボットのハンドオーバ実験を行う。
論文 参考訳(メタデータ) (2022-03-31T23:08:20Z) - A distributed, plug-n-play algorithm for multi-robot applications with a
priori non-computable objective functions [2.2452191187045383]
マルチロボットアプリケーションでは、ミッションのユーザ定義の目的を一般的な最適化問題として当てはめることができる。
これらの問題には標準勾配の差分型アルゴリズムは適用できない。
本稿では,各ロボットのサブコスト関数を慎重に設計するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-11-14T20:40:00Z) - Tasks, stability, architecture, and compute: Training more effective
learned optimizers, and using them to train themselves [53.37905268850274]
我々は、自動正規化を実現するために、バリデーション損失などの追加機能にアクセス可能な、階層的で階層的なニューラルネットワークパラメータ化を導入した。
ほとんどの学習は単一のタスク、あるいは少数のタスクでトレーニングされています。
何千ものタスクをトレーニングし、桁違いに計算量を増やし、その結果、目に見えないタスクよりも優れたパフォーマンスの一般化を実現します。
論文 参考訳(メタデータ) (2020-09-23T16:35:09Z) - Self-Directed Online Machine Learning for Topology Optimization [58.920693413667216]
自己指向型オンライン学習最適化は、ディープニューラルネットワーク(DNN)と有限要素法(FEM)計算を統合している。
本アルゴリズムは, コンプライアンスの最小化, 流体構造最適化, 伝熱促進, トラス最適化の4種類の問題によって検証された。
その結果, 直接使用法と比較して計算時間を2~5桁削減し, 実験で検証した全ての最先端アルゴリズムより優れていた。
論文 参考訳(メタデータ) (2020-02-04T20:00:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。