論文の概要: Towards Deep Robot Learning with Optimizer applicable to Non-stationary
Problems
- arxiv url: http://arxiv.org/abs/2007.15890v1
- Date: Fri, 31 Jul 2020 07:55:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-04 06:11:08.387860
- Title: Towards Deep Robot Learning with Optimizer applicable to Non-stationary
Problems
- Title(参考訳): 非定常問題に適用可能な最適化を用いた深層ロボット学習に向けて
- Authors: Taisuke Kobayashi
- Abstract要約: 実世界のデータでは、ロボットのスキルを学ぶために使われるデータセットからノイズとアウトリーチを除外することはできない。
この問題を解決するためにいくつかのノイズロバストが開発されており、そのうちの1つ、AmsGradは収束の証明を持っている。
実際には、ロボットのシナリオにおける学習性能は向上しない。
非定常問題に適応するために、改良されたバージョンが提案され、これは緩やかに第2モーメントを減衰させる。
- 参考スコア(独自算出の注目度): 8.071506311915396
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper proposes a new optimizer for deep learning, named d-AmsGrad. In
the real-world data, noise and outliers cannot be excluded from dataset to be
used for learning robot skills. This problem is especially striking for robots
that learn by collecting data in real time, which cannot be sorted manually.
Several noise-robust optimizers have therefore been developed to resolve this
problem, and one of them, named AmsGrad, which is a variant of Adam optimizer,
has a proof of its convergence. However, in practice, it does not improve
learning performance in robotics scenarios. This reason is hypothesized that
most of robot learning problems are non-stationary, but AmsGrad assumes the
maximum second momentum during learning to be stationarily given. In order to
adapt to the non-stationary problems, an improved version, which slowly decays
the maximum second momentum, is proposed. The proposed optimizer has the same
capability of reaching the global optimum as baselines, and its performance
outperformed that of the baselines in robotics problems.
- Abstract(参考訳): 本稿では,d-amsgradと呼ばれる深層学習のための新しい最適化器を提案する。
実世界のデータでは、ロボットのスキルを学ぶために使用するデータセットからノイズや外れ値を排除することはできない。
この問題は、データをリアルタイムで収集することで学習するロボットにとって特に重要であり、手作業ではソートできない。
そのため、この問題を解決するためにいくつかのノイズローバストオプティマイザが開発され、Adam Optimizationr の変種である AmsGrad は、その収束の証明を持っている。
しかし、実際にはロボットのシナリオにおける学習性能は向上しない。
この理由は、ほとんどのロボット学習問題は静止していないと仮定されているが、AmsGradは学習中に最大2番目の運動量を与えると仮定している。
非定常問題に適応するために, 最大2次運動量を緩やかに減少させる改良版を提案する。
提案するオプティマイザは,ベースラインと同じ世界的最適点に達する能力を有し,その性能はロボティクス問題におけるベースラインよりも優れていた。
関連論文リスト
- Simulation-Aided Policy Tuning for Black-Box Robot Learning [47.83474891747279]
本稿では,データ効率の向上に着目した新しいブラックボックスポリシー探索アルゴリズムを提案する。
このアルゴリズムはロボット上で直接学習し、シミュレーションを追加の情報源として扱い、学習プロセスを高速化する。
ロボットマニピュレータ上でのタスク学習の高速化と成功を,不完全なシミュレータの助けを借りて示す。
論文 参考訳(メタデータ) (2024-11-21T15:52:23Z) - Multi-Objective Algorithms for Learning Open-Ended Robotic Problems [1.0124625066746598]
四足歩行は、自動運転車の普及に不可欠な複雑でオープンな問題である。
従来の強化学習アプローチは、トレーニングの不安定性とサンプルの非効率のため、しばしば不足する。
自動カリキュラム学習機構として多目的進化アルゴリズムを活用する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-11-11T16:26:42Z) - Robotic warehousing operations: a learn-then-optimize approach to large-scale neighborhood search [84.39855372157616]
本稿では,ワークステーションの注文処理,アイテムポッドの割り当て,ワークステーションでの注文処理のスケジュールを最適化することで,ウェアハウジングにおけるロボット部品対ピッカー操作を支援する。
そこで我々は, 大規模近傍探索を用いて, サブプロブレム生成に対する学習を最適化する手法を提案する。
Amazon Roboticsと共同で、我々のモデルとアルゴリズムは、最先端のアプローチよりも、実用的な問題に対するより強力なソリューションを生み出していることを示す。
論文 参考訳(メタデータ) (2024-08-29T20:22:22Z) - SERL: A Software Suite for Sample-Efficient Robotic Reinforcement
Learning [85.21378553454672]
筆者らは,報酬の計算と環境のリセットを行う手法とともに,効率的なオフ・ポリティクス・ディープ・RL法を含むライブラリを開発した。
我々は,PCBボードアセンブリ,ケーブルルーティング,オブジェクトの移動に関するポリシを,非常に効率的な学習を実現することができることを発見した。
これらの政策は完全な成功率またはほぼ完全な成功率、摂動下でさえ極端な堅牢性を実現し、突発的な堅牢性回復と修正行動を示す。
論文 参考訳(メタデータ) (2024-01-29T10:01:10Z) - On-Robot Bayesian Reinforcement Learning for POMDPs [16.667924736270415]
本稿では,ロボット工学におけるベイズ強化学習を,物理システムのための特殊フレームワークの提案により進める。
この知識を因子表現で捉え、後続の分解を同様の形で示し、最終的にベイズ的枠組みでモデルを定式化する。
次に,モンテカルロ木探索と粒子フィルタリングに基づくサンプルベースオンライン解法を提案する。
論文 参考訳(メタデータ) (2023-07-22T01:16:29Z) - Open Problems in Applied Deep Learning [2.1320960069210475]
この研究は、機械学習メカニズムを二段階最適化問題として定式化する。
内部レベル最適化ループは、トレーニングデータに基づいて評価された適切に選択された損失関数を最小化する。
外部レベルの最適化ループは、あまりよく研究されておらず、バリデーションデータに基づいて評価された適切に選択された性能指標を最大化する。
論文 参考訳(メタデータ) (2023-01-26T18:55:43Z) - Delayed Geometric Discounts: An Alternative Criterion for Reinforcement
Learning [1.52292571922932]
強化学習(RL)は、最適行動を学ぶ理論的背景を提案する。
実際には、RLアルゴリズムはこの最適性を評価するために幾何割引に依存する。
本稿では,遅延対象関数の族による割引問題定式化を一般化することにより,これらの問題に対処する。
論文 参考訳(メタデータ) (2022-09-26T07:49:38Z) - Don't Start From Scratch: Leveraging Prior Data to Automate Robotic
Reinforcement Learning [70.70104870417784]
強化学習(RL)アルゴリズムは、ロボットシステムの自律的なスキル獲得を可能にするという約束を持っている。
現実のロボットRLは、通常、環境をリセットするためにデータ収集と頻繁な人間の介入を必要とする。
本研究では,従来のタスクから収集した多様なオフラインデータセットを効果的に活用することで,これらの課題にどのように対処できるかを検討する。
論文 参考訳(メタデータ) (2022-07-11T08:31:22Z) - Model Predictive Control for Fluid Human-to-Robot Handovers [50.72520769938633]
人間の快適さを考慮に入れた計画運動は、人間ロボットのハンドオーバプロセスの一部ではない。
本稿では,効率的なモデル予測制御フレームワークを用いてスムーズな動きを生成することを提案する。
ユーザ数名の多様なオブジェクトに対して,人間とロボットのハンドオーバ実験を行う。
論文 参考訳(メタデータ) (2022-03-31T23:08:20Z) - Self-Directed Online Machine Learning for Topology Optimization [58.920693413667216]
自己指向型オンライン学習最適化は、ディープニューラルネットワーク(DNN)と有限要素法(FEM)計算を統合している。
本アルゴリズムは, コンプライアンスの最小化, 流体構造最適化, 伝熱促進, トラス最適化の4種類の問題によって検証された。
その結果, 直接使用法と比較して計算時間を2~5桁削減し, 実験で検証した全ての最先端アルゴリズムより優れていた。
論文 参考訳(メタデータ) (2020-02-04T20:00:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。