論文の概要: An Intelligent Social Learning-based Optimization Strategy for Black-box
Robotic Control with Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2311.06576v1
- Date: Sat, 11 Nov 2023 14:11:49 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-14 17:59:04.505318
- Title: An Intelligent Social Learning-based Optimization Strategy for Black-box
Robotic Control with Reinforcement Learning
- Title(参考訳): 強化学習を用いたブラックボックスロボット制御のための知的社会学習に基づく最適化戦略
- Authors: Xubo Yang, Jian Gao, Ting Wang, Yaozhen He
- Abstract要約: 本稿では,ブラックボックスロボットシステムのインテリジェント制御を実現するための知的社会学習アルゴリズムを提案する。
ヒトの社会集団における個人間の相互学習にインスパイアされたISLは、学習、模倣、自己学習スタイルを含む。
In this proposed ISL algorithm is compared with four-of-the-art method on six continuous control benchmark case in MuJoCo。
- 参考スコア(独自算出の注目度): 12.793357751752687
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Implementing intelligent control of robots is a difficult task, especially
when dealing with complex black-box systems, because of the lack of visibility
and understanding of how these robots work internally. This paper proposes an
Intelligent Social Learning (ISL) algorithm to enable intelligent control of
black-box robotic systems. Inspired by mutual learning among individuals in
human social groups, ISL includes learning, imitation, and self-study styles.
Individuals in the learning style use the Levy flight search strategy to learn
from the best performer and form the closest relationships. In the imitation
style, individuals mimic the best performer with a second-level rapport by
employing a random perturbation strategy. In the self-study style, individuals
learn independently using a normal distribution sampling method while
maintaining a distant relationship with the best performer. Individuals in the
population are regarded as autonomous intelligent agents in each style. Neural
networks perform strategic actions in three styles to interact with the
environment and the robot and iteratively optimize the network policy. Overall,
ISL builds on the principles of intelligent optimization, incorporating ideas
from reinforcement learning, and possesses strong search capabilities, fast
computation speed, fewer hyperparameters, and insensitivity to sparse rewards.
The proposed ISL algorithm is compared with four state-of-the-art methods on
six continuous control benchmark cases in MuJoCo to verify its effectiveness
and advantages. Furthermore, ISL is adopted in the simulation and experimental
grasping tasks of the UR3 robot for validations, and satisfactory solutions are
yielded.
- Abstract(参考訳): ロボットのインテリジェントな制御を実装することは、特に複雑なブラックボックスシステムを扱う場合、これらのロボットの内部動作の可視性と理解が欠如しているため、難しい作業である。
本稿では,ブラックボックスロボットシステムのインテリジェント制御を実現するための知的社会学習(ISL)アルゴリズムを提案する。
ヒトの社会集団における個人間の相互学習にインスパイアされたISLは、学習、模倣、自己学習スタイルを含む。
学習スタイルの個人は、最高のパフォーマーから学び、最も近い関係を形成するために、levy flight search戦略を使用する。
模倣スタイルでは、個人はランダムな摂動戦略を用いて第2レベルのラプポートで最高のパフォーマーを模倣する。
自己学習スタイルでは、個人は、ベストパフォーマーとの遠い関係を維持しながら、正規分布サンプリング手法を用いて独立して学習する。
人口の個人は、それぞれのスタイルで自律的な知的エージェントとみなされる。
ニューラルネットワークは、環境とロボットと相互作用し、ネットワークポリシーを反復的に最適化するために、3つのスタイルで戦略的行動を実行する。
全体として、ISLは知的最適化の原理に基づいており、強化学習のアイデアを取り入れ、強力な探索能力、高速な計算速度、ハイパーパラメータの減少、スパース報酬に対する感度を持っている。
提案するislアルゴリズムは,mujocoの6つの連続制御ベンチマークケースにおいて4つの最先端手法と比較し,その効果と利点を検証した。
さらに、UR3ロボットのシミュレーションおよび実験的な把握タスクにISLを採用し、良好な解が得られる。
関連論文リスト
- Precise and Dexterous Robotic Manipulation via Human-in-the-Loop Reinforcement Learning [47.785786984974855]
本稿では,多種多様な操作タスクに対して印象的な性能を示す,ループ内視覚に基づくRLシステムを提案する。
提案手法では,実証と人間の修正,効率的なRLアルゴリズム,その他のシステムレベルの設計選択を統合してポリシを学習する。
提案手法は,再現学習のベースラインと先行RLアプローチを著しく上回り,成功率の平均2倍,実行速度1.8倍に向上した。
論文 参考訳(メタデータ) (2024-10-29T08:12:20Z) - Research on Autonomous Robots Navigation based on Reinforcement Learning [13.559881645869632]
我々は、経路計画と意思決定プロセスを最適化するために、Deep Q Network (DQN) と Proximal Policy Optimization (PPO) モデルを使用します。
様々な複雑なシナリオにおいて,これらのモデルの有効性とロバスト性を検証した。
論文 参考訳(メタデータ) (2024-07-02T00:44:06Z) - SELFI: Autonomous Self-Improvement with Reinforcement Learning for Social Navigation [54.97931304488993]
体験と対話し、改善する自己改善ロボットは、ロボットシステムの現実的な展開の鍵となる。
本研究では,オンラインロボット体験を活用したオンライン学習手法であるSELFIを提案する。
本研究では, 衝突回避の観点からの改善と, より社会的に順応する行動について報告する。
論文 参考訳(メタデータ) (2024-03-01T21:27:03Z) - RLIF: Interactive Imitation Learning as Reinforcement Learning [56.997263135104504]
我々は,対話型模倣学習と類似するが,さらに実践的な仮定の下で,非政治強化学習によってパフォーマンスが向上できることを実証する。
提案手法は,ユーザ介入信号を用いた強化学習を報奨として利用する。
このことは、インタラクティブな模倣学習において介入する専門家がほぼ最適であるべきだという仮定を緩和し、アルゴリズムが潜在的に最適でない人間の専門家よりも改善される行動を学ぶことを可能にする。
論文 参考訳(メタデータ) (2023-11-21T21:05:21Z) - Stabilizing Contrastive RL: Techniques for Robotic Goal Reaching from
Offline Data [101.43350024175157]
自己指導型学習は、制御戦略を学ぶのに必要な人間のアノテーションとエンジニアリングの労力を減らす可能性がある。
我々の研究は、強化学習(RL)自体が自己監督的な問題であることを示す先行研究に基づいている。
コントラスト学習に基づく自己教師付きRLアルゴリズムは,実世界の画像に基づくロボット操作タスクを解くことができることを示す。
論文 参考訳(メタデータ) (2023-06-06T01:36:56Z) - Active Predicting Coding: Brain-Inspired Reinforcement Learning for
Sparse Reward Robotic Control Problems [79.07468367923619]
ニューラルジェネレーティブ・コーディング(NGC)の神経認知計算フレームワークによるロボット制御へのバックプロパゲーションフリーアプローチを提案する。
我々は、スパース報酬から動的オンライン学習を容易にする強力な予測符号化/処理回路から完全に構築されたエージェントを設計する。
提案するActPCエージェントは,スパース(外部)報酬信号に対して良好に動作し,複数の強力なバックプロップベースのRLアプローチと競合し,性能が優れていることを示す。
論文 参考訳(メタデータ) (2022-09-19T16:49:32Z) - Strategy Discovery and Mixture in Lifelong Learning from Heterogeneous
Demonstration [1.2891210250935146]
実証から学ぶ(LfD)アプローチは、エンドユーザに望ましい振る舞いのデモンストレーションを通じて、ロボットに新しいタスクを教えることを促す。
本稿では,異種間における共通知識を抽出する動的マルチストラテジー・リワード蒸留法(DMSRD)を提案する。
当社のパーソナライズ、フェデレーション、生涯にわたるLfDアーキテクチャは、2つの継続的制御問題におけるベンチマークを上回り、ポリシーリターンは平均77%、ログリターンは42%改善しています。
論文 参考訳(メタデータ) (2022-02-14T20:10:25Z) - SAGCI-System: Towards Sample-Efficient, Generalizable, Compositional,
and Incremental Robot Learning [41.19148076789516]
上記の4つの要件を満たすために,SAGCIシステムと呼ばれる体系的な学習フレームワークを導入する。
本システムはまず,ロボットの手首に搭載されたカメラによって収集された生点雲を入力とし,URDFに代表される周囲環境の初期モデリングを生成する。
そのロボットは、対話的な知覚を利用して環境と対話し、URDFのオンライン検証と修正を行う。
論文 参考訳(メタデータ) (2021-11-29T16:53:49Z) - Enhanced Adversarial Strategically-Timed Attacks against Deep
Reinforcement Learning [91.13113161754022]
本稿では,DRLに基づくナビゲーションシステムに対して,選択した時間フレーム上の物理ノイズパターンを妨害することにより,タイミングに基づく逆方向戦略を導入する。
実験結果から, 対向タイミング攻撃は性能低下を引き起こす可能性が示唆された。
論文 参考訳(メタデータ) (2020-02-20T21:39:25Z) - Learning Whole-body Motor Skills for Humanoids [25.443880385966114]
本稿では,多種多様なプッシュリカバリとバランス行動のための運動スキルを習得するDeep Reinforcement Learningの階層的枠組みを提案する。
この方針は、ロボットモデルの現実的な設定と、学習したスキルを実際のロボットに簡単に伝達できる低レベルのインピーダンス制御を備えた物理シミュレーターで訓練されている。
論文 参考訳(メタデータ) (2020-02-07T19:40:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。