論文の概要: An Intelligent Social Learning-based Optimization Strategy for Black-box
Robotic Control with Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2311.06576v1
- Date: Sat, 11 Nov 2023 14:11:49 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-14 17:59:04.505318
- Title: An Intelligent Social Learning-based Optimization Strategy for Black-box
Robotic Control with Reinforcement Learning
- Title(参考訳): 強化学習を用いたブラックボックスロボット制御のための知的社会学習に基づく最適化戦略
- Authors: Xubo Yang, Jian Gao, Ting Wang, Yaozhen He
- Abstract要約: 本稿では,ブラックボックスロボットシステムのインテリジェント制御を実現するための知的社会学習アルゴリズムを提案する。
ヒトの社会集団における個人間の相互学習にインスパイアされたISLは、学習、模倣、自己学習スタイルを含む。
In this proposed ISL algorithm is compared with four-of-the-art method on six continuous control benchmark case in MuJoCo。
- 参考スコア(独自算出の注目度): 12.793357751752687
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Implementing intelligent control of robots is a difficult task, especially
when dealing with complex black-box systems, because of the lack of visibility
and understanding of how these robots work internally. This paper proposes an
Intelligent Social Learning (ISL) algorithm to enable intelligent control of
black-box robotic systems. Inspired by mutual learning among individuals in
human social groups, ISL includes learning, imitation, and self-study styles.
Individuals in the learning style use the Levy flight search strategy to learn
from the best performer and form the closest relationships. In the imitation
style, individuals mimic the best performer with a second-level rapport by
employing a random perturbation strategy. In the self-study style, individuals
learn independently using a normal distribution sampling method while
maintaining a distant relationship with the best performer. Individuals in the
population are regarded as autonomous intelligent agents in each style. Neural
networks perform strategic actions in three styles to interact with the
environment and the robot and iteratively optimize the network policy. Overall,
ISL builds on the principles of intelligent optimization, incorporating ideas
from reinforcement learning, and possesses strong search capabilities, fast
computation speed, fewer hyperparameters, and insensitivity to sparse rewards.
The proposed ISL algorithm is compared with four state-of-the-art methods on
six continuous control benchmark cases in MuJoCo to verify its effectiveness
and advantages. Furthermore, ISL is adopted in the simulation and experimental
grasping tasks of the UR3 robot for validations, and satisfactory solutions are
yielded.
- Abstract(参考訳): ロボットのインテリジェントな制御を実装することは、特に複雑なブラックボックスシステムを扱う場合、これらのロボットの内部動作の可視性と理解が欠如しているため、難しい作業である。
本稿では,ブラックボックスロボットシステムのインテリジェント制御を実現するための知的社会学習(ISL)アルゴリズムを提案する。
ヒトの社会集団における個人間の相互学習にインスパイアされたISLは、学習、模倣、自己学習スタイルを含む。
学習スタイルの個人は、最高のパフォーマーから学び、最も近い関係を形成するために、levy flight search戦略を使用する。
模倣スタイルでは、個人はランダムな摂動戦略を用いて第2レベルのラプポートで最高のパフォーマーを模倣する。
自己学習スタイルでは、個人は、ベストパフォーマーとの遠い関係を維持しながら、正規分布サンプリング手法を用いて独立して学習する。
人口の個人は、それぞれのスタイルで自律的な知的エージェントとみなされる。
ニューラルネットワークは、環境とロボットと相互作用し、ネットワークポリシーを反復的に最適化するために、3つのスタイルで戦略的行動を実行する。
全体として、ISLは知的最適化の原理に基づいており、強化学習のアイデアを取り入れ、強力な探索能力、高速な計算速度、ハイパーパラメータの減少、スパース報酬に対する感度を持っている。
提案するislアルゴリズムは,mujocoの6つの連続制御ベンチマークケースにおいて4つの最先端手法と比較し,その効果と利点を検証した。
さらに、UR3ロボットのシミュレーションおよび実験的な把握タスクにISLを採用し、良好な解が得られる。
関連論文リスト
- Mathematics of multi-agent learning systems at the interface of game
theory and artificial intelligence [0.8049333067399385]
進化ゲーム理論と人工知能は、一見すると異なるように見える2つの分野であるが、それらは顕著なつながりと交差を持っている。
前者は集団における行動(または戦略)の進化に焦点を当て、個人が他人と対話し、模倣(または社会学習)に基づいて戦略を更新する。
一方後者は、機械学習アルゴリズムと(ディープ)ニューラルネットワークに重点を置いている。
論文 参考訳(メタデータ) (2024-03-09T17:36:54Z) - SELFI: Autonomous Self-Improvement with Reinforcement Learning for
Social Navigation [58.98433356015055]
体験と対話し、改善する自己改善ロボットは、ロボットシステムの現実的な展開の鍵となる。
本研究では,オンラインロボット体験を活用したオンライン学習手法であるSELFIを提案する。
本研究では, 衝突回避の観点からの改善と, より社会的に順応する行動について報告する。
論文 参考訳(メタデータ) (2024-03-01T21:27:03Z) - RLIF: Interactive Imitation Learning as Reinforcement Learning [56.997263135104504]
我々は,対話型模倣学習と類似するが,さらに実践的な仮定の下で,非政治強化学習によってパフォーマンスが向上できることを実証する。
提案手法は,ユーザ介入信号を用いた強化学習を報奨として利用する。
このことは、インタラクティブな模倣学習において介入する専門家がほぼ最適であるべきだという仮定を緩和し、アルゴリズムが潜在的に最適でない人間の専門家よりも改善される行動を学ぶことを可能にする。
論文 参考訳(メタデータ) (2023-11-21T21:05:21Z) - Robot Fine-Tuning Made Easy: Pre-Training Rewards and Policies for
Autonomous Real-World Reinforcement Learning [58.3994826169858]
ロボット強化学習のためのリセット不要な微調整システムであるRoboFuMEを紹介する。
我々の洞察は、オフラインの強化学習技術を利用して、事前訓練されたポリシーの効率的なオンライン微調整を確保することである。
提案手法では,既存のロボットデータセットからのデータを組み込んで,目標タスクを3時間以内の自律現実体験で改善することができる。
論文 参考訳(メタデータ) (2023-10-23T17:50:08Z) - Stabilizing Contrastive RL: Techniques for Robotic Goal Reaching from
Offline Data [101.43350024175157]
自己指導型学習は、制御戦略を学ぶのに必要な人間のアノテーションとエンジニアリングの労力を減らす可能性がある。
我々の研究は、強化学習(RL)自体が自己監督的な問題であることを示す先行研究に基づいている。
コントラスト学習に基づく自己教師付きRLアルゴリズムは,実世界の画像に基づくロボット操作タスクを解くことができることを示す。
論文 参考訳(メタデータ) (2023-06-06T01:36:56Z) - Discovering Unsupervised Behaviours from Full-State Trajectories [1.827510863075184]
本稿では,自律的に行動特性を見出す品質多様性アルゴリズムとして,自律型ロボットの能力を実現する手法を提案する。
本手法は,ロボットが実状態の軌道から自律的にその能力を見いださなければならないシミュレーションロボット環境において評価する。
より具体的には、分析されたアプローチは、ロボットを多様な位置に移動させるポリシーを自律的に見つけるだけでなく、脚を多様な方法で活用し、ハーフロールも行う。
論文 参考訳(メタデータ) (2022-11-22T16:57:52Z) - Active Predicting Coding: Brain-Inspired Reinforcement Learning for
Sparse Reward Robotic Control Problems [79.07468367923619]
ニューラルジェネレーティブ・コーディング(NGC)の神経認知計算フレームワークによるロボット制御へのバックプロパゲーションフリーアプローチを提案する。
我々は、スパース報酬から動的オンライン学習を容易にする強力な予測符号化/処理回路から完全に構築されたエージェントを設計する。
提案するActPCエージェントは,スパース(外部)報酬信号に対して良好に動作し,複数の強力なバックプロップベースのRLアプローチと競合し,性能が優れていることを示す。
論文 参考訳(メタデータ) (2022-09-19T16:49:32Z) - Strategy Discovery and Mixture in Lifelong Learning from Heterogeneous
Demonstration [1.2891210250935146]
実証から学ぶ(LfD)アプローチは、エンドユーザに望ましい振る舞いのデモンストレーションを通じて、ロボットに新しいタスクを教えることを促す。
本稿では,異種間における共通知識を抽出する動的マルチストラテジー・リワード蒸留法(DMSRD)を提案する。
当社のパーソナライズ、フェデレーション、生涯にわたるLfDアーキテクチャは、2つの継続的制御問題におけるベンチマークを上回り、ポリシーリターンは平均77%、ログリターンは42%改善しています。
論文 参考訳(メタデータ) (2022-02-14T20:10:25Z) - SAGCI-System: Towards Sample-Efficient, Generalizable, Compositional,
and Incremental Robot Learning [41.19148076789516]
上記の4つの要件を満たすために,SAGCIシステムと呼ばれる体系的な学習フレームワークを導入する。
本システムはまず,ロボットの手首に搭載されたカメラによって収集された生点雲を入力とし,URDFに代表される周囲環境の初期モデリングを生成する。
そのロボットは、対話的な知覚を利用して環境と対話し、URDFのオンライン検証と修正を行う。
論文 参考訳(メタデータ) (2021-11-29T16:53:49Z) - Enhanced Adversarial Strategically-Timed Attacks against Deep
Reinforcement Learning [91.13113161754022]
本稿では,DRLに基づくナビゲーションシステムに対して,選択した時間フレーム上の物理ノイズパターンを妨害することにより,タイミングに基づく逆方向戦略を導入する。
実験結果から, 対向タイミング攻撃は性能低下を引き起こす可能性が示唆された。
論文 参考訳(メタデータ) (2020-02-20T21:39:25Z) - Learning Whole-body Motor Skills for Humanoids [25.443880385966114]
本稿では,多種多様なプッシュリカバリとバランス行動のための運動スキルを習得するDeep Reinforcement Learningの階層的枠組みを提案する。
この方針は、ロボットモデルの現実的な設定と、学習したスキルを実際のロボットに簡単に伝達できる低レベルのインピーダンス制御を備えた物理シミュレーターで訓練されている。
論文 参考訳(メタデータ) (2020-02-07T19:40:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。