論文の概要: How to reduce computation time while sparing performance during robot
navigation? A neuro-inspired architecture for autonomous shifting between
model-based and model-free learning
- arxiv url: http://arxiv.org/abs/2004.14698v2
- Date: Thu, 16 Jul 2020 14:48:56 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-08 05:35:29.743133
- Title: How to reduce computation time while sparing performance during robot
navigation? A neuro-inspired architecture for autonomous shifting between
model-based and model-free learning
- Title(参考訳): ロボットナビゲーション時の性能を損なうことなく計算時間を短縮する方法
モデルベースとモデルフリー学習の自律的移行のためのニューロインスパイアド・アーキテクチャ
- Authors: R\'emi Dromnelle, Erwan Renaudo, Guillaume Pourcel, Raja Chatila,
Beno\^it Girard, and Mehdi Khamassi
- Abstract要約: 本稿では,性能とコストを明示的に測定する学習システム間の新たな調停機構を提案する。
ロボットは,学習システム間の切り替えによって環境変化に適応し,高い性能を維持することができる。
タスクが安定すると、ロボットは自律的に最もコストのかかるシステムに移行し、高い性能を維持しながら計算コストを大幅に削減する。
- 参考スコア(独自算出の注目度): 1.3854111346209868
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Taking inspiration from how the brain coordinates multiple learning systems
is an appealing strategy to endow robots with more flexibility. One of the
expected advantages would be for robots to autonomously switch to the least
costly system when its performance is satisfying. However, to our knowledge no
study on a real robot has yet shown that the measured computational cost is
reduced while performance is maintained with such brain-inspired algorithms. We
present navigation experiments involving paths of different lengths to the
goal, dead-end, and non-stationarity (i.e., change in goal location and
apparition of obstacles). We present a novel arbitration mechanism between
learning systems that explicitly measures performance and cost. We find that
the robot can adapt to environment changes by switching between learning
systems so as to maintain a high performance. Moreover, when the task is
stable, the robot also autonomously shifts to the least costly system, which
leads to a drastic reduction in computation cost while keeping a high
performance. Overall, these results illustrates the interest of using multiple
learning systems.
- Abstract(参考訳): 脳が複数の学習システムを協調させる方法からインスピレーションを得たことは、ロボットにもっと柔軟性を与える魅力的な戦略だ。
期待されている利点の1つは、ロボットが性能が満足すれば、自律的に最もコストの少ないシステムに切り替えることである。
しかし、我々の知る限り、実際のロボットについての研究は、脳にインスパイアされたアルゴリズムで性能を維持しながら計算コストを削減できることをまだ示していない。
本稿では,ゴール,デッドエンド,非定常性(すなわち目標位置の変化と障害物の出現)に異なる長さの経路を含むナビゲーション実験を行う。
本稿では,性能とコストを明示的に計測する学習システム間の新たな調停機構を提案する。
ロボットは,学習システム間の切り替えによって環境変化に適応し,高い性能を維持することができる。
さらに,タスクが安定している場合,ロボットは低コストシステムに自律的に移行し,高い性能を維持しながら計算コストを大幅に削減する。
全体として、これらの結果は複数の学習システムを使うことへの関心を示している。
関連論文リスト
- Autonomous Robotic Reinforcement Learning with Asynchronous Human
Feedback [27.223725464754853]
GEARは、ロボットを現実世界の環境に配置し、中断することなく自律的に訓練することを可能にする。
システムはリモート、クラウドソース、非専門家からの非同期フィードバックのみを必要とする、Webインターフェースにロボットエクスペリエンスをストリームする。
論文 参考訳(メタデータ) (2023-10-31T16:43:56Z) - Quality-Diversity Optimisation on a Physical Robot Through
Dynamics-Aware and Reset-Free Learning [4.260312058817663]
本研究では,リセットフリーQD(RF-QD)アルゴリズムを用いて,物理ロボット上で直接コントローラを学習する。
本手法は,ロボットと環境との相互作用から学習したダイナミクスモデルを用いて,ロボットの動作を予測する。
RF-QDには、ロボットが外を歩いたときに安全なゾーンに戻すリカバリポリシーも含まれており、継続的な学習を可能にしている。
論文 参考訳(メタデータ) (2023-04-24T13:24:00Z) - Self-Improving Robots: End-to-End Autonomous Visuomotor Reinforcement
Learning [54.636562516974884]
模倣と強化学習において、人間の監督コストは、ロボットが訓練できるデータの量を制限する。
本研究では,自己改善型ロボットシステムのための新しい設計手法であるMEDAL++を提案する。
ロボットは、タスクの実施と解除の両方を学ぶことで、自律的にタスクを練習し、同時にデモンストレーションから報酬関数を推論する。
論文 参考訳(メタデータ) (2023-03-02T18:51:38Z) - Revisiting the Adversarial Robustness-Accuracy Tradeoff in Robot
Learning [121.9708998627352]
近年の研究では、現実的なロボット学習の応用において、対人訓練の効果が公平なトレードオフを起こさないことが示されている。
本研究は,ロボット学習におけるロバストネスと精度のトレードオフを再考し,最近のロバストトレーニング手法と理論の進歩により,現実のロボット応用に適した対人トレーニングが可能かどうかを解析する。
論文 参考訳(メタデータ) (2022-04-15T08:12:15Z) - REvolveR: Continuous Evolutionary Models for Robot-to-robot Policy
Transfer [57.045140028275036]
本研究では,運動学や形態学など,異なるパラメータを持つ2つの異なるロボット間でポリシーを伝達する問題を考察する。
模倣学習手法を含む動作や状態遷移の分布を一致させることで、新しいポリシーを訓練する既存のアプローチは、最適な動作や/または状態分布が異なるロボットでミスマッチしているために失敗する。
本稿では,物理シミュレータに実装されたロボット政策伝達に連続的進化モデルを用いることで,$RevolveR$という新しい手法を提案する。
論文 参考訳(メタデータ) (2022-02-10T18:50:25Z) - Back to Reality for Imitation Learning [8.57914821832517]
模倣学習と一般のロボット学習は、ロボット工学のブレークスルーではなく、機械学習のブレークスルーによって生まれた。
私たちは、現実世界のロボット学習のより良い指標は時間効率であり、人間の真のコストをモデル化するものだと考えています。
論文 参考訳(メタデータ) (2021-11-25T02:03:52Z) - Cognitive architecture aided by working-memory for self-supervised
multi-modal humans recognition [54.749127627191655]
人間パートナーを認識する能力は、パーソナライズされた長期的な人間とロボットの相互作用を構築するための重要な社会的スキルです。
ディープラーニングネットワークは最先端の結果を達成し,そのような課題に対処するための適切なツールであることが実証された。
1つの解決策は、ロボットに自己スーパービジョンで直接の感覚データから学習させることである。
論文 参考訳(メタデータ) (2021-03-16T13:50:24Z) - Robot Navigation in a Crowd by Integrating Deep Reinforcement Learning
and Online Planning [8.211771115758381]
これは、群衆の中で時間効率と衝突のない道を移動するモバイルロボットにとって、まだオープンで挑戦的な問題です。
深層強化学習はこの問題に対する有望な解決策である。
グラフに基づく深部強化学習手法SG-DQNを提案する。
私たちのモデルは、ロボットが群衆をよりよく理解し、群衆ナビゲーションタスクで0.99以上の高い成功率を達成するのに役立ちます。
論文 参考訳(メタデータ) (2021-02-26T02:17:13Z) - Hierarchical Affordance Discovery using Intrinsic Motivation [69.9674326582747]
本研究では,移動ロボットの価格学習を支援するために,本質的なモチベーションを用いたアルゴリズムを提案する。
このアルゴリズムは、事前にプログラムされたアクションなしで、相互に関連のある価格を自律的に発見し、学習し、適応することができる。
一度学習すると、これらの余裕はアルゴリズムによって様々な困難を伴うタスクを実行するために一連のアクションを計画するために使われる。
論文 参考訳(メタデータ) (2020-09-23T07:18:21Z) - Thinking While Moving: Deep Reinforcement Learning with Concurrent
Control [122.49572467292293]
本研究では,制御システムの時間的進化とともに,ポリシーからのアクションのサンプリングを同時に行わなければならないような環境下での強化学習について検討する。
人や動物のように、ロボットは思考と移動を同時に行わなければならず、前の動作が完了する前に次の動作を決定する。
論文 参考訳(メタデータ) (2020-04-13T17:49:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。