論文の概要: How to reduce computation time while sparing performance during robot
navigation? A neuro-inspired architecture for autonomous shifting between
model-based and model-free learning
- arxiv url: http://arxiv.org/abs/2004.14698v2
- Date: Thu, 16 Jul 2020 14:48:56 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-08 05:35:29.743133
- Title: How to reduce computation time while sparing performance during robot
navigation? A neuro-inspired architecture for autonomous shifting between
model-based and model-free learning
- Title(参考訳): ロボットナビゲーション時の性能を損なうことなく計算時間を短縮する方法
モデルベースとモデルフリー学習の自律的移行のためのニューロインスパイアド・アーキテクチャ
- Authors: R\'emi Dromnelle, Erwan Renaudo, Guillaume Pourcel, Raja Chatila,
Beno\^it Girard, and Mehdi Khamassi
- Abstract要約: 本稿では,性能とコストを明示的に測定する学習システム間の新たな調停機構を提案する。
ロボットは,学習システム間の切り替えによって環境変化に適応し,高い性能を維持することができる。
タスクが安定すると、ロボットは自律的に最もコストのかかるシステムに移行し、高い性能を維持しながら計算コストを大幅に削減する。
- 参考スコア(独自算出の注目度): 1.3854111346209868
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Taking inspiration from how the brain coordinates multiple learning systems
is an appealing strategy to endow robots with more flexibility. One of the
expected advantages would be for robots to autonomously switch to the least
costly system when its performance is satisfying. However, to our knowledge no
study on a real robot has yet shown that the measured computational cost is
reduced while performance is maintained with such brain-inspired algorithms. We
present navigation experiments involving paths of different lengths to the
goal, dead-end, and non-stationarity (i.e., change in goal location and
apparition of obstacles). We present a novel arbitration mechanism between
learning systems that explicitly measures performance and cost. We find that
the robot can adapt to environment changes by switching between learning
systems so as to maintain a high performance. Moreover, when the task is
stable, the robot also autonomously shifts to the least costly system, which
leads to a drastic reduction in computation cost while keeping a high
performance. Overall, these results illustrates the interest of using multiple
learning systems.
- Abstract(参考訳): 脳が複数の学習システムを協調させる方法からインスピレーションを得たことは、ロボットにもっと柔軟性を与える魅力的な戦略だ。
期待されている利点の1つは、ロボットが性能が満足すれば、自律的に最もコストの少ないシステムに切り替えることである。
しかし、我々の知る限り、実際のロボットについての研究は、脳にインスパイアされたアルゴリズムで性能を維持しながら計算コストを削減できることをまだ示していない。
本稿では,ゴール,デッドエンド,非定常性(すなわち目標位置の変化と障害物の出現)に異なる長さの経路を含むナビゲーション実験を行う。
本稿では,性能とコストを明示的に計測する学習システム間の新たな調停機構を提案する。
ロボットは,学習システム間の切り替えによって環境変化に適応し,高い性能を維持することができる。
さらに,タスクが安定している場合,ロボットは低コストシステムに自律的に移行し,高い性能を維持しながら計算コストを大幅に削減する。
全体として、これらの結果は複数の学習システムを使うことへの関心を示している。
関連論文リスト
- Simulation-Aided Policy Tuning for Black-Box Robot Learning [47.83474891747279]
本稿では,データ効率の向上に着目した新しいブラックボックスポリシー探索アルゴリズムを提案する。
このアルゴリズムはロボット上で直接学習し、シミュレーションを追加の情報源として扱い、学習プロセスを高速化する。
ロボットマニピュレータ上でのタスク学習の高速化と成功を,不完全なシミュレータの助けを借りて示す。
論文 参考訳(メタデータ) (2024-11-21T15:52:23Z) - Multi-Objective Algorithms for Learning Open-Ended Robotic Problems [1.0124625066746598]
四足歩行は、自動運転車の普及に不可欠な複雑でオープンな問題である。
従来の強化学習アプローチは、トレーニングの不安定性とサンプルの非効率のため、しばしば不足する。
自動カリキュラム学習機構として多目的進化アルゴリズムを活用する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-11-11T16:26:42Z) - A Retrospective on the Robot Air Hockey Challenge: Benchmarking Robust, Reliable, and Safe Learning Techniques for Real-world Robotics [53.33976793493801]
私たちは、NeurIPS 2023カンファレンスでRobot Air Hockey Challengeを組織しました。
我々は、シム・トゥ・リアルギャップ、低レベルの制御問題、安全性問題、リアルタイム要件、実世界のデータの限られた可用性など、ロボット工学における実践的な課題に焦点を当てる。
その結果、学習に基づくアプローチと事前知識を組み合わせたソリューションは、実際のデプロイメントが困難である場合にデータのみに依存するソリューションよりも優れていることがわかった。
論文 参考訳(メタデータ) (2024-11-08T17:20:47Z) - Autonomous Robotic Reinforcement Learning with Asynchronous Human
Feedback [27.223725464754853]
GEARは、ロボットを現実世界の環境に配置し、中断することなく自律的に訓練することを可能にする。
システムはリモート、クラウドソース、非専門家からの非同期フィードバックのみを必要とする、Webインターフェースにロボットエクスペリエンスをストリームする。
論文 参考訳(メタデータ) (2023-10-31T16:43:56Z) - Self-Improving Robots: End-to-End Autonomous Visuomotor Reinforcement
Learning [54.636562516974884]
模倣と強化学習において、人間の監督コストは、ロボットが訓練できるデータの量を制限する。
本研究では,自己改善型ロボットシステムのための新しい設計手法であるMEDAL++を提案する。
ロボットは、タスクの実施と解除の両方を学ぶことで、自律的にタスクを練習し、同時にデモンストレーションから報酬関数を推論する。
論文 参考訳(メタデータ) (2023-03-02T18:51:38Z) - Revisiting the Adversarial Robustness-Accuracy Tradeoff in Robot
Learning [121.9708998627352]
近年の研究では、現実的なロボット学習の応用において、対人訓練の効果が公平なトレードオフを起こさないことが示されている。
本研究は,ロボット学習におけるロバストネスと精度のトレードオフを再考し,最近のロバストトレーニング手法と理論の進歩により,現実のロボット応用に適した対人トレーニングが可能かどうかを解析する。
論文 参考訳(メタデータ) (2022-04-15T08:12:15Z) - REvolveR: Continuous Evolutionary Models for Robot-to-robot Policy
Transfer [57.045140028275036]
本研究では,運動学や形態学など,異なるパラメータを持つ2つの異なるロボット間でポリシーを伝達する問題を考察する。
模倣学習手法を含む動作や状態遷移の分布を一致させることで、新しいポリシーを訓練する既存のアプローチは、最適な動作や/または状態分布が異なるロボットでミスマッチしているために失敗する。
本稿では,物理シミュレータに実装されたロボット政策伝達に連続的進化モデルを用いることで,$RevolveR$という新しい手法を提案する。
論文 参考訳(メタデータ) (2022-02-10T18:50:25Z) - Back to Reality for Imitation Learning [8.57914821832517]
模倣学習と一般のロボット学習は、ロボット工学のブレークスルーではなく、機械学習のブレークスルーによって生まれた。
私たちは、現実世界のロボット学習のより良い指標は時間効率であり、人間の真のコストをモデル化するものだと考えています。
論文 参考訳(メタデータ) (2021-11-25T02:03:52Z) - Cognitive architecture aided by working-memory for self-supervised
multi-modal humans recognition [54.749127627191655]
人間パートナーを認識する能力は、パーソナライズされた長期的な人間とロボットの相互作用を構築するための重要な社会的スキルです。
ディープラーニングネットワークは最先端の結果を達成し,そのような課題に対処するための適切なツールであることが実証された。
1つの解決策は、ロボットに自己スーパービジョンで直接の感覚データから学習させることである。
論文 参考訳(メタデータ) (2021-03-16T13:50:24Z) - Robot Navigation in a Crowd by Integrating Deep Reinforcement Learning
and Online Planning [8.211771115758381]
これは、群衆の中で時間効率と衝突のない道を移動するモバイルロボットにとって、まだオープンで挑戦的な問題です。
深層強化学習はこの問題に対する有望な解決策である。
グラフに基づく深部強化学習手法SG-DQNを提案する。
私たちのモデルは、ロボットが群衆をよりよく理解し、群衆ナビゲーションタスクで0.99以上の高い成功率を達成するのに役立ちます。
論文 参考訳(メタデータ) (2021-02-26T02:17:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。