論文の概要: Deep Dive into Model-free Reinforcement Learning for Biological and Robotic Systems: Theory and Practice
- arxiv url: http://arxiv.org/abs/2405.11457v1
- Date: Sun, 19 May 2024 05:58:44 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-21 17:37:55.774693
- Title: Deep Dive into Model-free Reinforcement Learning for Biological and Robotic Systems: Theory and Practice
- Title(参考訳): 生物・ロボットシステムのためのモデルフリー強化学習への深い取り組み:理論と実践
- Authors: Yusheng Jiao, Feng Ling, Sina Heydari, Nicolas Heess, Josh Merel, Eva Kanso,
- Abstract要約: モデルフリー強化学習の数学的側面とアルゴリズム的側面を簡潔に表現する。
我々は,動物やロボットの行動に対するフィードバック制御のツールとして,テクスチタクタ・クリティカルな手法を用いた。
- 参考スコア(独自算出の注目度): 17.598549532513122
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Animals and robots exist in a physical world and must coordinate their bodies to achieve behavioral objectives. With recent developments in deep reinforcement learning, it is now possible for scientists and engineers to obtain sensorimotor strategies (policies) for specific tasks using physically simulated bodies and environments. However, the utility of these methods goes beyond the constraints of a specific task; they offer an exciting framework for understanding the organization of an animal sensorimotor system in connection to its morphology and physical interaction with the environment, as well as for deriving general design rules for sensing and actuation in robotic systems. Algorithms and code implementing both learning agents and environments are increasingly available, but the basic assumptions and choices that go into the formulation of an embodied feedback control problem using deep reinforcement learning may not be immediately apparent. Here, we present a concise exposition of the mathematical and algorithmic aspects of model-free reinforcement learning, specifically through the use of \textit{actor-critic} methods, as a tool for investigating the feedback control underlying animal and robotic behavior.
- Abstract(参考訳): 動物やロボットは物理的な世界で存在しており、行動目的を達成するために身体を調整しなければならない。
近年の深層強化学習の進展により、科学者や技術者は、物理的にシミュレートされた身体や環境を用いて、特定のタスクに対する知覚的戦略(政治)を得ることが可能になった。
しかし、これらの手法の実用性は特定のタスクの制約を越えており、動物感覚運動器システムの形態や環境との物理的相互作用に関する構造を理解するためのエキサイティングな枠組みを提供し、ロボットシステムにおける感覚と運動の一般的な設計規則を導出する。
学習エージェントと環境の両方を実装するアルゴリズムとコードは、ますます利用できるようになるが、深い強化学習を用いた具体的フィードバック制御問題の定式化につながる基本的な仮定と選択は、すぐには明らかではないかもしれない。
本稿では, モデルフリー強化学習の数学的・アルゴリズム的側面の簡潔な表現について, 特に, 動物とロボットの行動に対するフィードバック制御のツールとして, textit{actor-critic} 法を用いて述べる。
関連論文リスト
- Dynamic planning in hierarchical active inference [0.0]
人間の脳が認知決定に関連する運動軌跡を推論し、導入する能力について述べる。
この研究は、ニューラルネットワークと強化学習を中心とした従来の見解とは距離を置き、アクティブ推論においてまだ探索されていない方向に向かっている。
論文 参考訳(メタデータ) (2024-02-18T17:32:53Z) - Modular Neural Network Policies for Learning In-Flight Object Catching
with a Robot Hand-Arm System [55.94648383147838]
本稿では,ロボットハンドアームシステムによる飛行物体の捕獲方法の学習を可能にするモジュラーフレームワークを提案する。
本フレームワークは,物体の軌跡予測を学習するオブジェクト状態推定器,(ii)捕捉対象のポーズのスコアとランク付けを学ぶキャッチポーズ品質ネットワーク,(iii)ロボットハンドをキャッチ前ポーズに移動させるように訓練されたリーチ制御ポリシ,(iv)ソフトキャッチ動作を行うように訓練された把握制御ポリシの5つのコアモジュールから構成される。
各モジュールと統合システムのシミュレーションにおいて、我々のフレームワークを広範囲に評価し、飛行における高い成功率を示す。
論文 参考訳(メタデータ) (2023-12-21T16:20:12Z) - Adaptive User-centered Neuro-symbolic Learning for Multimodal
Interaction with Autonomous Systems [0.0]
機械学習の最近の進歩により、自律システムは物体を知覚し、理解することができるようになった。
人間が提供する明示的な教えと、人間の行動を観察して得られる暗黙的な教えの両方を考慮することが不可欠である。
インプットのタイプや,ループ内の人間とインクリメンタルな学習技術についても検討する。
論文 参考訳(メタデータ) (2023-09-11T19:35:12Z) - Incremental procedural and sensorimotor learning in cognitive humanoid
robots [52.77024349608834]
本研究は,手順を段階的に学習する認知エージェントを提案する。
各サブステージで必要とされる認知機能と, エージェントが未解決の課題に, 新たな機能の追加がどう対処するかを示す。
結果は、このアプローチが複雑なタスクを段階的に解くことができることを示している。
論文 参考訳(メタデータ) (2023-04-30T22:51:31Z) - Planning for Learning Object Properties [117.27898922118946]
我々は、物体特性を象徴的な計画問題として認識するために、ニューラルネットワークを自動的に訓練する問題を定式化する。
トレーニングデータセット作成と学習プロセスを自動化するための戦略を作成するために,計画手法を使用します。
シミュレーションと実環境の両方で実験的な評価を行う。
論文 参考訳(メタデータ) (2023-01-15T09:37:55Z) - Interpreting Neural Policies with Disentangled Tree Representations [58.769048492254555]
本稿では,コンパクトなニューラルポリシーの解釈可能性について,不整合表現レンズを用いて検討する。
決定木を利用して,ロボット学習における絡み合いの要因を抽出する。
学習したニューラルダイナミクスの絡み合いを計測する解釈可能性指標を導入する。
論文 参考訳(メタデータ) (2022-10-13T01:10:41Z) - A neural net architecture based on principles of neural plasticity and
development evolves to effectively catch prey in a simulated environment [2.834895018689047]
A-Lifeにとっての大きな課題は、行動が「ライフライク」なエージェントを深く構築することである。
本稿では,動物の脳を構成するプロセスに類似したプロセスを用いて,人工エージェントを駆動するネットワークを構築するためのアーキテクチャとアプローチを提案する。
このアーキテクチャは、センサー入力の変化に対する迅速な応答を可能にするため、小さな自律ロボットやドローンを制御するのに有用であると考えています。
論文 参考訳(メタデータ) (2022-01-28T05:10:56Z) - Backprop-Free Reinforcement Learning with Active Neural Generative
Coding [84.11376568625353]
動的環境におけるエラー(バックプロップ)のバックプロパゲーションを伴わない行動駆動型生成モデルの学習のための計算フレームワークを提案する。
我々は、まばらな報酬でも機能するインテリジェントエージェントを開発し、推論として計画の認知理論からインスピレーションを得ている。
我々のエージェントの堅牢な性能は、神経推論と学習のためのバックプロップフリーアプローチがゴール指向の行動を促進するという有望な証拠を提供する。
論文 参考訳(メタデータ) (2021-07-10T19:02:27Z) - Decentralized Deep Reinforcement Learning for a Distributed and Adaptive
Locomotion Controller of a Hexapod Robot [0.6193838300896449]
昆虫運動制御において,異なる脚の協調のための分散型組織を提案する。
同時的な局所構造は、歩行行動を改善することができる。
論文 参考訳(メタデータ) (2020-05-21T11:40:37Z) - SAPIEN: A SimulAted Part-based Interactive ENvironment [77.4739790629284]
SAPIENは現実的で物理に富んだシミュレートされた環境であり、音声オブジェクトのための大規模なセットをホストしている。
部品検出と動作特性認識のための最先端の視覚アルゴリズムの評価を行い,ロボットインタラクションタスクの実証を行った。
論文 参考訳(メタデータ) (2020-03-19T00:11:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。