Fugu-MT 論文翻訳(概要): Thinking While Moving: Deep Reinforcement Learning with Concurrent Control

論文の概要: Thinking While Moving: Deep Reinforcement Learning with Concurrent Control

arxiv url: http://arxiv.org/abs/2004.06089v4
Date: Sat, 25 Apr 2020 21:19:45 GMT
ステータス: 翻訳完了
システム内更新日: 2022-12-13 23:09:30.096012
Title: Thinking While Moving: Deep Reinforcement Learning with Concurrent Control
Title（参考訳）: 移動しながら考える - 同時制御による深層強化学習
Authors: Ted Xiao, Eric Jang, Dmitry Kalashnikov, Sergey Levine, Julian Ibarz, Karol Hausman, Alexander Herzog
Abstract要約: 本研究では,制御システムの時間的進化とともに,ポリシーからのアクションのサンプリングを同時に行わなければならないような環境下での強化学習について検討する。人や動物のように、ロボットは思考と移動を同時に行わなければならず、前の動作が完了する前に次の動作を決定する。
参考スコア（独自算出の注目度）: 122.49572467292293
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: We study reinforcement learning in settings where sampling an action from the policy must be done concurrently with the time evolution of the controlled system, such as when a robot must decide on the next action while still performing the previous action. Much like a person or an animal, the robot must think and move at the same time, deciding on its next action before the previous one has completed. In order to develop an algorithmic framework for such concurrent control problems, we start with a continuous-time formulation of the Bellman equations, and then discretize them in a way that is aware of system delays. We instantiate this new class of approximate dynamic programming methods via a simple architectural extension to existing value-based deep reinforcement learning algorithms. We evaluate our methods on simulated benchmark tasks and a large-scale robotic grasping task where the robot must "think while moving".
Abstract（参考訳）: 本研究は,ロボットが以前の動作を継続しながら次の動作を決定する場合など,制御システムの時間的進化とともに,ポリシーからアクションをサンプリングする必要がある状況下で強化学習を研究する。人や動物のように、ロボットは思考と移動を同時に行わなければならず、前の動作が完了する前に次の動作を決定する。このような並列制御問題に対するアルゴリズム的フレームワークを開発するために,ベルマン方程式の連続的な定式化から始めて,システムの遅延に気付く方法でそれらを識別する。既存のバリューベース深層強化学習アルゴリズムへの単純なアーキテクチャ拡張によって、この新しいタイプの近似動的プログラミング手法をインスタンス化する。提案手法は,シミュレーションによるベンチマークタスクと,ロボットが「移動しながら考える」必要がある大規模ロボット把持タスクについて評価する。

関連論文リスト

Action Flow Matching for Continual Robot Learning [57.698553219660376]
ロボット工学における継続的な学習は、変化する環境やタスクに常に適応できるシステムを求める。本稿では,オンラインロボット力学モデルアライメントのためのフローマッチングを利用した生成フレームワークを提案する。ロボットは,不整合モデルで探索するのではなく,行動自体を変換することで,より効率的に情報収集を行う。
論文参考訳（メタデータ） (2025-04-25T16:26:15Z)
Simulation-Aided Policy Tuning for Black-Box Robot Learning [47.83474891747279]
本稿では,データ効率の向上に着目した新しいブラックボックスポリシー探索アルゴリズムを提案する。このアルゴリズムはロボット上で直接学習し、シミュレーションを追加の情報源として扱い、学習プロセスを高速化する。ロボットマニピュレータ上でのタスク学習の高速化と成功を,不完全なシミュレータの助けを借りて示す。
論文参考訳（メタデータ） (2024-11-21T15:52:23Z)
Single-Shot Learning of Stable Dynamical Systems for Long-Horizon Manipulation Tasks [48.54757719504994]
本稿では,必要なトレーニングデータ量を削減しつつ,タスク成功率の向上に焦点をあてる。提案手法では,長距離実証をウェイポイントとサブゴールで定義された離散ステップに分割する手法を提案する。シミュレーションと実世界の両方の実験を通して,本手法を検証し,シミュレーションから物理ロボットプラットフォームへの効果的移行を実証した。
論文参考訳（メタデータ） (2024-10-01T19:49:56Z)
Unsupervised Learning of Effective Actions in Robotics [0.9374652839580183]
ロボット工学における現在の最先端のアクション表現は、ロボットのアクションに対する適切な効果駆動学習を欠いている。連続運動空間の離散化と「アクションプロトタイプ」生成のための教師なしアルゴリズムを提案する。シミュレーションされた階段登上補強学習課題について,本手法の評価を行った。
論文参考訳（メタデータ） (2024-04-03T13:28:52Z)
RoboGen: Towards Unleashing Infinite Data for Automated Robot Learning via Generative Simulation [68.70755196744533]
RoboGenはジェネレーティブなロボットエージェントで、ジェネレーティブなシミュレーションを通じて、さまざまなロボットのスキルを自動的に学習する。我々の研究は、大規模モデルに埋め込まれた広範囲で多目的な知識を抽出し、それらをロボット工学の分野に移す試みである。
論文参考訳（メタデータ） (2023-11-02T17:59:21Z)
Leveraging Sequentiality in Reinforcement Learning from a Single Demonstration [68.94506047556412]
本稿では,複雑なロボットタスクの制御ポリシーを1つの実演で学習するために,シーケンシャルなバイアスを活用することを提案する。本研究は, ヒューマノイド移動やスタンドアップなど, 模擬課題のいくつかを, 前例のないサンプル効率で解くことができることを示す。
論文参考訳（メタデータ） (2022-11-09T10:28:40Z)
Memory-based gaze prediction in deep imitation learning for robot manipulation [2.857551605623957]
提案アルゴリズムは、逐次データに基づく視線推定にTransformerベースの自己アテンションアーキテクチャを用いてメモリを実装している。提案手法は,従来の状態の記憶を必要とする実ロボット多目的操作タスクを用いて評価した。
論文参考訳（メタデータ） (2022-02-10T07:30:08Z)
Neural Dynamic Policies for End-to-End Sensorimotor Learning [51.24542903398335]
感覚運動制御における現在の主流パラダイムは、模倣であれ強化学習であれ、生の行動空間で政策を直接訓練することである。軌道分布空間の予測を行うニューラル・ダイナミック・ポリシー(NDP)を提案する。 NDPは、いくつかのロボット制御タスクにおいて、効率と性能の両面で、これまでの最先端よりも優れている。
論文参考訳（メタデータ） (2020-12-04T18:59:32Z)
DREAM Architecture: a Developmental Approach to Open-Ended Learning in Robotics [44.62475518267084]
我々は、この再記述プロセス段階を段階的にブートストラップし、適切なモチベーションを持った新しい状態表現を構築し、獲得した知識をドメインやタスク、さらにはロボット間で伝達するための発達的認知アーキテクチャを提案する。
論文参考訳（メタデータ） (2020-05-13T09:29:40Z)
On Simple Reactive Neural Networks for Behaviour-Based Reinforcement Learning [5.482532589225552]
本稿では,Brookの仮定アーキテクチャに着想を得た行動に基づく強化学習手法を提案する。作業上の前提は、ロボット開発者のドメイン知識を活用することで、ロボットのピック・アンド・プレイス・タスクを単純化できるということです。提案手法では,8000エピソードのピック・アンド・プレイス・タスクを学習し,エンド・ツー・エンドアプローチで必要とされるトレーニング・エピソードの数を劇的に削減する。
論文参考訳（メタデータ） (2020-01-22T11:49:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。