論文の概要: Value Iteration for Learning Concurrently Executable Robotic Control Tasks
- arxiv url: http://arxiv.org/abs/2504.01174v1
- Date: Tue, 01 Apr 2025 20:31:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-03 13:17:57.655815
- Title: Value Iteration for Learning Concurrently Executable Robotic Control Tasks
- Title(参考訳): 同時実行型ロボット制御タスクの学習における価値イテレーション
- Authors: Sheikh A. Tahmid, Gennaro Notomista,
- Abstract要約: 本稿では,複数のタスクを同時に実行するための冗長ロボットの訓練手法を提案する。
まず、学習された価値関数間のタスク独立性の概念を定義します。
次に、タスク独立の定義を用いて、その制御目的を達成するための政策を促進するコスト関数を提案します。
- 参考スコア(独自算出の注目度): 6.057772626591651
- License:
- Abstract: Many modern robotic systems such as multi-robot systems and manipulators exhibit redundancy, a property owing to which they are capable of executing multiple tasks. This work proposes a novel method, based on the Reinforcement Learning (RL) paradigm, to train redundant robots to be able to execute multiple tasks concurrently. Our approach differs from typical multi-objective RL methods insofar as the learned tasks can be combined and executed in possibly time-varying prioritized stacks. We do so by first defining a notion of task independence between learned value functions. We then use our definition of task independence to propose a cost functional that encourages a policy, based on an approximated value function, to accomplish its control objective while minimally interfering with the execution of higher priority tasks. This allows us to train a set of control policies that can be executed simultaneously. We also introduce a version of fitted value iteration to learn to approximate our proposed cost functional efficiently. We demonstrate our approach on several scenarios and robotic systems.
- Abstract(参考訳): マルチロボットシステムやマニピュレータのような現代のロボットシステムの多くは冗長性を示しており、それらは複数のタスクを実行することができるためである。
本研究では,複数のタスクを同時に実行できるように冗長なロボットを訓練するための,強化学習(RL)パラダイムに基づく新しい手法を提案する。
我々のアプローチは、学習タスクを組み合わせて実行し、場合によっては時間的に異なる優先順位付けされたスタックで実行することができるため、典型的な多目的RLメソッドとは異なる。
まず、学習された価値関数間のタスク独立性の概念を定義します。
次に、タスク独立の定義を用いて、より優先度の高いタスクの実行を最小限に抑えつつ、その制御目的を達成するために、近似値関数に基づくポリシーを奨励するコスト関数を提案する。
これにより、同時に実行できるコントロールポリシーのセットをトレーニングできます。
また、提案したコスト関数を効率的に近似するために、適合値の反復版も導入する。
いくつかのシナリオとロボットシステムにアプローチを示します。
関連論文リスト
- COHERENT: Collaboration of Heterogeneous Multi-Robot System with Large Language Models [49.24666980374751]
COHERENTは、異種マルチロボットシステムの協調のための新しいLCMベースのタスク計画フレームワークである。
提案-実行-フィードバック-調整機構は,個々のロボットに対して動作を分解・割り当てするように設計されている。
実験の結果,我々の研究は,成功率と実行効率の面で,従来の手法をはるかに上回っていることが明らかとなった。
論文 参考訳(メタデータ) (2024-09-23T15:53:41Z) - Sparse Diffusion Policy: A Sparse, Reusable, and Flexible Policy for Robot Learning [61.294110816231886]
我々はスパース・リユース・フレキシブル・ポリシー、スパース・ディフュージョン・ポリシー(SDP)を導入する。
SDPは、エキスパートとスキルを選択的に活性化し、モデル全体をトレーニングすることなく、効率的でタスク固有の学習を可能にする。
デモとコードはhttps://forrest-110.io/sparse_diffusion_policy/にある。
論文 参考訳(メタデータ) (2024-07-01T17:59:56Z) - Learning Dual-arm Object Rearrangement for Cartesian Robots [28.329845378085054]
この研究は、カルテシアンロボットの現実的な産業シナリオから抽象化されたデュアルアームオブジェクト再構成問題に焦点を当てる。
この問題の目標は、すべてのオブジェクトをソースからターゲットに、総完了時間最小で転送することである。
我々は、累積タスク実行時間を最小化し、両腕協調効率を最大化するための効果的なオブジェクト・ツー・アームタスク割り当て戦略を開発する。
論文 参考訳(メタデータ) (2024-02-21T09:13:08Z) - Leveraging Sequentiality in Reinforcement Learning from a Single
Demonstration [68.94506047556412]
本稿では,複雑なロボットタスクの制御ポリシーを1つの実演で学習するために,シーケンシャルなバイアスを活用することを提案する。
本研究は, ヒューマノイド移動やスタンドアップなど, 模擬課題のいくつかを, 前例のないサンプル効率で解くことができることを示す。
論文 参考訳(メタデータ) (2022-11-09T10:28:40Z) - Deep Reinforcement Learning with Adaptive Hierarchical Reward for
MultiMulti-Phase Multi Multi-Objective Dexterous Manipulation [11.638614321552616]
優先度の変動により、ロボットは深層強化学習(DRL)法で最適なポリシーをほとんど学ばず、あるいはうまくいかなかった。
我々は、DRLエージェントを誘導し、複数の優先順位付けされた目的を持つ操作タスクを学習するための、新しい適応階層リワード機構(AHRM)を開発した。
提案手法は,JACOロボットアームを用いた多目的操作タスクにおいて検証される。
論文 参考訳(メタデータ) (2022-05-26T15:44:31Z) - Autonomous Open-Ended Learning of Tasks with Non-Stationary
Interdependencies [64.0476282000118]
固有のモチベーションは、目標間のトレーニング時間を適切に割り当てるタスクに依存しないシグナルを生成することが証明されている。
内在的に動機付けられたオープンエンドラーニングの分野におけるほとんどの研究は、目標が互いに独立しているシナリオに焦点を当てているが、相互依存タスクの自律的な獲得を研究するのはごくわずかである。
特に,タスク間の関係に関する情報をアーキテクチャのより高レベルなレベルで組み込むことの重要性を示す。
そして、自律的に取得したシーケンスを格納する新しい学習層を追加することで、前者を拡張する新しいシステムであるH-GRAILを紹介する。
論文 参考訳(メタデータ) (2022-05-16T10:43:01Z) - Controllable Dynamic Multi-Task Architectures [92.74372912009127]
本稿では,そのアーキテクチャと重みを動的に調整し,所望のタスク選択とリソース制約に適合させる制御可能なマルチタスクネットワークを提案する。
本稿では,タスク親和性と分岐正規化損失を利用した2つのハイパーネットの非交互トレーニングを提案し,入力の嗜好を取り入れ,適応重み付き木構造モデルを予測する。
論文 参考訳(メタデータ) (2022-03-28T17:56:40Z) - Skill-based Multi-objective Reinforcement Learning of Industrial Robot
Tasks with Planning and Knowledge Integration [0.4949816699298335]
本稿では,タスクレベルの計画と,スキルベースシステムにおけるシナリオ固有のパラメータの学習を併用する手法を提案する。
2つの異なる接触豊富なタスクのスキルパラメータを学習することで、アプローチの有効性と汎用性を実証する。
論文 参考訳(メタデータ) (2022-03-18T16:03:27Z) - Disentangled Attention as Intrinsic Regularization for Bimanual
Multi-Object Manipulation [18.38312133753365]
本稿では,スパース報酬を伴う複数のオブジェクト上での複雑な双方向ロボット操作タスクの解決問題に対処する。
本研究では,2つのロボットが個別のサブタスクとオブジェクトに焦点を合わせるための本質的な正規化を提供する,非絡み合い注意と呼ばれる新しい手法を提案する。
実験結果から,本提案の本質的正則化は支配を回避し,政策の対立を軽減できることが示唆された。
論文 参考訳(メタデータ) (2021-06-10T16:53:04Z) - Scalable Multi-Task Imitation Learning with Autonomous Improvement [159.9406205002599]
我々は、自律的なデータ収集を通じて継続的に改善できる模倣学習システムを構築している。
我々は、ロボット自身の試行を、実際に試みたタスク以外のタスクのデモとして活用する。
従来の模倣学習のアプローチとは対照的に,本手法は,継続的改善のための疎い監視によるデータ収集を自律的に行うことができる。
論文 参考訳(メタデータ) (2020-02-25T18:56:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。