Fugu-MT 論文翻訳(概要): Solving Challenging Dexterous Manipulation Tasks With Trajectory Optimisation and Reinforcement Learning

論文の概要: Solving Challenging Dexterous Manipulation Tasks With Trajectory Optimisation and Reinforcement Learning

arxiv url: http://arxiv.org/abs/2009.05104v2
Date: Sun, 16 May 2021 19:32:26 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-20 11:47:22.642031
Title: Solving Challenging Dexterous Manipulation Tasks With Trajectory Optimisation and Reinforcement Learning
Title（参考訳）: 軌道最適化と強化学習による難解な操作課題の解法
Authors: Henry Charlesworth and Giovanni Montana
Abstract要約: 人為的なロボットハンドの使い方を自律的に学ぶ訓練エージェントは、様々な複雑な操作タスクを実行できるシステムに繋がる可能性を秘めている。まず、現在の強化学習と軌跡最適化技術が困難であるような、シミュレーション操作の難易度を課題として紹介する。次に、これらの環境における既存の手法よりもはるかに優れた性能を示す、単純な軌道最適化を導入する。
参考スコア（独自算出の注目度）: 14.315501760755609
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Training agents to autonomously learn how to use anthropomorphic robotic hands has the potential to lead to systems capable of performing a multitude of complex manipulation tasks in unstructured and uncertain environments. In this work, we first introduce a suite of challenging simulated manipulation tasks that current reinforcement learning and trajectory optimisation techniques find difficult. These include environments where two simulated hands have to pass or throw objects between each other, as well as an environment where the agent must learn to spin a long pen between its fingers. We then introduce a simple trajectory optimisation that performs significantly better than existing methods on these environments. Finally, on the challenging PenSpin task we combine sub-optimal demonstrations generated through trajectory optimisation with off-policy reinforcement learning, obtaining performance that far exceeds either of these approaches individually, effectively solving the environment. Videos of all of our results are available at: https://dexterous-manipulation.github.io/
Abstract（参考訳）: 人工的なロボットの手の使い方を自律的に学習する訓練エージェントは、非構造的で不確定な環境で複雑な操作タスクを多種多様なシステムで実行できる可能性を持っている。本稿では,まず,現在の強化学習と軌道最適化手法が困難になるような,シミュレーションによる操作課題の組を導入する。これには、2つのシミュレートされた手が互いにオブジェクトを渡したり投げたりする必要のある環境や、エージェントが指の間に長いペンを回転させることを学ぶ環境が含まれる。次に,これらの環境における既存手法よりもはるかに優れた単純な軌道最適化を提案する。最後に、挑戦的なpenspinタスクでは、軌道最適化によって生成されたサブオプティマイズと、オフポリティカル強化学習を組み合わせることで、これらのアプローチを個別に超えたパフォーマンスを得て、環境を効果的に解決します。結果の全ビデオは、https://dexterous-manipulation.github.io/で閲覧できます。

関連論文リスト

Tether: Autonomous Functional Play with Correspondence-Driven Trajectory Warping [44.348686148716894]
構造化されたタスク指向インタラクションを含む自律型機能プレイ法であるTetherを紹介する。まず、小さなソースのデモからアクションを警告する新しいオープンループポリシーを設計する。第2に,タスク選択,実行,評価,改善の連続サイクルを通じて,現実の自律的機能プレイのためのこのポリシをデプロイする。
論文参考訳（メタデータ） (2026-03-03T18:59:07Z)
Coordinated Humanoid Manipulation with Choice Policies [43.635012621027904]
本稿では,モジュール型遠隔操作インタフェースとスケーラブルな学習フレームワークを組み合わせたシステムを提案する。 Choice Policy(選択ポリシー)は、複数の候補アクションを生成し、それらを評価することを学ぶ模倣学習アプローチである。我々は,食器洗い機をロードする2つの現実的タスクと,ホワイトボードワイピングのための全身ロコ操作に関するアプローチを検証した。
論文参考訳（メタデータ） (2025-12-31T18:59:53Z)
Learning Pivoting Manipulation with Force and Vision Feedback Using Optimization-based Demonstrations [20.20969802675097]
クローズドループのピボット操作を学習するためのフレームワークを提案する。計算効率のよい接触型軌道最適化を利用して,実演指導による深層強化学習を設計する。また、特権訓練戦略を用いて、ロボットがピボット操作を行うことができるシミュレート・トゥ・リアル・トランスファー手法を提案する。
論文参考訳（メタデータ） (2025-08-01T21:33:46Z)
SkillBlender: Towards Versatile Humanoid Whole-Body Loco-Manipulation via Skill Blending [79.83865372778273]
SkillBlenderは、多目的なヒューマノイドロコ操作のための新しい階層的強化学習フレームワークである。 SkillBlenderは、まずゴール条件付きタスク非依存のプリミティブスキルを事前訓練し、その後、これらのスキルを動的にブレンドして複雑なロコ操作タスクを達成する。また,3つのエボディメント,4つのプリミティブスキル,8つの難解なロコ操作タスクを含む並列的,クロスエボディメント,多種多様なシミュレーションベンチマークであるSkillBenchを紹介した。
論文参考訳（メタデータ） (2025-06-11T03:24:26Z)
Sim-to-Real Reinforcement Learning for Vision-Based Dexterous Manipulation on Humanoids [61.033745979145536]
本研究は,ヒューマノイドの具体化におけるコンタクトリッチな操作タスクの集合を解決するために,強化学習を適用する上で重要な課題について検討する。私たちの主なコントリビューションは、シミュレーション環境を現実世界に近づける自動リアルタイムチューニングモジュールです。本研究は,3つのヒューマノイド・デキスタラス・オペレーティング・タスクにおいて有望な結果を示し,それぞれのテクニックについてアブレーション研究を行った。
論文参考訳（メタデータ） (2025-02-27T18:59:52Z)
Training a Generally Curious Agent [86.84089201249104]
Paprikaは、言語モデルが一般的な意思決定機能を開発することを可能にする微調整のアプローチである。 Paprika氏は、より勾配の更新をすることなく、コンテキスト内の環境フィードバックに基づいて、新しいタスクで彼らの振る舞いを探索し、適応するようにモデルに教えている。結果は、シーケンシャルな意思決定問題を自律的に解決できるAIシステムへの有望な道のりを示唆している。
論文参考訳（メタデータ） (2025-02-24T18:56:58Z)
Improving generalization of robot locomotion policies via Sharpness-Aware Reinforcement Learning [0.5399800035598186]
微分可能なシミュレータは、正確な勾配によるサンプル効率の改善を提供するが、接触豊富な環境では不安定である。本稿では,勾配に基づく強化学習アルゴリズムにシャープネスを考慮した最適化を取り入れた新しい手法を提案する。
論文参考訳（メタデータ） (2024-11-29T14:25:54Z)
Single-Shot Learning of Stable Dynamical Systems for Long-Horizon Manipulation Tasks [48.54757719504994]
本稿では,必要なトレーニングデータ量を削減しつつ,タスク成功率の向上に焦点をあてる。提案手法では,長距離実証をウェイポイントとサブゴールで定義された離散ステップに分割する手法を提案する。シミュレーションと実世界の両方の実験を通して,本手法を検証し,シミュレーションから物理ロボットプラットフォームへの効果的移行を実証した。
論文参考訳（メタデータ） (2024-10-01T19:49:56Z)
Towards Open-World Mobile Manipulation in Homes: Lessons from the Neurips 2023 HomeRobot Open Vocabulary Mobile Manipulation Challenge [93.4434417387526]
ロボット工学における鍵となるベンチマークタスクとして,Open Vocabulary Mobile Manipulationを提案する。我々は,この課題に対する解決策を評価するために,シミュレーションと実世界のコンポーネントを兼ね備えたNeurIPS 2023コンペティションを組織した。シミュレーションと実環境設定の両方で使用される結果と方法論を詳述する。
論文参考訳（メタデータ） (2024-07-09T15:15:01Z)
SWBT: Similarity Weighted Behavior Transformer with the Imperfect Demonstration for Robotic Manipulation [32.78083518963342]
SWBT(Simisity Weighted Behavior Transformer)という新しいフレームワークを提案する。 SWBTは、環境との相互作用なしに、専門家と不完全なデモンストレーションの両方から効果的に学習する。我々は、ロボット操作タスクのオフライン模倣学習環境に不完全なデモンストレーションを統合する試みを初めて行った。
論文参考訳（メタデータ） (2024-01-17T04:15:56Z)
RLIF: Interactive Imitation Learning as Reinforcement Learning [56.997263135104504]
我々は,対話型模倣学習と類似するが,さらに実践的な仮定の下で,非政治強化学習によってパフォーマンスが向上できることを実証する。提案手法は,ユーザ介入信号を用いた強化学習を報奨として利用する。このことは、インタラクティブな模倣学習において介入する専門家がほぼ最適であるべきだという仮定を緩和し、アルゴリズムが潜在的に最適でない人間の専門家よりも改善される行動を学ぶことを可能にする。
論文参考訳（メタデータ） (2023-11-21T21:05:21Z)
DexPBT: Scaling up Dexterous Manipulation for Hand-Arm Systems with Population Based Training [10.808149303943948]
マルチフィンガーハンドエンドエフェクタを備えた模擬片腕または2腕ロボットを用いて,デキスタスな物体操作を学習する。我々は、深層強化学習の探索能力を大幅に増幅できる分散型人口ベーストレーニング(PBT)アルゴリズムを導入する。
論文参考訳（メタデータ） (2023-05-20T07:25:27Z)
Dexterous Manipulation from Images: Autonomous Real-World RL via Substep Guidance [71.36749876465618]
本稿では,ユーザが新しいタスクを定義するための"プログラミング不要"なアプローチを提供する,視覚に基づくデクスタラスな操作システムについて述べる。本システムには,最終タスクと中間タスクを画像例で定義するためのフレームワークが組み込まれている。実世界における多段階物体操作の4指ロボットハンドラーによる実験結果
論文参考訳（メタデータ） (2022-12-19T22:50:40Z)
Continual Predictive Learning from Videos [100.27176974654559]
本稿では,ビデオ予測の文脈において,新たな連続学習問題について検討する。本稿では,連続予測学習(Continuousal predictive Learning, CPL)アプローチを提案する。我々はRoboNetとKTHに基づく2つの新しいベンチマークを構築し、異なるタスクが異なる物理ロボット環境や人間の行動に対応するようにした。
論文参考訳（メタデータ） (2022-04-12T08:32:26Z)
Learning Robotic Manipulation Skills Using an Adaptive Force-Impedance Action Space [7.116986445066885]
強化学習は、様々な困難な意思決定タスクにおいて、有望な結果をもたらしました。高速な人間のような適応制御手法は複雑なロボットの相互作用を最適化するが、非構造化タスクに必要なマルチモーダルフィードバックを統合することができない。本稿では,階層的学習と適応アーキテクチャにおける学習問題を要因として,両世界を最大限に活用することを提案する。
論文参考訳（メタデータ） (2021-10-19T12:09:02Z)
Learning to Shift Attention for Motion Generation [55.61994201686024]
ロボット学習を用いた動作生成の課題の1つは、人間のデモが1つのタスククエリに対して複数のモードを持つ分布に従うことである。以前のアプローチでは、すべてのモードをキャプチャできなかったり、デモの平均モードを取得できないため、無効なトラジェクトリを生成する傾向があった。この問題を克服する外挿能力を有するモーション生成モデルを提案する。
論文参考訳（メタデータ） (2021-02-24T09:07:52Z)
Learning compositional models of robot skills for task and motion planning [39.36562555272779]
センサモレータプリミティブを用いて複雑な長距離操作問題を解決することを学ぶ。能動的学習とサンプリングに最先端の手法を用いる。我々は,選択した原始行動の質を計測することで,シミュレーションと実世界の双方でアプローチを評価する。
論文参考訳（メタデータ） (2020-06-08T20:45:34Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。