論文の概要: SWBT: Similarity Weighted Behavior Transformer with the Imperfect
Demonstration for Robotic Manipulation
- arxiv url: http://arxiv.org/abs/2401.08957v1
- Date: Wed, 17 Jan 2024 04:15:56 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-18 16:58:05.214296
- Title: SWBT: Similarity Weighted Behavior Transformer with the Imperfect
Demonstration for Robotic Manipulation
- Title(参考訳): SWBT:ロボットマニピュレーションのための不完全なデモによる類似重み付き動作変換器
- Authors: Kun Wu, Ning Liu, Zhen Zhao, Di Qiu, Jinming Li, Zhengping Che,
Zhiyuan Xu, Qinru Qiu, Jian Tang
- Abstract要約: SWBT(Simisity Weighted Behavior Transformer)という新しいフレームワークを提案する。
SWBTは、環境との相互作用なしに、専門家と不完全なデモンストレーションの両方から効果的に学習する。
我々は、ロボット操作タスクのオフライン模倣学習環境に不完全なデモンストレーションを統合する試みを初めて行った。
- 参考スコア(独自算出の注目度): 32.78083518963342
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Imitation learning (IL), aiming to learn optimal control policies from expert
demonstrations, has been an effective method for robot manipulation tasks.
However, previous IL methods either only use expensive expert demonstrations
and omit imperfect demonstrations or rely on interacting with the environment
and learning from online experiences. In the context of robotic manipulation,
we aim to conquer the above two challenges and propose a novel framework named
Similarity Weighted Behavior Transformer (SWBT). SWBT effectively learn from
both expert and imperfect demonstrations without interaction with environments.
We reveal that the easy-to-get imperfect demonstrations, such as forward and
inverse dynamics, significantly enhance the network by learning fruitful
information. To the best of our knowledge, we are the first to attempt to
integrate imperfect demonstrations into the offline imitation learning setting
for robot manipulation tasks. Extensive experiments on the ManiSkill2 benchmark
built on the high-fidelity Sapien simulator and real-world robotic manipulation
tasks demonstrated that the proposed method can extract better features and
improve the success rates for all tasks. Our code will be released upon
acceptance of the paper.
- Abstract(参考訳): 模倣学習(il)は,ロボット操作タスクにおいて最適な制御方針を学習することを目的としている。
しかし、従来のIL手法では、高価な専門家によるデモンストレーションのみを使用し、不完全なデモを省略するか、環境とのインタラクションやオンライン体験からの学習に依存していた。
ロボット操作の文脈では,上記の2つの課題を克服し,類似度重み付け動作変換器(swbt)と呼ばれる新しい枠組みを提案する。
SWBTは、環境との相互作用なしに、専門家と不完全なデモンストレーションの両方から効果的に学習する。
我々は,フォワードや逆ダイナミクスといった不完全なデモンストレーションが,実りある情報を学習することでネットワークを著しく強化することを明らかにする。
我々の知る限りでは、ロボット操作タスクのためのオフライン模倣学習環境に不完全なデモンストレーションを統合する試みは、私たちは初めてである。
高精度サピエンシミュレータと実世界のロボット操作タスクで構築されたmaniskill2ベンチマークの広範な実験により、提案手法は優れた特徴を抽出し、すべてのタスクの成功率を向上させることができることが示された。
私たちのコードは論文を受理して公表します。
関連論文リスト
- Simulation as Reality? The Effectiveness of LLM-Generated Data in Open-ended Question Assessment [7.695222586877482]
本研究では,AIに基づくアセスメントツールの限界に対処するため,シミュレーションデータの可能性とギャップについて検討する。
シミュレーションデータから, 自動評価モデルのトレーニングにおいて有望な結果が得られたが, 有効性には顕著な限界があることが判明した。
過度に処理された実世界のデータにも存在する実世界のノイズとバイアスが存在しないことが、この制限に寄与する。
論文 参考訳(メタデータ) (2025-02-10T11:40:11Z) - So You Think You Can Scale Up Autonomous Robot Data Collection? [22.7035324720716]
強化学習(RL)には、自律的なデータ収集を可能にするという約束がある。
環境設計と計測に要する多大な労力のために、現実世界でのスケーリングは依然として困難である。
イミテーション・ラーニング (IL) の手法は環境設計の努力をほとんど必要とせず、人的監督を必要とする。
論文 参考訳(メタデータ) (2024-11-04T05:31:35Z) - Guided Data Augmentation for Offline Reinforcement Learning and Imitation Learning [3.586527534935176]
オフライン強化学習(RL)では、RLエージェントは、以前に収集したデータの固定データセットのみを使用してタスクを解決することを学習する。
本稿では,専門家の質の高い拡張データを生成するためのガイド付きデータ拡張(GuDA)を提案する。
GuDAは、潜在的に最適でない経験の小さな初期データセットを与えられた学習を可能にする。
論文 参考訳(メタデータ) (2023-10-27T16:34:00Z) - Robot Fine-Tuning Made Easy: Pre-Training Rewards and Policies for
Autonomous Real-World Reinforcement Learning [58.3994826169858]
ロボット強化学習のためのリセット不要な微調整システムであるRoboFuMEを紹介する。
我々の洞察は、オフラインの強化学習技術を利用して、事前訓練されたポリシーの効率的なオンライン微調整を確保することである。
提案手法では,既存のロボットデータセットからのデータを組み込んで,目標タスクを3時間以内の自律現実体験で改善することができる。
論文 参考訳(メタデータ) (2023-10-23T17:50:08Z) - STAR: Boosting Low-Resource Information Extraction by Structure-to-Text
Data Generation with Large Language Models [56.27786433792638]
STARは大規模言語モデル(LLM)を利用してデータインスタンスを合成するデータ生成手法である。
我々は、初期データインスタンスを取得するための詳細なステップバイステップ命令を設計する。
実験の結果,STARが生成したデータは,低リソースイベント抽出および関係抽出タスクの性能を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2023-05-24T12:15:19Z) - Offline Robot Reinforcement Learning with Uncertainty-Guided Human
Expert Sampling [11.751910133386254]
バッチ(オフライン)強化学習の最近の進歩は、利用可能なオフラインデータから学習する上で有望な結果を示している。
本研究では,不確実性推定を用いて人間の実演データを注入する手法を提案する。
実験の結果,本手法は,専門家データと準最適エージェントから収集したデータを組み合わせる方法に比べて,よりサンプル効率が高いことがわかった。
論文 参考訳(メタデータ) (2022-12-16T01:41:59Z) - Don't Start From Scratch: Leveraging Prior Data to Automate Robotic
Reinforcement Learning [70.70104870417784]
強化学習(RL)アルゴリズムは、ロボットシステムの自律的なスキル獲得を可能にするという約束を持っている。
現実のロボットRLは、通常、環境をリセットするためにデータ収集と頻繁な人間の介入を必要とする。
本研究では,従来のタスクから収集した多様なオフラインデータセットを効果的に活用することで,これらの課題にどのように対処できるかを検討する。
論文 参考訳(メタデータ) (2022-07-11T08:31:22Z) - Deep Reinforcement Learning Assisted Federated Learning Algorithm for
Data Management of IIoT [82.33080550378068]
産業用IoT(Industrial Internet of Things)の継続的な拡大により、IIoT機器は毎回大量のユーザデータを生成する。
IIoTの分野で、これらの時系列データを効率的かつ安全な方法で管理する方法は、依然として未解決の問題である。
本稿では,無線ネットワーク環境におけるIIoT機器データ管理におけるFL技術の適用について検討する。
論文 参考訳(メタデータ) (2022-02-03T07:12:36Z) - Efficient Realistic Data Generation Framework leveraging Deep
Learning-based Human Digitization [0.0]
提案手法は、実際の背景画像として入力され、さまざまなポーズで人物を投入する。
対応するタスクのベンチマークと評価は、実データに対する補足として、合成データが効果的に使用できることを示している。
論文 参考訳(メタデータ) (2021-06-28T08:07:31Z) - A Framework for Efficient Robotic Manipulation [79.10407063260473]
単一のロボットアームがピクセルからスパースリワード操作ポリシーを学習できることを示します。
デモは10回しかなく、単一のロボットアームがピクセルからスパースリワード操作のポリシーを学習できることを示しています。
論文 参考訳(メタデータ) (2020-12-14T22:18:39Z) - AWAC: Accelerating Online Reinforcement Learning with Offline Datasets [84.94748183816547]
提案手法は,従来の実演データとオンライン体験を組み合わせることで,スキルの素早い学習を可能にする。
以上の結果から,事前データを組み込むことで,ロボット工学を実践的な時間スケールまで学習するのに要する時間を短縮できることが示唆された。
論文 参考訳(メタデータ) (2020-06-16T17:54:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。