論文の概要: SWBT: Similarity Weighted Behavior Transformer with the Imperfect
Demonstration for Robotic Manipulation
- arxiv url: http://arxiv.org/abs/2401.08957v1
- Date: Wed, 17 Jan 2024 04:15:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-01-18 16:58:05.214296
- Title: SWBT: Similarity Weighted Behavior Transformer with the Imperfect
Demonstration for Robotic Manipulation
- Title(参考訳): SWBT:ロボットマニピュレーションのための不完全なデモによる類似重み付き動作変換器
- Authors: Kun Wu, Ning Liu, Zhen Zhao, Di Qiu, Jinming Li, Zhengping Che,
Zhiyuan Xu, Qinru Qiu, Jian Tang
- Abstract要約: SWBT(Simisity Weighted Behavior Transformer)という新しいフレームワークを提案する。
SWBTは、環境との相互作用なしに、専門家と不完全なデモンストレーションの両方から効果的に学習する。
我々は、ロボット操作タスクのオフライン模倣学習環境に不完全なデモンストレーションを統合する試みを初めて行った。
- 参考スコア(独自算出の注目度): 32.78083518963342
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Imitation learning (IL), aiming to learn optimal control policies from expert
demonstrations, has been an effective method for robot manipulation tasks.
However, previous IL methods either only use expensive expert demonstrations
and omit imperfect demonstrations or rely on interacting with the environment
and learning from online experiences. In the context of robotic manipulation,
we aim to conquer the above two challenges and propose a novel framework named
Similarity Weighted Behavior Transformer (SWBT). SWBT effectively learn from
both expert and imperfect demonstrations without interaction with environments.
We reveal that the easy-to-get imperfect demonstrations, such as forward and
inverse dynamics, significantly enhance the network by learning fruitful
information. To the best of our knowledge, we are the first to attempt to
integrate imperfect demonstrations into the offline imitation learning setting
for robot manipulation tasks. Extensive experiments on the ManiSkill2 benchmark
built on the high-fidelity Sapien simulator and real-world robotic manipulation
tasks demonstrated that the proposed method can extract better features and
improve the success rates for all tasks. Our code will be released upon
acceptance of the paper.
- Abstract(参考訳): 模倣学習(il)は,ロボット操作タスクにおいて最適な制御方針を学習することを目的としている。
しかし、従来のIL手法では、高価な専門家によるデモンストレーションのみを使用し、不完全なデモを省略するか、環境とのインタラクションやオンライン体験からの学習に依存していた。
ロボット操作の文脈では,上記の2つの課題を克服し,類似度重み付け動作変換器(swbt)と呼ばれる新しい枠組みを提案する。
SWBTは、環境との相互作用なしに、専門家と不完全なデモンストレーションの両方から効果的に学習する。
我々は,フォワードや逆ダイナミクスといった不完全なデモンストレーションが,実りある情報を学習することでネットワークを著しく強化することを明らかにする。
我々の知る限りでは、ロボット操作タスクのためのオフライン模倣学習環境に不完全なデモンストレーションを統合する試みは、私たちは初めてである。
高精度サピエンシミュレータと実世界のロボット操作タスクで構築されたmaniskill2ベンチマークの広範な実験により、提案手法は優れた特徴を抽出し、すべてのタスクの成功率を向上させることができることが示された。
私たちのコードは論文を受理して公表します。
関連論文リスト
- Generalist World Model Pre-Training for Efficient Reinforcement Learning [33.813682254087055]
一般化的世界モデル事前学習 (WPT) により, 効率的な強化学習 (RL) と高速タスク適応が可能となることを示す。
6つの異なる実施形態にまたがる72のビジュモータタスクの実験では、WPTは広く使われている学習ベースラインに比べて35.65%と35%高い集計スコアを達成している。
論文 参考訳(メタデータ) (2025-02-26T20:34:29Z) - Simulation as Reality? The Effectiveness of LLM-Generated Data in Open-ended Question Assessment [7.695222586877482]
本研究では,AIに基づくアセスメントツールの限界に対処するため,シミュレーションデータの可能性とギャップについて検討する。
シミュレーションデータから, 自動評価モデルのトレーニングにおいて有望な結果が得られたが, 有効性には顕著な限界があることが判明した。
過度に処理された実世界のデータにも存在する実世界のノイズとバイアスが存在しないことが、この制限に寄与する。
論文 参考訳(メタデータ) (2025-02-10T11:40:11Z) - So You Think You Can Scale Up Autonomous Robot Data Collection? [22.7035324720716]
強化学習(RL)には、自律的なデータ収集を可能にするという約束がある。
環境設計と計測に要する多大な労力のために、現実世界でのスケーリングは依然として困難である。
イミテーション・ラーニング (IL) の手法は環境設計の努力をほとんど必要とせず、人的監督を必要とする。
論文 参考訳(メタデータ) (2024-11-04T05:31:35Z) - VITAL: Visual Teleoperation to Enhance Robot Learning through Human-in-the-Loop Corrections [10.49712834719005]
本稿では,VITAL と呼ばれる双方向操作作業のための低コストな視覚遠隔操作システムを提案する。
われわれのアプローチは、安価なハードウェアとビジュアル処理技術を利用してデモを収集する。
実環境と模擬環境の両方を活用することにより,学習方針の一般化性と堅牢性を高める。
論文 参考訳(メタデータ) (2024-07-30T23:29:47Z) - Offline Imitation Learning Through Graph Search and Retrieval [57.57306578140857]
模倣学習は、ロボットが操作スキルを取得するための強力な機械学習アルゴリズムである。
本稿では,グラフ検索と検索により,最適下実験から学習する,シンプルで効果的なアルゴリズムGSRを提案する。
GSRは、ベースラインに比べて10%から30%高い成功率、30%以上の熟練を達成できる。
論文 参考訳(メタデータ) (2024-07-22T06:12:21Z) - Learning Variable Compliance Control From a Few Demonstrations for Bimanual Robot with Haptic Feedback Teleoperation System [5.497832119577795]
厳格なロボットを使った、きめ細やかな、接触に富んだ操作は、ロボット工学において重要な課題である。
外部センサを介して力を制御することでこれらの問題を緩和するために、コンプライアンス制御スキームが導入されている。
Demonstrationsからの学習は直感的な代替手段であり、ロボットは観察された動作を通じて操作を学習できる。
論文 参考訳(メタデータ) (2024-06-21T09:03:37Z) - BeTAIL: Behavior Transformer Adversarial Imitation Learning from Human Racing Gameplay [48.75878234995544]
模倣学習は、手作りの報酬関数を必要とせずに、デモンストレーションからポリシーを学ぶ。
本稿では,BeTAIL: Behavior Transformer Adversarial Imitation Learningを提案する。
我々は,Gran Turismo Sportにおけるリアルヒューマンゲームプレイのエキスパートレベルのデモンストレーションで,BeTAILを3つの課題でテストした。
論文 参考訳(メタデータ) (2024-02-22T00:38:43Z) - Guided Data Augmentation for Offline Reinforcement Learning and Imitation Learning [3.586527534935176]
オフライン強化学習(RL)では、RLエージェントは、以前に収集したデータの固定データセットのみを使用してタスクを解決することを学習する。
本稿では,専門家の質の高い拡張データを生成するためのガイド付きデータ拡張(GuDA)を提案する。
GuDAは、潜在的に最適でない経験の小さな初期データセットを与えられた学習を可能にする。
論文 参考訳(メタデータ) (2023-10-27T16:34:00Z) - Robot Fine-Tuning Made Easy: Pre-Training Rewards and Policies for
Autonomous Real-World Reinforcement Learning [58.3994826169858]
ロボット強化学習のためのリセット不要な微調整システムであるRoboFuMEを紹介する。
我々の洞察は、オフラインの強化学習技術を利用して、事前訓練されたポリシーの効率的なオンライン微調整を確保することである。
提案手法では,既存のロボットデータセットからのデータを組み込んで,目標タスクを3時間以内の自律現実体験で改善することができる。
論文 参考訳(メタデータ) (2023-10-23T17:50:08Z) - Skill Disentanglement for Imitation Learning from Suboptimal
Demonstrations [60.241144377865716]
我々は、小さなクリーンな実演セットと大きなノイズセットの両方で、準最適実演の模倣を考える。
本稿では,様々な品質のアクションプリミティブを異なるスキルに符号化し,サブデモレーションレベルの評価と模倣を行う手法を提案する。
論文 参考訳(メタデータ) (2023-06-13T17:24:37Z) - STAR: Boosting Low-Resource Information Extraction by Structure-to-Text
Data Generation with Large Language Models [56.27786433792638]
STARは大規模言語モデル(LLM)を利用してデータインスタンスを合成するデータ生成手法である。
我々は、初期データインスタンスを取得するための詳細なステップバイステップ命令を設計する。
実験の結果,STARが生成したデータは,低リソースイベント抽出および関係抽出タスクの性能を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2023-05-24T12:15:19Z) - A Survey of Demonstration Learning [0.0]
実証学習(Demonstration Learning)は、エージェントがデモンストレーションで示された専門家の行動を模倣してタスクを実行することを学習するパラダイムである。
デモから複雑な振る舞いを学ぶ大きな可能性を秘めているため、大きな注目を集めている。
環境と対話することなく学習することで、デモ学習はロボット工学や医療といった幅広い現実世界の応用を自動化できる。
論文 参考訳(メタデータ) (2023-03-20T15:22:10Z) - Dexterous Manipulation from Images: Autonomous Real-World RL via Substep
Guidance [71.36749876465618]
本稿では,ユーザが新しいタスクを定義するための"プログラミング不要"なアプローチを提供する,視覚に基づくデクスタラスな操作システムについて述べる。
本システムには,最終タスクと中間タスクを画像例で定義するためのフレームワークが組み込まれている。
実世界における多段階物体操作の4指ロボットハンドラーによる実験結果
論文 参考訳(メタデータ) (2022-12-19T22:50:40Z) - Don't Start From Scratch: Leveraging Prior Data to Automate Robotic
Reinforcement Learning [70.70104870417784]
強化学習(RL)アルゴリズムは、ロボットシステムの自律的なスキル獲得を可能にするという約束を持っている。
現実のロボットRLは、通常、環境をリセットするためにデータ収集と頻繁な人間の介入を必要とする。
本研究では,従来のタスクから収集した多様なオフラインデータセットを効果的に活用することで,これらの課題にどのように対処できるかを検討する。
論文 参考訳(メタデータ) (2022-07-11T08:31:22Z) - Deep Reinforcement Learning Assisted Federated Learning Algorithm for
Data Management of IIoT [82.33080550378068]
産業用IoT(Industrial Internet of Things)の継続的な拡大により、IIoT機器は毎回大量のユーザデータを生成する。
IIoTの分野で、これらの時系列データを効率的かつ安全な方法で管理する方法は、依然として未解決の問題である。
本稿では,無線ネットワーク環境におけるIIoT機器データ管理におけるFL技術の適用について検討する。
論文 参考訳(メタデータ) (2022-02-03T07:12:36Z) - Bottom-Up Skill Discovery from Unsegmented Demonstrations for
Long-Horizon Robot Manipulation [55.31301153979621]
我々は,実世界の長距離ロボット操作作業に,スキル発見による取り組みを行う。
未解決のデモンストレーションから再利用可能なスキルのライブラリを学ぶためのボトムアップアプローチを提案する。
提案手法は,多段階操作タスクにおける最先端の模倣学習手法よりも優れた性能を示した。
論文 参考訳(メタデータ) (2021-09-28T16:18:54Z) - Efficient Realistic Data Generation Framework leveraging Deep
Learning-based Human Digitization [0.0]
提案手法は、実際の背景画像として入力され、さまざまなポーズで人物を投入する。
対応するタスクのベンチマークと評価は、実データに対する補足として、合成データが効果的に使用できることを示している。
論文 参考訳(メタデータ) (2021-06-28T08:07:31Z) - A Framework for Efficient Robotic Manipulation [79.10407063260473]
単一のロボットアームがピクセルからスパースリワード操作ポリシーを学習できることを示します。
デモは10回しかなく、単一のロボットアームがピクセルからスパースリワード操作のポリシーを学習できることを示しています。
論文 参考訳(メタデータ) (2020-12-14T22:18:39Z) - Visual Imitation Made Easy [102.36509665008732]
本稿では,ロボットへのデータ転送を容易にしながら,データ収集プロセスを単純化する,模倣のための代替インターフェースを提案する。
我々は、データ収集装置やロボットのエンドエフェクターとして、市販のリーチ・グラブラー補助具を使用する。
我々は,非包括的プッシュと包括的積み重ねという2つの課題について実験的に評価した。
論文 参考訳(メタデータ) (2020-08-11T17:58:50Z) - AWAC: Accelerating Online Reinforcement Learning with Offline Datasets [84.94748183816547]
提案手法は,従来の実演データとオンライン体験を組み合わせることで,スキルの素早い学習を可能にする。
以上の結果から,事前データを組み込むことで,ロボット工学を実践的な時間スケールまで学習するのに要する時間を短縮できることが示唆された。
論文 参考訳(メタデータ) (2020-06-16T17:54:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。