論文の概要: A Two-stage Fine-tuning Strategy for Generalizable Manipulation Skill of
Embodied AI
- arxiv url: http://arxiv.org/abs/2307.11343v1
- Date: Fri, 21 Jul 2023 04:15:36 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-24 13:42:45.430958
- Title: A Two-stage Fine-tuning Strategy for Generalizable Manipulation Skill of
Embodied AI
- Title(参考訳): 体操AIの汎用マニピュレーションスキルのための2段階微調整戦略
- Authors: Fang Gao, XueTao Li, Jun Yu, Feng Shaung
- Abstract要約: そこで我々は,Maniskill2ベンチマークに基づく2段階ファインチューニング手法を提案する。
本研究は,Embodied AIモデルの一般化能力を向上し,現実のシナリオにおける実践的応用の道を開く手法の可能性を明らかにするものである。
- 参考スコア(独自算出の注目度): 15.480968464853769
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The advent of Chat-GPT has led to a surge of interest in Embodied AI.
However, many existing Embodied AI models heavily rely on massive interactions
with training environments, which may not be practical in real-world
situations. To this end, the Maniskill2 has introduced a full-physics
simulation benchmark for manipulating various 3D objects. This benchmark
enables agents to be trained using diverse datasets of demonstrations and
evaluates their ability to generalize to unseen scenarios in testing
environments. In this paper, we propose a novel two-stage fine-tuning strategy
that aims to further enhance the generalization capability of our model based
on the Maniskill2 benchmark. Through extensive experiments, we demonstrate the
effectiveness of our approach by achieving the 1st prize in all three tracks of
the ManiSkill2 Challenge. Our findings highlight the potential of our method to
improve the generalization abilities of Embodied AI models and pave the way for
their ractical applications in real-world scenarios. All codes and models of
our solution is available at https://github.com/xtli12/GXU-LIPE.git
- Abstract(参考訳): Chat-GPTの出現は、Embodied AIへの関心の高まりにつながった。
しかし、既存のEmbodied AIモデルの多くは、実際の状況では実用的ではないトレーニング環境との大規模なインタラクションに大きく依存している。
この目的のためにmaniskill2は、様々な3dオブジェクトを操作するためのフルフィジカルシミュレーションベンチマークを導入した。
このベンチマークでは、さまざまなデモンストレーションデータセットを使用してエージェントをトレーニングし、テスト環境で見えないシナリオに一般化する能力を評価する。
本稿では,Maniskill2ベンチマークに基づくモデル一般化能力の向上を目的とした,新しい2段階ファインチューニング戦略を提案する。
広範な実験を通じて,maniskill2チャレンジの3トラックすべてにおいて,第1回賞の達成により,このアプローチの有効性を実証した。
本研究は,Embodied AIモデルの一般化能力を向上し,現実シナリオにおける実践的応用の道を開く手法の可能性を明らかにするものである。
私たちのソリューションのコードとモデルはすべてhttps://github.com/xtli12/GXU-LIPE.gitで公開されています。
関連論文リスト
- An Interactive Agent Foundation Model [50.50659114031731]
本稿では,AIエージェントを訓練するための新しいマルチタスクエージェントトレーニングパラダイムを用いた対話型エージェント基礎モデルを提案する。
トレーニングパラダイムは、視覚マスク付きオートエンコーダ、言語モデリング、次世代の予測など、多様な事前学習戦略を統一する。
私たちは、ロボティクス、ゲームAI、ヘルスケアという3つの異なる領域でフレームワークのパフォーマンスを実演します。
論文 参考訳(メタデータ) (2024-02-08T18:58:02Z) - Real Evaluations Tractability using Continuous Goal-Directed Actions in
Smart City Applications [3.1158660854608824]
継続的目標指向アクション(CGDA)は、環境から抽出できるあらゆる機能の変更としてアクションをエンコードする。
現在の戦略では、シミュレーションで評価を行い、最終的な関節軌道を実際のロボットに転送する。
EAを用いた評価を減らすための2つの異なるアプローチが提案され、比較された。
論文 参考訳(メタデータ) (2024-02-01T15:38:21Z) - GenH2R: Learning Generalizable Human-to-Robot Handover via Scalable
Simulation, Demonstration, and Imitation [33.592902750787424]
GenH2Rは、一般化可能なビジョンベースのヒューマン・トゥ・ロボット(H2R)ハンドオーバスキルを学ぶためのフレームワークである。
我々は、H2Rハンドオーバを包括的解を用いて大規模に学習することで、そのような一般化可能性を得る。
大規模3次元モデルレポジトリ、デクスタラスグリップ生成方法、曲線ベースの3次元アニメーションを活用している。
論文 参考訳(メタデータ) (2024-01-01T18:20:43Z) - Pave the Way to Grasp Anything: Transferring Foundation Models for
Universal Pick-Place Robots [50.73735524550534]
そこで本稿では,最先端基礎モデルによって生成された言語基底セグメンテーションマスクを効果的に活用する新しいパラダイムを提案する。
マスクから伝達される正確なセマンティクスとジオメトリを多視点ポリシーモデルに統合することにより、正確なオブジェクトのポーズを認識し、サンプル効率のよい学習を可能にする。
論文 参考訳(メタデータ) (2023-06-09T07:22:12Z) - Curriculum-Based Imitation of Versatile Skills [15.97723808124603]
模倣による学習スキルは、ロボットの直感的な教育にとって有望な概念である。
このようなスキルを学ぶ一般的な方法は、デモが与えられた可能性の最大化によってパラメトリックモデルを学ぶことである。
しかし、人間のデモンストレーションはしばしばマルチモーダルであり、同じタスクは複数の方法で解決される。
論文 参考訳(メタデータ) (2023-04-11T12:10:41Z) - ProcTHOR: Large-Scale Embodied AI Using Procedural Generation [55.485985317538194]
ProcTHORは、Embodied AI環境の手続き的生成のためのフレームワークである。
ナビゲーション、アレンジメント、アーム操作のための6つの具体化されたAIベンチマークに対して、最先端の結果を実証する。
論文 参考訳(メタデータ) (2022-06-14T17:09:35Z) - Silver-Bullet-3D at ManiSkill 2021: Learning-from-Demonstrations and
Heuristic Rule-based Methods for Object Manipulation [118.27432851053335]
本稿では,SAPIEN ManiSkill Challenge 2021: No Interaction Trackにおいて,以下の2つのトラックを対象としたシステムの概要と比較分析を行った。
No Interactionは、事前に収集された実証軌道からの学習ポリシーのターゲットを追跡する。
このトラックでは,タスクを一連のサブタスクに分解することで,高品質なオブジェクト操作をトリガするHuristic Rule-based Method (HRM) を設計する。
各サブタスクに対して、ロボットアームに適用可能なアクションを予測するために、単純なルールベースの制御戦略が採用されている。
論文 参考訳(メタデータ) (2022-06-13T16:20:42Z) - Demonstration-efficient Inverse Reinforcement Learning in Procedurally
Generated Environments [137.86426963572214]
逆強化学習(Inverse Reinforcement Learning)は、専門家によるデモンストレーションから報酬関数を外挿する。
提案手法であるDE-AIRLは、実演効率が高く、完全手続き領域に一般化する報酬関数を外挿できることを示す。
論文 参考訳(メタデータ) (2020-12-04T11:18:02Z) - Forgetful Experience Replay in Hierarchical Reinforcement Learning from
Demonstrations [55.41644538483948]
本稿では,複雑な視覚環境において,エージェントが低品質な実演を行えるようにするためのアプローチの組み合わせを提案する。
提案した目標指向のリプレイバッファ構築により,エージェントはデモにおいて複雑な階層的タスクを解くためのサブゴールを自動的に強調することができる。
私たちのアルゴリズムに基づくこのソリューションは、有名なMineRLコンペティションのすべてのソリューションを破り、エージェントがMinecraft環境でダイヤモンドをマイニングすることを可能にする。
論文 参考訳(メタデータ) (2020-06-17T15:38:40Z) - Triple-GAIL: A Multi-Modal Imitation Learning Framework with Generative
Adversarial Nets [34.17829944466169]
Triple-GAILは、専門家によるデモンストレーションとデータ拡張の目的で連続的に生成された経験から、スキルの選択と模倣を共同で学ぶことができる。
実運転軌道とリアルタイム戦略ゲームデータセットの実験は、Triple-GAILがデモ参加者に近いマルチモーダル動作に適合できることを実証している。
論文 参考訳(メタデータ) (2020-05-19T03:24:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。