論文の概要: A Two-stage Fine-tuning Strategy for Generalizable Manipulation Skill of
Embodied AI
- arxiv url: http://arxiv.org/abs/2307.11343v1
- Date: Fri, 21 Jul 2023 04:15:36 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-24 13:42:45.430958
- Title: A Two-stage Fine-tuning Strategy for Generalizable Manipulation Skill of
Embodied AI
- Title(参考訳): 体操AIの汎用マニピュレーションスキルのための2段階微調整戦略
- Authors: Fang Gao, XueTao Li, Jun Yu, Feng Shaung
- Abstract要約: そこで我々は,Maniskill2ベンチマークに基づく2段階ファインチューニング手法を提案する。
本研究は,Embodied AIモデルの一般化能力を向上し,現実のシナリオにおける実践的応用の道を開く手法の可能性を明らかにするものである。
- 参考スコア(独自算出の注目度): 15.480968464853769
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The advent of Chat-GPT has led to a surge of interest in Embodied AI.
However, many existing Embodied AI models heavily rely on massive interactions
with training environments, which may not be practical in real-world
situations. To this end, the Maniskill2 has introduced a full-physics
simulation benchmark for manipulating various 3D objects. This benchmark
enables agents to be trained using diverse datasets of demonstrations and
evaluates their ability to generalize to unseen scenarios in testing
environments. In this paper, we propose a novel two-stage fine-tuning strategy
that aims to further enhance the generalization capability of our model based
on the Maniskill2 benchmark. Through extensive experiments, we demonstrate the
effectiveness of our approach by achieving the 1st prize in all three tracks of
the ManiSkill2 Challenge. Our findings highlight the potential of our method to
improve the generalization abilities of Embodied AI models and pave the way for
their ractical applications in real-world scenarios. All codes and models of
our solution is available at https://github.com/xtli12/GXU-LIPE.git
- Abstract(参考訳): Chat-GPTの出現は、Embodied AIへの関心の高まりにつながった。
しかし、既存のEmbodied AIモデルの多くは、実際の状況では実用的ではないトレーニング環境との大規模なインタラクションに大きく依存している。
この目的のためにmaniskill2は、様々な3dオブジェクトを操作するためのフルフィジカルシミュレーションベンチマークを導入した。
このベンチマークでは、さまざまなデモンストレーションデータセットを使用してエージェントをトレーニングし、テスト環境で見えないシナリオに一般化する能力を評価する。
本稿では,Maniskill2ベンチマークに基づくモデル一般化能力の向上を目的とした,新しい2段階ファインチューニング戦略を提案する。
広範な実験を通じて,maniskill2チャレンジの3トラックすべてにおいて,第1回賞の達成により,このアプローチの有効性を実証した。
本研究は,Embodied AIモデルの一般化能力を向上し,現実シナリオにおける実践的応用の道を開く手法の可能性を明らかにするものである。
私たちのソリューションのコードとモデルはすべてhttps://github.com/xtli12/GXU-LIPE.gitで公開されています。
関連論文リスト
- DINO-WM: World Models on Pre-trained Visual Features enable Zero-shot Planning [38.749045283035365]
本稿では、視覚世界を再構築することなく、視覚力学をモデル化する新しい手法であるDINO-WMを提案する。
迷路ナビゲーション,テーブルトッププッシュ,粒子操作など,様々な領域でDINO-WMを評価した。
論文 参考訳(メタデータ) (2024-11-07T18:54:37Z) - Learning the Generalizable Manipulation Skills on Soft-body Tasks via Guided Self-attention Behavior Cloning Policy [9.345203561496552]
GP2E行動クローニングポリシーは、ソフトボディタスクから汎用的な操作スキルを学ぶためのエージェントを誘導することができる。
本研究は,Embodied AIモデルの一般化能力を向上する手法の可能性を明らかにするものである。
論文 参考訳(メタデータ) (2024-10-08T07:31:10Z) - Ag2Manip: Learning Novel Manipulation Skills with Agent-Agnostic Visual and Action Representations [77.31328397965653]
Ag2Manip(Agent-Agnostic representations for Manipulation)は,2つの重要なイノベーションを通じて課題を克服するフレームワークである。
人間の操作ビデオから派生した新しいエージェント非依存の視覚表現であり、その具体的特徴は一般化性を高めるために隠蔽された。
ロボットのキネマティクスを普遍的なエージェントプロキシに抽象化し、エンドエフェクタとオブジェクト間の重要な相互作用を強調するエージェント非依存のアクション表現。
論文 参考訳(メタデータ) (2024-04-26T16:40:17Z) - Part-Guided 3D RL for Sim2Real Articulated Object Manipulation [27.422878372169805]
実演を伴わずに調音物体の操作を学習できる部分誘導型3D RLフレームワークを提案する。
2次元分割と3次元RLの長所を組み合わせることにより,RL政策訓練の効率化を図る。
一つの汎用的なRLポリシーは、シミュレーション中に複数のオブジェクト操作タスクを同時にトレーニングすることができる。
論文 参考訳(メタデータ) (2024-04-26T10:18:17Z) - GenH2R: Learning Generalizable Human-to-Robot Handover via Scalable Simulation, Demonstration, and Imitation [31.702907860448477]
GenH2Rは、一般化可能なビジョンベースのヒューマン・トゥ・ロボット(H2R)ハンドオーバスキルを学ぶためのフレームワークである。
我々は、H2Rハンドオーバを包括的解を用いて大規模に学習することで、そのような一般化可能性を得る。
大規模3次元モデルレポジトリ、デクスタラスグリップ生成方法、曲線ベースの3次元アニメーションを活用している。
論文 参考訳(メタデータ) (2024-01-01T18:20:43Z) - Transferring Foundation Models for Generalizable Robotic Manipulation [82.12754319808197]
インターネット規模の基盤モデルによって生成された言語推論セグメンテーションマスクを効果的に活用する新しいパラダイムを提案する。
提案手法は,オブジェクトのポーズを効果的かつ堅牢に知覚し,サンプル効率のよい一般化学習を可能にする。
デモは提出されたビデオで見ることができ、より包括的なデモはlink1またはlink2で見ることができます。
論文 参考訳(メタデータ) (2023-06-09T07:22:12Z) - ProcTHOR: Large-Scale Embodied AI Using Procedural Generation [55.485985317538194]
ProcTHORは、Embodied AI環境の手続き的生成のためのフレームワークである。
ナビゲーション、アレンジメント、アーム操作のための6つの具体化されたAIベンチマークに対して、最先端の結果を実証する。
論文 参考訳(メタデータ) (2022-06-14T17:09:35Z) - Silver-Bullet-3D at ManiSkill 2021: Learning-from-Demonstrations and
Heuristic Rule-based Methods for Object Manipulation [118.27432851053335]
本稿では,SAPIEN ManiSkill Challenge 2021: No Interaction Trackにおいて,以下の2つのトラックを対象としたシステムの概要と比較分析を行った。
No Interactionは、事前に収集された実証軌道からの学習ポリシーのターゲットを追跡する。
このトラックでは,タスクを一連のサブタスクに分解することで,高品質なオブジェクト操作をトリガするHuristic Rule-based Method (HRM) を設計する。
各サブタスクに対して、ロボットアームに適用可能なアクションを予測するために、単純なルールベースの制御戦略が採用されている。
論文 参考訳(メタデータ) (2022-06-13T16:20:42Z) - Demonstration-efficient Inverse Reinforcement Learning in Procedurally
Generated Environments [137.86426963572214]
逆強化学習(Inverse Reinforcement Learning)は、専門家によるデモンストレーションから報酬関数を外挿する。
提案手法であるDE-AIRLは、実演効率が高く、完全手続き領域に一般化する報酬関数を外挿できることを示す。
論文 参考訳(メタデータ) (2020-12-04T11:18:02Z) - Forgetful Experience Replay in Hierarchical Reinforcement Learning from
Demonstrations [55.41644538483948]
本稿では,複雑な視覚環境において,エージェントが低品質な実演を行えるようにするためのアプローチの組み合わせを提案する。
提案した目標指向のリプレイバッファ構築により,エージェントはデモにおいて複雑な階層的タスクを解くためのサブゴールを自動的に強調することができる。
私たちのアルゴリズムに基づくこのソリューションは、有名なMineRLコンペティションのすべてのソリューションを破り、エージェントがMinecraft環境でダイヤモンドをマイニングすることを可能にする。
論文 参考訳(メタデータ) (2020-06-17T15:38:40Z) - Triple-GAIL: A Multi-Modal Imitation Learning Framework with Generative
Adversarial Nets [34.17829944466169]
Triple-GAILは、専門家によるデモンストレーションとデータ拡張の目的で連続的に生成された経験から、スキルの選択と模倣を共同で学ぶことができる。
実運転軌道とリアルタイム戦略ゲームデータセットの実験は、Triple-GAILがデモ参加者に近いマルチモーダル動作に適合できることを実証している。
論文 参考訳(メタデータ) (2020-05-19T03:24:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。