Fugu-MT 論文翻訳(概要): A Two-stage Fine-tuning Strategy for Generalizable Manipulation Skill of Embodied AI

論文の概要: A Two-stage Fine-tuning Strategy for Generalizable Manipulation Skill of Embodied AI

arxiv url: http://arxiv.org/abs/2307.11343v1
Date: Fri, 21 Jul 2023 04:15:36 GMT
ステータス: 翻訳完了
システム内更新日: 2023-07-24 13:42:45.430958
Title: A Two-stage Fine-tuning Strategy for Generalizable Manipulation Skill of Embodied AI
Title（参考訳）: 体操AIの汎用マニピュレーションスキルのための2段階微調整戦略
Authors: Fang Gao, XueTao Li, Jun Yu, Feng Shaung
Abstract要約: そこで我々は,Maniskill2ベンチマークに基づく2段階ファインチューニング手法を提案する。本研究は,Embodied AIモデルの一般化能力を向上し,現実のシナリオにおける実践的応用の道を開く手法の可能性を明らかにするものである。
参考スコア（独自算出の注目度）: 15.480968464853769
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The advent of Chat-GPT has led to a surge of interest in Embodied AI. However, many existing Embodied AI models heavily rely on massive interactions with training environments, which may not be practical in real-world situations. To this end, the Maniskill2 has introduced a full-physics simulation benchmark for manipulating various 3D objects. This benchmark enables agents to be trained using diverse datasets of demonstrations and evaluates their ability to generalize to unseen scenarios in testing environments. In this paper, we propose a novel two-stage fine-tuning strategy that aims to further enhance the generalization capability of our model based on the Maniskill2 benchmark. Through extensive experiments, we demonstrate the effectiveness of our approach by achieving the 1st prize in all three tracks of the ManiSkill2 Challenge. Our findings highlight the potential of our method to improve the generalization abilities of Embodied AI models and pave the way for their ractical applications in real-world scenarios. All codes and models of our solution is available at https://github.com/xtli12/GXU-LIPE.git
Abstract（参考訳）: Chat-GPTの出現は、Embodied AIへの関心の高まりにつながった。しかし、既存のEmbodied AIモデルの多くは、実際の状況では実用的ではないトレーニング環境との大規模なインタラクションに大きく依存している。この目的のためにmaniskill2は、様々な3dオブジェクトを操作するためのフルフィジカルシミュレーションベンチマークを導入した。このベンチマークでは、さまざまなデモンストレーションデータセットを使用してエージェントをトレーニングし、テスト環境で見えないシナリオに一般化する能力を評価する。本稿では,Maniskill2ベンチマークに基づくモデル一般化能力の向上を目的とした,新しい2段階ファインチューニング戦略を提案する。広範な実験を通じて,maniskill2チャレンジの3トラックすべてにおいて,第1回賞の達成により,このアプローチの有効性を実証した。本研究は,Embodied AIモデルの一般化能力を向上し,現実シナリオにおける実践的応用の道を開く手法の可能性を明らかにするものである。私たちのソリューションのコードとモデルはすべてhttps://github.com/xtli12/GXU-LIPE.gitで公開されています。

関連論文リスト

Boosting Virtual Agent Learning and Reasoning: A Step-wise, Multi-dimensional, and Generalist Reward Model with Benchmark [72.46357004059661]
ステップワイドな多次元ジェネリスト・リワードモデルであるSimisalを提案する。エージェントトレーニング用のきめ細かい信号を提供し、推論時間スケーリングのためのより良いアクションを選択することができる。仮想エージェント領域の最初のベンチマークをステップワイドで多次元の報酬モデルトレーニングと評価のために導入する。
論文参考訳（メタデータ） (2025-03-24T13:30:47Z)
VTAO-BiManip: Masked Visual-Tactile-Action Pre-training with Object Understanding for Bimanual Dexterous Manipulation [8.882764358932276]
両手の DoF の高さと協調性のため、ロボット工学における両面的な操作は依然として重要な課題である。既存の片手操作技術は、人間のデモンストレーションを利用してRL法を誘導するが、複数のサブスキルを含む複雑な双対タスクに一般化できないことが多い。 VTAO-BiManipは,視覚触覚前訓練と物体理解を組み合わせた新しいフレームワークである。
論文参考訳（メタデータ） (2025-01-07T08:14:53Z)
Learning Generalizable 3D Manipulation With 10 Demonstrations [16.502781729164973]
10個のデモから操作スキルを学習する新しいフレームワークを提案する。シミュレーションベンチマークと実世界のロボットシステムの両方に関する広範な実験を通じて、我々のフレームワークを検証する。この研究は、現実世界のアプリケーションにおいて、効率的で一般化可能な操作スキル学習を前進させる大きな可能性を示している。
論文参考訳（メタデータ） (2024-11-15T14:01:02Z)
DINO-WM: World Models on Pre-trained Visual Features enable Zero-shot Planning [38.749045283035365]
本稿では、視覚世界を再構築することなく、視覚力学をモデル化する新しい手法であるDINO-WMを提案する。迷路ナビゲーション,テーブルトッププッシュ,粒子操作など,様々な領域でDINO-WMを評価した。
論文参考訳（メタデータ） (2024-11-07T18:54:37Z)
Learning the Generalizable Manipulation Skills on Soft-body Tasks via Guided Self-attention Behavior Cloning Policy [9.345203561496552]
GP2E行動クローニングポリシーは、ソフトボディタスクから汎用的な操作スキルを学ぶためのエージェントを誘導することができる。本研究は,Embodied AIモデルの一般化能力を向上する手法の可能性を明らかにするものである。
論文参考訳（メタデータ） (2024-10-08T07:31:10Z)
Ag2Manip: Learning Novel Manipulation Skills with Agent-Agnostic Visual and Action Representations [77.31328397965653]
Ag2Manip(Agent-Agnostic representations for Manipulation)は,2つの重要なイノベーションを通じて課題を克服するフレームワークである。人間の操作ビデオから派生した新しいエージェント非依存の視覚表現であり、その具体的特徴は一般化性を高めるために隠蔽された。ロボットのキネマティクスを普遍的なエージェントプロキシに抽象化し、エンドエフェクタとオブジェクト間の重要な相互作用を強調するエージェント非依存のアクション表現。
論文参考訳（メタデータ） (2024-04-26T16:40:17Z)
GenH2R: Learning Generalizable Human-to-Robot Handover via Scalable Simulation, Demonstration, and Imitation [31.702907860448477]
GenH2Rは、一般化可能なビジョンベースのヒューマン・トゥ・ロボット(H2R)ハンドオーバスキルを学ぶためのフレームワークである。我々は、H2Rハンドオーバを包括的解を用いて大規模に学習することで、そのような一般化可能性を得る。大規模3次元モデルレポジトリ、デクスタラスグリップ生成方法、曲線ベースの3次元アニメーションを活用している。
論文参考訳（メタデータ） (2024-01-01T18:20:43Z)
Transferring Foundation Models for Generalizable Robotic Manipulation [82.12754319808197]
インターネット規模の基盤モデルによって生成された言語推論セグメンテーションマスクを効果的に活用する新しいパラダイムを提案する。提案手法は,オブジェクトのポーズを効果的かつ堅牢に知覚し,サンプル効率のよい一般化学習を可能にする。デモは提出されたビデオで見ることができ、より包括的なデモはlink1またはlink2で見ることができます。
論文参考訳（メタデータ） (2023-06-09T07:22:12Z)
ProcTHOR: Large-Scale Embodied AI Using Procedural Generation [55.485985317538194]
ProcTHORは、Embodied AI環境の手続き的生成のためのフレームワークである。ナビゲーション、アレンジメント、アーム操作のための6つの具体化されたAIベンチマークに対して、最先端の結果を実証する。
論文参考訳（メタデータ） (2022-06-14T17:09:35Z)
Silver-Bullet-3D at ManiSkill 2021: Learning-from-Demonstrations and Heuristic Rule-based Methods for Object Manipulation [118.27432851053335]
本稿では,SAPIEN ManiSkill Challenge 2021: No Interaction Trackにおいて,以下の2つのトラックを対象としたシステムの概要と比較分析を行った。 No Interactionは、事前に収集された実証軌道からの学習ポリシーのターゲットを追跡する。このトラックでは,タスクを一連のサブタスクに分解することで,高品質なオブジェクト操作をトリガするHuristic Rule-based Method (HRM) を設計する。各サブタスクに対して、ロボットアームに適用可能なアクションを予測するために、単純なルールベースの制御戦略が採用されている。
論文参考訳（メタデータ） (2022-06-13T16:20:42Z)
Demonstration-efficient Inverse Reinforcement Learning in Procedurally Generated Environments [137.86426963572214]
逆強化学習(Inverse Reinforcement Learning)は、専門家によるデモンストレーションから報酬関数を外挿する。提案手法であるDE-AIRLは、実演効率が高く、完全手続き領域に一般化する報酬関数を外挿できることを示す。
論文参考訳（メタデータ） (2020-12-04T11:18:02Z)
Forgetful Experience Replay in Hierarchical Reinforcement Learning from Demonstrations [55.41644538483948]
本稿では,複雑な視覚環境において,エージェントが低品質な実演を行えるようにするためのアプローチの組み合わせを提案する。提案した目標指向のリプレイバッファ構築により,エージェントはデモにおいて複雑な階層的タスクを解くためのサブゴールを自動的に強調することができる。私たちのアルゴリズムに基づくこのソリューションは、有名なMineRLコンペティションのすべてのソリューションを破り、エージェントがMinecraft環境でダイヤモンドをマイニングすることを可能にする。
論文参考訳（メタデータ） (2020-06-17T15:38:40Z)
Triple-GAIL: A Multi-Modal Imitation Learning Framework with Generative Adversarial Nets [34.17829944466169]
Triple-GAILは、専門家によるデモンストレーションとデータ拡張の目的で連続的に生成された経験から、スキルの選択と模倣を共同で学ぶことができる。実運転軌道とリアルタイム戦略ゲームデータセットの実験は、Triple-GAILがデモ参加者に近いマルチモーダル動作に適合できることを実証している。
論文参考訳（メタデータ） (2020-05-19T03:24:24Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。