論文の概要: Learning Human Skill Generators at Key-Step Levels
- arxiv url: http://arxiv.org/abs/2502.08234v1
- Date: Wed, 12 Feb 2025 09:21:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-13 13:48:12.167214
- Title: Learning Human Skill Generators at Key-Step Levels
- Title(参考訳): キーステップレベルにおけるヒューマンスキルジェネレータの学習
- Authors: Yilu Wu, Chenhui Zhu, Shuai Wang, Hanlin Wang, Jing Wang, Zhaoxiang Zhang, Limin Wang,
- Abstract要約: キーステップスキル生成(KS-Gen)は、人間のスキルビデオの生成の複雑さを軽減することを目的としている。
初期状態とスキル記述から、そのスキルを完成させるために重要なステップのビデオクリップを生成する。
KS-Genの複雑さを考慮し、本課題のための新しいフレームワークを提案する。
- 参考スコア(独自算出の注目度): 56.91737190115577
- License:
- Abstract: We are committed to learning human skill generators at key-step levels. The generation of skills is a challenging endeavor, but its successful implementation could greatly facilitate human skill learning and provide more experience for embodied intelligence. Although current video generation models can synthesis simple and atomic human operations, they struggle with human skills due to their complex procedure process. Human skills involve multi-step, long-duration actions and complex scene transitions, so the existing naive auto-regressive methods for synthesizing long videos cannot generate human skills. To address this, we propose a novel task, the Key-step Skill Generation (KS-Gen), aimed at reducing the complexity of generating human skill videos. Given the initial state and a skill description, the task is to generate video clips of key steps to complete the skill, rather than a full-length video. To support this task, we introduce a carefully curated dataset and define multiple evaluation metrics to assess performance. Considering the complexity of KS-Gen, we propose a new framework for this task. First, a multimodal large language model (MLLM) generates descriptions for key steps using retrieval argument. Subsequently, we use a Key-step Image Generator (KIG) to address the discontinuity between key steps in skill videos. Finally, a video generation model uses these descriptions and key-step images to generate video clips of the key steps with high temporal consistency. We offer a detailed analysis of the results, hoping to provide more insights on human skill generation. All models and data are available at https://github.com/MCG-NJU/KS-Gen.
- Abstract(参考訳): 私たちは、キーステップレベルで人間のスキルジェネレータを学ぶことを約束しています。
スキルの生成は難しい取り組みだが、その実装が成功すれば、人間のスキル学習が大幅に促進され、インテリジェンスを具現化するためのより多くの経験が得られる。
現在のビデオ生成モデルは、単純で原子的な人間の操作を合成できるが、複雑な手順のために人間のスキルに苦しむ。
人間のスキルには、多段階、長期化のアクションと複雑なシーン遷移が含まれるため、従来のナイーブな自動回帰法による長編ビデオの合成では、人間のスキルは生み出せない。
そこで本研究では,人間のスキルビデオ生成の複雑さを軽減することを目的とした,キーステップスキル生成(KS-Gen)という新しいタスクを提案する。
初期状態とスキル記述から、タスクは、フル長のビデオではなく、スキルを完成させるための重要なステップのビデオクリップを生成することである。
このタスクを支援するために、慎重にキュレートされたデータセットを導入し、パフォーマンスを評価するために複数の評価指標を定義します。
KS-Genの複雑さを考慮し、本課題のための新しいフレームワークを提案する。
まず、MLLM(Multimodal large language model)は、探索引数を用いてキーステップの説明を生成する。
その後、キーステップ画像生成装置(KIG)を用いて、スキルビデオにおけるキーステップ間の不連続に対処する。
最後に、ビデオ生成モデルでは、これらの記述とキーステップ画像を用いて、時間的一貫性の高いキーステップのビデオクリップを生成する。
私たちは、人間のスキル生成に関するさらなる洞察を期待して、その結果を詳細に分析します。
すべてのモデルとデータはhttps://github.com/MCG-NJU/KS-Genで入手できる。
関連論文リスト
- VILP: Imitation Learning with Latent Video Planning [19.25411361966752]
本稿では、遅延ビデオ計画(VILP)による模倣学習を紹介する。
複数のビューから高度にタイムアラインなビデオを生成することができる。
本稿では,映像生成モデルをロボットポリシーに効果的に統合する方法の実践例を提供する。
論文 参考訳(メタデータ) (2025-02-03T19:55:57Z) - SkillMimicGen: Automated Demonstration Generation for Efficient Skill Learning and Deployment [33.53559296053225]
人間のデモからデモデータセットを生成する自動システムであるSkillMimicGenを提案する。
SkillGenは人間のデモを操作スキルに分割し、これらのスキルを新しいコンテキストに適応させ、自由空間の移動と移動運動を通じてそれらを縫い合わせる。
SkillGenの有効性は、わずか60個のヒトのデモンストレーションから18のタスク変種に24K以上のデモを生成して実証する。
論文 参考訳(メタデータ) (2024-10-24T16:59:26Z) - Agentic Skill Discovery [19.5703917813767]
言語条件付きロボット技術により、Large Language Models (LLMs) の高レベル推論を低レベルロボット制御に適用することができる。
残る課題は、さまざまな基本的なスキルを取得することです。
LLMによって完全に駆動されるスキル発見のための新しいフレームワークを導入する。
論文 参考訳(メタデータ) (2024-05-23T19:44:03Z) - Learning an Actionable Discrete Diffusion Policy via Large-Scale Actionless Video Pre-Training [69.54948297520612]
ジェネラリストの具体化エージェントを学ぶことは、主にアクションラベル付きロボットデータセットの不足に起因して、課題を提起する。
これらの課題に対処するための新しい枠組みを導入し、人間のビデオにおける生成前トレーニングと、少数のアクションラベル付きロボットビデオのポリシー微調整を組み合わせるために、統一された離散拡散を利用する。
提案手法は, 従来の最先端手法と比較して, 高忠実度な今後の計画ビデオを生成し, 細調整されたポリシーを強化する。
論文 参考訳(メタデータ) (2024-02-22T09:48:47Z) - XSkill: Cross Embodiment Skill Discovery [41.624343257852146]
XSkillは、非ラベルの人間とロボットの操作ビデオから純粋に、スキルプロトタイプと呼ばれるクロスボデーメント表現を発見する模倣学習フレームワークである。
シミュレーションと実環境における実験により,見知らぬタスクのスキル伝達と構成を容易にする技術プロトタイプが発見された。
論文 参考訳(メタデータ) (2023-07-19T12:51:28Z) - RH20T: A Comprehensive Robotic Dataset for Learning Diverse Skills in
One-Shot [56.130215236125224]
オープンドメインでのロボット操作における重要な課題は、ロボットの多様性と一般化可能なスキルの獲得方法である。
単発模倣学習の最近の研究は、訓練されたポリシーを実証に基づく新しいタスクに移行する可能性を示唆している。
本稿では,エージェントがマルチモーダルな知覚で数百の現実世界のスキルを一般化する可能性を解き放つことを目的とする。
論文 参考訳(メタデータ) (2023-07-02T15:33:31Z) - Bottom-Up Skill Discovery from Unsegmented Demonstrations for
Long-Horizon Robot Manipulation [55.31301153979621]
我々は,実世界の長距離ロボット操作作業に,スキル発見による取り組みを行う。
未解決のデモンストレーションから再利用可能なスキルのライブラリを学ぶためのボトムアップアプローチを提案する。
提案手法は,多段階操作タスクにおける最先端の模倣学習手法よりも優れた性能を示した。
論文 参考訳(メタデータ) (2021-09-28T16:18:54Z) - Actionable Models: Unsupervised Offline Reinforcement Learning of
Robotic Skills [93.12417203541948]
与えられたデータセットの任意の目標状態に到達するために学習することによって、環境の機能的な理解を学ぶ目的を提案する。
提案手法は,高次元カメラ画像上で動作し,これまで見つからなかったシーンやオブジェクトに一般化した実ロボットの様々なスキルを学習することができる。
論文 参考訳(メタデータ) (2021-04-15T20:10:11Z) - Learning Generalizable Robotic Reward Functions from "In-The-Wild" Human
Videos [59.58105314783289]
ドメインに依存しないビデオ識別器(DVD)は、2つのビデオが同じタスクを実行しているかどうかを判断するために識別器を訓練することによりマルチタスク報酬関数を学習する。
DVDは、人間のビデオの広いデータセットで少量のロボットデータから学習することで、一般化することができる。
DVDと視覚モデル予測制御を組み合わせることで、実際のWidowX200ロボットのロボット操作タスクを単一の人間のデモから未知の環境で解決できます。
論文 参考訳(メタデータ) (2021-03-31T05:25:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。