論文の概要: PlayFusion: Skill Acquisition via Diffusion from Language-Annotated Play
- arxiv url: http://arxiv.org/abs/2312.04549v1
- Date: Thu, 7 Dec 2023 18:59:14 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-08 13:36:00.622276
- Title: PlayFusion: Skill Acquisition via Diffusion from Language-Annotated Play
- Title(参考訳): PlayFusion: 言語アノテーションによる拡散によるスキル獲得
- Authors: Lili Chen, Shikhar Bahl, Deepak Pathak
- Abstract要約: 構造化されていない、未計算のデータから学ぶことは、言語とビジョンにおける生成的アプローチの主要なパラダイムとなっている。
本研究では,非構造化プレイデータからゴール指向スキルポリシーを学習する問題について検討する。
具体的には、拡散モデルの進歩を活用してマルチタスク拡散モデルを学び、プレイデータからロボットスキルを抽出する。
- 参考スコア(独自算出の注目度): 47.052953955624886
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning from unstructured and uncurated data has become the dominant
paradigm for generative approaches in language and vision. Such unstructured
and unguided behavior data, commonly known as play, is also easier to collect
in robotics but much more difficult to learn from due to its inherently
multimodal, noisy, and suboptimal nature. In this paper, we study this problem
of learning goal-directed skill policies from unstructured play data which is
labeled with language in hindsight. Specifically, we leverage advances in
diffusion models to learn a multi-task diffusion model to extract robotic
skills from play data. Using a conditional denoising diffusion process in the
space of states and actions, we can gracefully handle the complexity and
multimodality of play data and generate diverse and interesting robot
behaviors. To make diffusion models more useful for skill learning, we
encourage robotic agents to acquire a vocabulary of skills by introducing
discrete bottlenecks into the conditional behavior generation process. In our
experiments, we demonstrate the effectiveness of our approach across a wide
variety of environments in both simulation and the real world. Results
visualizations and videos at https://play-fusion.github.io
- Abstract(参考訳): 構造化されていないデータから学ぶことは、言語とビジョンにおける生成的アプローチの主要なパラダイムとなっている。
このような非構造的かつ非ガイド的行動データは、一般にプレイ(play)として知られているが、ロボット工学では収集が容易であるが、本質的にはマルチモーダルでノイズがあり、最適ではない性質から学ぶことはより困難である。
本稿では,非構造化プレイデータから,後から言語でラベル付けされた目標指向スキルポリシーを学習する問題について検討する。
具体的には、拡散モデルの進歩を利用してマルチタスク拡散モデルを学び、プレイデータからロボットスキルを抽出する。
状態と行動の空間における条件付き denoising 拡散プロセスを用いることで、プレイデータの複雑さとマルチモーダリティを優雅に処理し、多様で興味深いロボットの動作を生成することができる。
拡散モデルをスキル学習に役立てるために,条件付き行動生成プロセスに離散的ボトルネックを導入することにより,ロボットエージェントがスキルの語彙を取得することを推奨する。
実験では,シミュレーションと実世界の両方において,様々な環境におけるアプローチの有効性を実証した。
結果の可視化とビデオ: https://play-fusion.github.io
関連論文リスト
- Towards Multi-Task Multi-Modal Models: A Video Generative Perspective [5.495245220300184]
この論文は、さまざまな条件下でビデオやその他のモダリティを生成するマルチタスクモデルを構築するために、我々の努力を年代記している。
我々は、視覚的観察と解釈可能な語彙の双方向マッピングのための新しいアプローチを公表する。
私たちのスケーラブルなビジュアルトークン表現は、生成、圧縮、理解タスクで有益であることが証明されます。
論文 参考訳(メタデータ) (2024-05-26T23:56:45Z) - Learning an Actionable Discrete Diffusion Policy via Large-Scale Actionless Video Pre-Training [69.54948297520612]
ジェネラリストの具体化エージェントを学ぶことは、主にアクションラベル付きロボットデータセットの不足に起因して、課題を提起する。
これらの課題に対処するための新しい枠組みを導入し、人間のビデオにおける生成前トレーニングと、少数のアクションラベル付きロボットビデオのポリシー微調整を組み合わせるために、統一された離散拡散を利用する。
提案手法は, 従来の最先端手法と比較して, 高忠実度な今後の計画ビデオを生成し, 細調整されたポリシーを強化する。
論文 参考訳(メタデータ) (2024-02-22T09:48:47Z) - Any-point Trajectory Modeling for Policy Learning [64.23861308947852]
我々は、ビデオフレーム内の任意の点の将来の軌跡を予測するために、ATM(Any-point Trajectory Modeling)を導入する。
ATMは、強力なビデオ事前トレーニングベースラインを平均80%上回っている。
本研究では,人間の動画やビデオからの操作スキルを,異なるロボット形態から効果的に伝達する学習方法を示す。
論文 参考訳(メタデータ) (2023-12-28T23:34:43Z) - SkillDiffuser: Interpretable Hierarchical Planning via Skill Abstractions in Diffusion-Based Task Execution [75.2573501625811]
拡散モデルは、ロボット軌道計画の強力な可能性を示している。
高レベルの命令からコヒーレントな軌道を生成することは依然として困難である。
エンド・ツー・エンドの階層的計画フレームワークであるSkillDiffuserを提案する。
論文 参考訳(メタデータ) (2023-12-18T18:16:52Z) - Diffusion Language Models Can Perform Many Tasks with Scaling and
Instruction-Finetuning [56.03057119008865]
拡散言語モデルを拡張することで、強力な言語学習者が効果的に学習できることが示される。
大規模データから知識を最初に取得することで,大規模に有能な拡散言語モデルを構築する。
実験により、拡散言語モデルのスケーリングは、下流言語タスクにおけるパフォーマンスを一貫して改善することが示された。
論文 参考訳(メタデータ) (2023-08-23T16:01:12Z) - XSkill: Cross Embodiment Skill Discovery [41.624343257852146]
XSkillは、非ラベルの人間とロボットの操作ビデオから純粋に、スキルプロトタイプと呼ばれるクロスボデーメント表現を発見する模倣学習フレームワークである。
シミュレーションと実環境における実験により,見知らぬタスクのスキル伝達と構成を容易にする技術プロトタイプが発見された。
論文 参考訳(メタデータ) (2023-07-19T12:51:28Z) - Scaling Robot Learning with Semantically Imagined Experience [21.361979238427722]
ロボット学習の最近の進歩は、ロボットが操作タスクを実行できることを約束している。
この進歩に寄与する要因の1つは、モデルのトレーニングに使用されるロボットデータのスケールである。
本稿では,コンピュータビジョンや自然言語処理に広く用いられているテキスト・ツー・イメージ基盤モデルを利用した代替手法を提案する。
論文 参考訳(メタデータ) (2023-02-22T18:47:51Z) - Visual Imitation Made Easy [102.36509665008732]
本稿では,ロボットへのデータ転送を容易にしながら,データ収集プロセスを単純化する,模倣のための代替インターフェースを提案する。
我々は、データ収集装置やロボットのエンドエフェクターとして、市販のリーチ・グラブラー補助具を使用する。
我々は,非包括的プッシュと包括的積み重ねという2つの課題について実験的に評価した。
論文 参考訳(メタデータ) (2020-08-11T17:58:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。