Fugu-MT 論文翻訳(概要): Learning Novel Skills from Language-Generated Demonstrations

論文の概要: Learning Novel Skills from Language-Generated Demonstrations

arxiv url: http://arxiv.org/abs/2412.09286v1
Date: Thu, 12 Dec 2024 13:56:36 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-13 15:57:56.890576
Title: Learning Novel Skills from Language-Generated Demonstrations
Title（参考訳）: 言語生成デモから新しいスキルを学ぶ
Authors: Ao-Qun Jin, Tian-Yu Xiang, Xiao-Hu Zhou, Mei-Jiang Gui, Xiao-Liang Xie, Shi-Qi Liu, Shuang-Yi Wang, Yue Cao, Sheng-Bin Duan, Fu-Chao Xie, Zeng-Guang Hou,
Abstract要約: 現在、新しいスキルを取得するためのロボット学習アルゴリズムは、しばしばデモデータセットや環境相互作用に依存している。本研究では,ロボットが自然言語から新しいスキルを習得するためのスキル学習フレームワークを提案する。
参考スコア（独自算出の注目度）: 15.495784871963451
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Current robot learning algorithms for acquiring novel skills often rely on demonstration datasets or environment interactions, resulting in high labor costs and potential safety risks. To address these challenges, this study proposes a skill-learning framework that enables robots to acquire novel skills from natural language instructions. The proposed pipeline leverages vision-language models to generate demonstration videos of novel skills, which are processed by an inverse dynamics model to extract actions from the unlabeled demonstrations. These actions are subsequently mapped to environmental contexts via imitation learning, enabling robots to learn new skills effectively. Experimental evaluations in the MetaWorld simulation environments demonstrate the pipeline's capability to generate high-fidelity and reliable demonstrations. Using the generated demonstrations, various skill learning algorithms achieve an accomplishment rate three times the original on novel tasks. These results highlight a novel approach to robot learning, offering a foundation for the intuitive and intelligent acquisition of novel robotic skills.
Abstract（参考訳）: 新たなスキルを取得するための現在のロボット学習アルゴリズムは、しばしばデモデータセットや環境相互作用に依存し、高い労働コストと潜在的な安全リスクをもたらす。これらの課題に対処するために,ロボットが自然言語から新しいスキルを習得するためのスキル学習フレームワークを提案する。提案したパイプラインは、視覚言語モデルを利用して、新しいスキルのデモビデオを生成し、逆ダイナミクスモデルによって処理され、ラベルのないデモからアクションを抽出する。これらの行動はその後、模倣学習を通じて環境コンテキストにマッピングされ、ロボットは新しいスキルを効果的に学習することができる。 MetaWorldシミュレーション環境での実験的な評価は、パイプラインが高忠実で信頼性の高いデモを生成する能力を示している。生成された実演を用いて、様々なスキル学習アルゴリズムは、新しいタスクで元の3倍の達成率を達成する。これらの結果は、ロボット学習に対する新しいアプローチを強調し、新しいロボットスキルの直感的でインテリジェントな獲得の基礎を提供する。

関連論文リスト

Neuro-Symbolic Imitation Learning: Discovering Symbolic Abstractions for Skill Learning [15.26375359103084]
本稿では,ニューロシンボリックな模倣学習フレームワークを提案する。低レベル状態-作用空間を抽象化する記号表現を学ぶ。学習された表現はタスクをより簡単なサブタスクに分解し、システムはシンボリックプランニングを利用することができる。
論文参考訳（メタデータ） (2025-03-27T11:50:29Z)
$π_0$: A Vision-Language-Action Flow Model for General Robot Control [77.32743739202543]
本稿では,インターネット規模のセマンティック知識を継承するために,事前学習された視覚言語モデル(VLM)上に構築された新しいフローマッチングアーキテクチャを提案する。我々は,事前訓練後のタスクをゼロショットで実行し,人からの言語指導に追従し,微調整で新たなスキルを習得する能力の観点から,我々のモデルを評価した。
論文参考訳（メタデータ） (2024-10-31T17:22:30Z)
Continual Skill and Task Learning via Dialogue [3.3511259017219297]
連続的かつ対話的なロボット学習は、ロボットが人間のユーザーと一緒にいるため、難しい問題である。本稿では,人間との対話を通じて,ロボットがロボットのスキルを質問し,学習し,関連する情報を処理するためのフレームワークを提案する。
論文参考訳（メタデータ） (2024-09-05T01:51:54Z)
VITAL: Visual Teleoperation to Enhance Robot Learning through Human-in-the-Loop Corrections [10.49712834719005]
本稿では,VITAL と呼ばれる双方向操作作業のための低コストな視覚遠隔操作システムを提案する。われわれのアプローチは、安価なハードウェアとビジュアル処理技術を利用してデモを収集する。実環境と模擬環境の両方を活用することにより,学習方針の一般化性と堅牢性を高める。
論文参考訳（メタデータ） (2024-07-30T23:29:47Z)
DiffGen: Robot Demonstration Generation via Differentiable Physics Simulation, Differentiable Rendering, and Vision-Language Model [72.66465487508556]
DiffGenは、微分可能な物理シミュレーション、微分可能なレンダリング、ビジョン言語モデルを統合する新しいフレームワークである。言語命令の埋め込みとシミュレートされた観察の埋め込みとの距離を最小化することにより、現実的なロボットデモを生成することができる。実験によると、DiffGenを使えば、人間の努力やトレーニング時間を最小限に抑えて、ロボットデータを効率よく、効果的に生成できる。
論文参考訳（メタデータ） (2024-05-12T15:38:17Z)
LOTUS: Continual Imitation Learning for Robot Manipulation Through Unsupervised Skill Discovery [29.774700960178624]
我々は,ロボットが新しい操作タスクを継続的に,効率的に学習することを可能にする,連続的な模倣学習アルゴリズムであるLOTUSを紹介する。継続的なスキル発見は、既存のスキルを更新して、以前のタスクを忘れないようにし、新しいタスクを解決するための新しいスキルを追加する。総合的な実験の結果、LOTUSは最先端のベースラインを11%以上の成功率で上回っていることがわかった。
論文参考訳（メタデータ） (2023-11-03T17:38:35Z)
RoboGen: Towards Unleashing Infinite Data for Automated Robot Learning via Generative Simulation [68.70755196744533]
RoboGenはジェネレーティブなロボットエージェントで、ジェネレーティブなシミュレーションを通じて、さまざまなロボットのスキルを自動的に学習する。我々の研究は、大規模モデルに埋め込まれた広範囲で多目的な知識を抽出し、それらをロボット工学の分野に移す試みである。
論文参考訳（メタデータ） (2023-11-02T17:59:21Z)
XSkill: Cross Embodiment Skill Discovery [41.624343257852146]
XSkillは、非ラベルの人間とロボットの操作ビデオから純粋に、スキルプロトタイプと呼ばれるクロスボデーメント表現を発見する模倣学習フレームワークである。シミュレーションと実環境における実験により,見知らぬタスクのスキル伝達と構成を容易にする技術プロトタイプが発見された。
論文参考訳（メタデータ） (2023-07-19T12:51:28Z)
RH20T: A Comprehensive Robotic Dataset for Learning Diverse Skills in One-Shot [56.130215236125224]
オープンドメインでのロボット操作における重要な課題は、ロボットの多様性と一般化可能なスキルの獲得方法である。単発模倣学習の最近の研究は、訓練されたポリシーを実証に基づく新しいタスクに移行する可能性を示唆している。本稿では,エージェントがマルチモーダルな知覚で数百の現実世界のスキルを一般化する可能性を解き放つことを目的とする。
論文参考訳（メタデータ） (2023-07-02T15:33:31Z)
Surfer: Progressive Reasoning with World Models for Robotic Manipulation [51.26109827779267]
本稿では,新しいシンプルなロボット操作フレームワークであるSurferを紹介する。 Surferは、ロボット操作を視覚シーンの状態伝達として扱い、それをアクションとシーンという2つの部分に分割する。これは世界モデルに基づいており、ロボット操作を視覚シーンの状態伝達として扱い、アクションとシーンの2つの部分に分けられる。
論文参考訳（メタデータ） (2023-06-20T07:06:04Z)
What Matters in Language Conditioned Robotic Imitation Learning [26.92329260907805]
オフラインのフリーフォーム模倣データセットから言語条件付きポリシーを学習する際の最も重要な課題について検討する。本稿では,CALVINベンチマークを用いて,言語条件の難易度を向上する手法を提案する。
論文参考訳（メタデータ） (2022-04-13T08:45:32Z)
Summarizing a virtual robot's past actions in natural language [0.3553493344868413]
本稿では,ロボット行動と自然言語記述とを一致させた一般的なデータセットを,ロボット行動要約作業のトレーニング場として活用する方法について述べる。自動プランナーが使用する動作の中間テキスト表現や、ロボットの自我中心の映像フレームから、このような要約を生成するためのいくつかの方法を提案し、テストする。
論文参考訳（メタデータ） (2022-03-13T15:00:46Z)
Continual Learning from Demonstration of Robotics Skills [5.573543601558405]
ロボットに動きのスキルを教える方法は、一度に1つのスキルのトレーニングに集中する。本稿では,ハイパーネットとニューラル常微分方程式解法を用いた実験から連続学習へのアプローチを提案する。
論文参考訳（メタデータ） (2022-02-14T16:26:52Z)
BC-Z: Zero-Shot Task Generalization with Robotic Imitation Learning [108.41464483878683]
本稿では,視覚に基づくロボット操作システムにおいて,新しいタスクを一般化することの課題について検討する。実演と介入の両方から学ぶことができるインタラクティブで柔軟な模倣学習システムを開発した。実際のロボットにおけるデータ収集を100以上のタスクにスケールすると、このシステムは平均的な成功率44%で24の目に見えない操作タスクを実行できる。
論文参考訳（メタデータ） (2022-02-04T07:30:48Z)
Bottom-Up Skill Discovery from Unsegmented Demonstrations for Long-Horizon Robot Manipulation [55.31301153979621]
我々は,実世界の長距離ロボット操作作業に,スキル発見による取り組みを行う。未解決のデモンストレーションから再利用可能なスキルのライブラリを学ぶためのボトムアップアプローチを提案する。提案手法は,多段階操作タスクにおける最先端の模倣学習手法よりも優れた性能を示した。
論文参考訳（メタデータ） (2021-09-28T16:18:54Z)
CRIL: Continual Robot Imitation Learning via Generative and Prediction Model [8.896427780114703]
本研究では,ロボットが個別に新しいタスクを継続的に学習することを可能にする,連続的な模倣学習能力を実現する方法について研究する。本稿では,生成的対向ネットワークと動的予測モデルの両方を利用する新しいトラジェクトリ生成モデルを提案する。本手法の有効性をシミュレーションと実世界操作の両方で実証した。
論文参考訳（メタデータ） (2021-06-17T12:15:57Z)
What Can I Do Here? Learning New Skills by Imagining Visual Affordances [128.65223577406587]
提案手法は,ロボットが可利用性の視覚的表現を学習する上で,どのような結果が得られるかを示す。実際、事前データは、ロボットが不慣れな状況に遭遇したとき、そのモデルから潜在的な結果をサンプリングするように、どのような結果が得られるかを学ぶのに使用される。本稿では, VAL(visuomotor affordance learning)を用いて, 生画像入力で動作する目標条件付きポリシーの学習を行う。
論文参考訳（メタデータ） (2021-06-01T17:58:02Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。