論文の概要: LUMOS: Language-Conditioned Imitation Learning with World Models
- arxiv url: http://arxiv.org/abs/2503.10370v1
- Date: Thu, 13 Mar 2025 13:48:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-14 15:53:53.272069
- Title: LUMOS: Language-Conditioned Imitation Learning with World Models
- Title(参考訳): LUMOS:世界モデルを用いた言語による模倣学習
- Authors: Iman Nematollahi, Branton DeMoss, Akshay L Chandra, Nick Hawes, Wolfram Burgard, Ingmar Posner,
- Abstract要約: ロボット工学のための言語条件付きマルチタスク模倣学習フレームワークであるLUMOSを紹介する。
LUMOSは、学習の世界モデルの潜在領域における多くの長い水平ロールアウトを実践することで、スキルを学ぶ。
我々は,オフライン世界モデルにおいて,実世界のロボットに対して,言語条件の連続的ビズモータ制御を初めて学習する。
- 参考スコア(独自算出の注目度): 31.827127896338336
- License:
- Abstract: We introduce LUMOS, a language-conditioned multi-task imitation learning framework for robotics. LUMOS learns skills by practicing them over many long-horizon rollouts in the latent space of a learned world model and transfers these skills zero-shot to a real robot. By learning on-policy in the latent space of the learned world model, our algorithm mitigates policy-induced distribution shift which most offline imitation learning methods suffer from. LUMOS learns from unstructured play data with fewer than 1% hindsight language annotations but is steerable with language commands at test time. We achieve this coherent long-horizon performance by combining latent planning with both image- and language-based hindsight goal relabeling during training, and by optimizing an intrinsic reward defined in the latent space of the world model over multiple time steps, effectively reducing covariate shift. In experiments on the difficult long-horizon CALVIN benchmark, LUMOS outperforms prior learning-based methods with comparable approaches on chained multi-task evaluations. To the best of our knowledge, we are the first to learn a language-conditioned continuous visuomotor control for a real-world robot within an offline world model. Videos, dataset and code are available at http://lumos.cs.uni-freiburg.de.
- Abstract(参考訳): ロボット工学のための言語条件付きマルチタスク模倣学習フレームワークであるLUMOSを紹介する。
LUMOSは、学習された世界モデルの潜在空間における多くの長い水平ロールアウトを練習してスキルを学び、これらのスキルを実際のロボットにゼロショットで転送する。
学習された世界モデルの潜在空間における政治を学習することにより、我々のアルゴリズムは、ほとんどのオフライン模倣学習手法が抱えるポリシーによる分散シフトを緩和する。
LUMOSは1%以下の後見言語アノテーションで構造化されていないプレイデータから学習するが、テスト時に言語コマンドで操作できる。
このコヒーレントなロングホライゾン性能は、トレーニング中、画像ベースと言語ベースの両方の隠れたゴールに潜時計画を組み合わせることで実現し、複数の時間ステップで世界モデルの潜時空間で定義される固有報酬を最適化し、共変量シフトを効果的に低減することで達成する。
困難な長距離CALVINベンチマークの実験では、LUMOSは連鎖型マルチタスク評価に匹敵するアプローチで、事前学習ベースの手法よりも優れていた。
我々の知る限り、私たちは、オフラインの世界モデルの中で現実世界のロボットに対して、言語条件の連続的ビズモータ制御を初めて学習した人物です。
ビデオ、データセット、コードはhttp://lumos.cs.uni-freiburg.deで公開されている。
関連論文リスト
- CurricuLLM: Automatic Task Curricula Design for Learning Complex Robot Skills using Large Language Models [19.73329768987112]
CurricuLLMは複雑なロボット制御タスクのためのカリキュラム学習ツールである。
自然言語形式のタスク学習を支援するサブタスクを生成する。
また、サブタスクの自然言語記述を実行可能なコードに変換する。
CurricuLLMは複雑なロボット制御タスクの学習を支援する。
論文 参考訳(メタデータ) (2024-09-27T01:48:16Z) - From LLMs to Actions: Latent Codes as Bridges in Hierarchical Robot Control [58.72492647570062]
我々は,制限を克服する代替アーキテクチャとして,Learningable Latent Codes as Bridges (LCB)を導入した。
methodoutperforms baselines that leverage pure language as the interface layer on tasks that requires reasoning and multi-step behaviors。
論文 参考訳(メタデータ) (2024-05-08T04:14:06Z) - Plan-Seq-Learn: Language Model Guided RL for Solving Long Horizon Robotics Tasks [50.27313829438866]
Plan-Seq-Learn (PSL) は、抽象言語と学習した低レベル制御の間のギャップを埋めるためにモーションプランニングを使用するモジュラーアプローチである。
PSLは85%以上の成功率、言語ベース、古典的、エンドツーエンドのアプローチを達成している。
論文 参考訳(メタデータ) (2024-05-02T17:59:31Z) - Large Language Models for Orchestrating Bimanual Robots [19.60907949776435]
本稿では,Language-based Bimanual Orchestration (LABOR)を提案する。
NICOLヒューマノイドロボットを用いた2種類の長距離作業のシミュレーション実験により,本手法の評価を行った。
論文 参考訳(メタデータ) (2024-04-02T15:08:35Z) - ARNOLD: A Benchmark for Language-Grounded Task Learning With Continuous
States in Realistic 3D Scenes [72.83187997344406]
ARNOLDは、現実的な3Dシーンにおける連続状態による言語によるタスク学習を評価するベンチマークである。
ARNOLDは、オブジェクト状態の理解と継続的な目標のための学習ポリシーを含む8つの言語条件のタスクで構成されている。
論文 参考訳(メタデータ) (2023-04-09T21:42:57Z) - Grounding Language with Visual Affordances over Unstructured Data [26.92329260907805]
本研究では,非構造化,オフライン,リセットのないデータから,言語条件のロボットスキルを効率的に学習するための新しい手法を提案する。
我々は、言語による全データの1%しか必要としない自己教師型ビジュオ言語割当モデルを利用する。
提案手法は,従来の手法よりも桁違いに少ないデータで,リアルタイムに長時間の多層タスクを完了できることがわかった。
論文 参考訳(メタデータ) (2022-10-04T21:16:48Z) - Multi-level Contrastive Learning for Cross-lingual Spoken Language
Understanding [90.87454350016121]
コントラスト学習のための難解なサンプルを, あらゆるレベルで生成するコードスイッチング手法を開発した。
言語間知識伝達にラベルセマンティクスを利用するラベル認識ジョイントモデルを開発した。
論文 参考訳(メタデータ) (2022-05-07T13:44:28Z) - What Matters in Language Conditioned Robotic Imitation Learning [26.92329260907805]
オフラインのフリーフォーム模倣データセットから言語条件付きポリシーを学習する際の最も重要な課題について検討する。
本稿では,CALVINベンチマークを用いて,言語条件の難易度を向上する手法を提案する。
論文 参考訳(メタデータ) (2022-04-13T08:45:32Z) - CALVIN: A Benchmark for Language-conditioned Policy Learning for
Long-horizon Robot Manipulation Tasks [30.936692970187416]
汎用ロボットは、人間の言語を認識や行動に関連付けることを学ばなければならない。
CALVIN(CALVIN)は、長期の言語条件のタスクを学習するためのオープンソースのシミュレーションベンチマークである。
論文 参考訳(メタデータ) (2021-12-06T18:37:33Z) - LILA: Language-Informed Latent Actions [72.033770901278]
本稿では,自然言語インタフェースの学習フレームワークであるLanguage-Informed Latent Actions (LILA)を紹介する。
LILAは低次元のコントローラを変調するために言語を使うことを学び、ユーザに言語インフォームドコントロールスペースを提供する。
LILAモデルは、模擬学習やエンドエフェクタ制御ベースラインよりもサンプリング効率が高く、性能も高いだけでなく、ユーザによって定性的に好まれることを示す。
論文 参考訳(メタデータ) (2021-11-05T00:56:00Z) - Multi-View Learning for Vision-and-Language Navigation [163.20410080001324]
EveryOne(LEO)から学ぶことは、視覚環境でのナビゲーションを学ぶためのトレーニングパラダイムです。
命令間でパラメータを共有することで、限られたトレーニングデータからより効果的に学習する。
最近のRoom-to-Room(R2R)ベンチマークデータセットでは、LEOはgreedyエージェントよりも16%改善(絶対)されている。
論文 参考訳(メタデータ) (2020-03-02T13:07:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。