論文の概要: Language-Conditioned Semantic Search-Based Policy for Robotic
Manipulation Tasks
- arxiv url: http://arxiv.org/abs/2312.05925v1
- Date: Sun, 10 Dec 2023 16:17:00 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-12 17:48:36.305927
- Title: Language-Conditioned Semantic Search-Based Policy for Robotic
Manipulation Tasks
- Title(参考訳): 言語記述セマンティック検索に基づくロボットマニピュレーションタスクのポリシー
- Authors: Jannik Sheikh, Andrew Melnik, Gora Chand Nandi, Robert Haschke
- Abstract要約: 言語条件のセマンティックサーチに基づくオンラインサーチベースのポリシーを作成する手法を提案する。
提案手法は,CALVINベンチマークのベースライン性能を超越し,ゼロショット適応性能が向上する。
- 参考スコア(独自算出の注目度): 2.1332830068386217
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Reinforcement learning and Imitation Learning approaches utilize policy
learning strategies that are difficult to generalize well with just a few
examples of a task. In this work, we propose a language-conditioned semantic
search-based method to produce an online search-based policy from the available
demonstration dataset of state-action trajectories. Here we directly acquire
actions from the most similar manipulation trajectories found in the dataset.
Our approach surpasses the performance of the baselines on the CALVIN benchmark
and exhibits strong zero-shot adaptation capabilities. This holds great
potential for expanding the use of our online search-based policy approach to
tasks typically addressed by Imitation Learning or Reinforcement Learning-based
policies.
- Abstract(参考訳): 強化学習と模倣学習のアプローチは、タスクのごく一部の例でうまく一般化することが難しい政策学習戦略を利用する。
本研究では,状態行動軌跡の実証データセットからオンライン検索ポリシーを作成するための言語条件のセマンティック検索手法を提案する。
ここでは、データセットにある最もよく似た操作軌跡からアクションを直接取得する。
提案手法は,CALVINベンチマークのベースライン性能を超越し,ゼロショット適応性能が向上する。
これは、オンライン検索ベースのポリシーアプローチを、通常Imitation LearningやReinforcement Learningベースのポリシーによって対処されるタスクに拡張する大きな可能性を秘めている。
関連論文リスト
- Iterative Batch Reinforcement Learning via Safe Diversified Model-based Policy Search [2.0072624123275533]
バッチ強化学習は、トレーニング中に環境と直接対話することなく、ポリシー学習を可能にする。
このアプローチは、工業制御のような高リスクでコストのかかるアプリケーションに適しています。
本稿では,アンサンブルに基づくモデルに基づくポリシー探索に基づく反復的バッチ強化学習のためのアルゴリズム手法を提案する。
論文 参考訳(メタデータ) (2024-11-14T11:10:36Z) - Representation-Driven Reinforcement Learning [57.44609759155611]
強化学習のための表現駆動型フレームワークを提案する。
期待値の見積もりとしてポリシーを表現することにより、我々は、探索と搾取を導くために、文脈的盗賊の手法を活用する。
このフレームワークの有効性を,進化的および政策的勾配に基づくアプローチに適用することによって実証する。
論文 参考訳(メタデータ) (2023-05-31T14:59:12Z) - Goal-Conditioned Imitation Learning using Score-based Diffusion Policies [3.49482137286472]
スコアベース拡散モデル(SDM)に基づく新しいポリシー表現を提案する。
我々はゴール・コンディションド・イミテーション・ラーニング(GCIL)の領域に新しい政策表現を適用した。
直感的なガイダンスを用いて,遊びデータから目標に依存しないポリシーを学習するためにBESOをどのように利用できるかを示す。
論文 参考訳(メタデータ) (2023-04-05T15:52:34Z) - Planning to Practice: Efficient Online Fine-Tuning by Composing Goals in
Latent Space [76.46113138484947]
汎用ロボットは、現実世界の非構造環境において困難なタスクを完了するために、多様な行動レパートリーを必要とする。
この問題に対処するため、目標条件強化学習は、コマンド上の幅広いタスクの目標に到達可能なポリシーを取得することを目的としている。
本研究では,長期的課題に対する目標条件付き政策を実践的に訓練する手法であるPlanning to Practiceを提案する。
論文 参考訳(メタデータ) (2022-05-17T06:58:17Z) - Jump-Start Reinforcement Learning [68.82380421479675]
本稿では、オフラインデータやデモ、あるいは既存のポリシーを使ってRLポリシーを初期化するメタアルゴリズムを提案する。
特に,タスク解決に2つのポリシーを利用するアルゴリズムであるJump-Start Reinforcement Learning (JSRL)を提案する。
実験により、JSRLは既存の模倣と強化学習アルゴリズムを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2022-04-05T17:25:22Z) - Programmatic Policy Extraction by Iterative Local Search [0.15229257192293197]
本稿では,事前学習したニューラルポリシーからプログラムポリシーを抽出するための,単純かつ直接的なアプローチを提案する。
手作りのエキスパートポリシーと学習されたニューラルポリシーを使用してトレーニングを行うと、本手法はオリジナルとほぼ同等に機能する単純かつ解釈可能なポリシーを発見する。
論文 参考訳(メタデータ) (2022-01-18T10:39:40Z) - Meta Navigator: Search for a Good Adaptation Policy for Few-shot
Learning [113.05118113697111]
少ないショット学習は、ラベル付きデータしか持たない新しいタスクに、以前のタスクから学んだ知識を適応させることを目的としている。
少数ショット学習に関する研究文献は、大きな多様性を示し、異なるアルゴリズムは、しばしば異なる少数ショット学習シナリオで優れている。
本稿では,メタナビゲータ(Meta Navigator)について紹介する。
論文 参考訳(メタデータ) (2021-09-13T07:20:01Z) - Guided Uncertainty-Aware Policy Optimization: Combining Learning and
Model-Based Strategies for Sample-Efficient Policy Learning [75.56839075060819]
従来のロボットのアプローチは、環境の正確なモデル、タスクの実行方法の詳細な説明、現在の状態を追跡するための堅牢な認識システムに依存している。
強化学習アプローチは、タスクを記述するための報酬信号だけで、生の感覚入力から直接操作することができるが、非常にサンプル非効率で脆弱である。
本研究では,ロボットの知覚・運動パイプラインにおける不正確さを克服できる一般的な手法を得るために,モデルに基づく手法の強みと学習に基づく手法の柔軟性を組み合わせる。
論文 参考訳(メタデータ) (2020-05-21T19:47:05Z) - Reward-Conditioned Policies [100.64167842905069]
模倣学習には、ほぼ最適の専門家データが必要である。
実演なしで指導的学習を通じて効果的な政策を学べるか?
政策探索の原則的手法として,このようなアプローチを導出する方法を示す。
論文 参考訳(メタデータ) (2019-12-31T18:07:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。