論文の概要: PRISM: Personalized Refinement of Imitation Skills for Manipulation via Human Instructions
- arxiv url: http://arxiv.org/abs/2603.05574v1
- Date: Thu, 05 Mar 2026 17:05:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-09 13:17:44.283093
- Title: PRISM: Personalized Refinement of Imitation Skills for Manipulation via Human Instructions
- Title(参考訳): PRISM:人間による操作のための模倣スキルのパーソナライズされたリファインメント
- Authors: Arnau Boix-Granell, Alberto San-Miguel-Tello, Magí Dalmau-Moreno, Néstor García,
- Abstract要約: 本稿では,ロボット操作における模倣ポリシーのための命令条件改善手法であるPRISMを提案する。
アプローチはImitation Learning (IL)とReinforcement Learning (RL)フレームワークをシームレスなパイプラインにブリッジする。
シミュレーションシナリオにおけるピック・アンド・プレイス・タスクの結果,提案手法は人的フィードバックを伴わずにポリシーを上回ることを示した。
- 参考スコア(独自算出の注目度): 0.6299766708197883
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: This paper presents PRISM: an instruction-conditioned refinement method for imitation policies in robotic manipulation. This approach bridges Imitation Learning (IL) and Reinforcement Learning (RL) frameworks into a seamless pipeline, such that an imitation policy on a broad generic task, generated from a set of user-guided demonstrations, can be refined through reinforcement to generate new unseen fine-grain behaviours. The refinement process follows the Eureka paradigm, where reward functions for RL are iteratively generated from an initial natural-language task description. Presented approach, builds on top of this mechanism to adapt a refined IL policy of a generic task to new goal configurations and the introduction of constraints by adding also human feedback correction on intermediate rollouts, enabling policy reusability and therefore data efficiency. Results for a pick-and-place task in a simulated scenario show that proposed method outperforms policies without human feedback, improving robustness on deployment and reducing computational burden.
- Abstract(参考訳): 本稿では,ロボット操作における模倣ポリシーのための命令条件改善手法であるPRISMを提案する。
このアプローチは、Imitation Learning (IL) とReinforcement Learning (RL) フレームワークをシームレスなパイプラインにブリッジし、ユーザガイドによる一連のデモから生成される広範な汎用タスクの模倣ポリシーを強化を通じて洗練し、目に見えない新しい微粒な振る舞いを生成する。
改良プロセスはEurekaパラダイムに従っており、RLの報酬関数は初期自然言語によるタスク記述から反復的に生成される。
提案手法は, 汎用タスクの改良されたILポリシを新たな目標設定に適合させる機構と, 中間ロールアウトに人間からのフィードバック補正を加えることで制約を導入する機構の上に構築される。
シミュレーションシナリオにおけるピック・アンド・プレイス・タスクの結果、提案手法は人的フィードバックなしでポリシーを上回り、配置の堅牢性を改善し、計算負担を軽減する。
関連論文リスト
- Agentic Policy Optimization via Instruction-Policy Co-Evolution [44.74237684380034]
INSPOは、命令-政治共進化のための新しいフレームワークである。
強化学習ループの動的コンポーネントとして命令最適化を統合する。
実験では、INSPOは計算オーバーヘッドを極端に増加させるだけで、かなりの性能向上を達成する。
論文 参考訳(メタデータ) (2025-12-01T17:56:29Z) - Reinforcement Learning for Flow-Matching Policies [9.308313682356285]
フローマッチングポリシーは、ジェネラリストロボティクスの強力なパラダイムとして登場した。
本研究は, 強化学習による流路整合政策の訓練を行い, 当初の実演政策を超越するものである。
論文 参考訳(メタデータ) (2025-07-20T18:15:18Z) - Zero-Shot Whole-Body Humanoid Control via Behavioral Foundation Models [71.34520793462069]
教師なし強化学習(RL)は、複雑な環境下で幅広い下流タスクを解くことができる事前学習エージェントを目標としている。
本稿では,ラベルのない行動データセットからトラジェクトリを模倣するための,教師なしRLの正規化アルゴリズムを提案する。
我々は,この手法の有効性を,挑戦的なヒューマノイド制御問題において実証する。
論文 参考訳(メタデータ) (2025-04-15T10:41:11Z) - Efficient Safety Alignment of Large Language Models via Preference Re-ranking and Representation-based Reward Modeling [84.00480999255628]
大規模言語モデル(LLM)の安全性アライメントのための強化学習アルゴリズムは,分散シフトの課題に直面している。
現在のアプローチでは、ターゲットポリシーからのオンラインサンプリングを通じてこの問題に対処するのが一般的である。
モデル固有の安全判断能力を活用して報酬信号を抽出する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-13T06:40:34Z) - Statistically Efficient Variance Reduction with Double Policy Estimation
for Off-Policy Evaluation in Sequence-Modeled Reinforcement Learning [53.97273491846883]
本稿では、オフラインシーケンスモデリングとオフライン強化学習をダブルポリシー推定と組み合わせたRLアルゴリズムDPEを提案する。
D4RLベンチマークを用いて,OpenAI Gymの複数のタスクで本手法を検証した。
論文 参考訳(メタデータ) (2023-08-28T20:46:07Z) - Coherent Soft Imitation Learning [17.345411907902932]
模倣学習法は、政策の行動クローニング(BC)や報酬の逆強化学習(IRL)を通じて専門家から学ぶ。
この研究は、BCとIRLの両方の強度を捉える模倣法に由来する。
論文 参考訳(メタデータ) (2023-05-25T21:54:22Z) - Evolutionary Stochastic Policy Distillation [139.54121001226451]
本稿では,GCRS課題を解決するための進化的政策蒸留法(ESPD)を提案する。
ESPDは、政策蒸留(PD)技術により、ターゲットポリシーを一連の変種から学習することを可能にする
MuJoCo制御系に基づく実験により,提案手法の学習効率が向上した。
論文 参考訳(メタデータ) (2020-04-27T16:19:25Z) - Hierarchical Variational Imitation Learning of Control Programs [131.7671843857375]
パラメータ化された階層的手順(PHP)で表される制御ポリシーの模倣学習のための変分推論手法を提案する。
本手法は, 教師による実演の観察・行動トレースのデータセットにおける階層構造を, 手続き呼び出しや用語の待ち行列に近似した後続分布を学習することによって発見する。
階層的模倣学習(hierarchical mimicion learning)の文脈における変分推論の新たな利点を実証する。
論文 参考訳(メタデータ) (2019-12-29T08:57:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。