論文の概要: Robust Instant Policy: Leveraging Student's t-Regression Model for Robust In-context Imitation Learning of Robot Manipulation
- arxiv url: http://arxiv.org/abs/2506.15157v1
- Date: Wed, 18 Jun 2025 06:02:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-19 19:35:51.555786
- Title: Robust Instant Policy: Leveraging Student's t-Regression Model for Robust In-context Imitation Learning of Robot Manipulation
- Title(参考訳): ロバスト・インスタント・ポリシー:ロボット操作におけるロバスト・イン・コンテクスト模倣学習のための学生のt回帰モデルを活用する
- Authors: Hanbit Oh, Andrea M. Salcedo-Vázquez, Ixchel G. Ramirez-Alpizar, Yukiyasu Domae,
- Abstract要約: 我々は、ロバストインスタントポリシー(RIP)と呼ばれる、新しいロバストなインコンテキスト模倣学習アルゴリズムを提案する。
RIPは、LLMから与えられたタスクを完了させるためにいくつかの候補ロボット軌道を生成し、学生のt分布を用いてそれらを集約する。
実環境と実環境の両方で実験を行った結果,RIPは最先端のIL法よりも優れていた。
- 参考スコア(独自算出の注目度): 4.545367391076448
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Imitation learning (IL) aims to enable robots to perform tasks autonomously by observing a few human demonstrations. Recently, a variant of IL, called In-Context IL, utilized off-the-shelf large language models (LLMs) as instant policies that understand the context from a few given demonstrations to perform a new task, rather than explicitly updating network models with large-scale demonstrations. However, its reliability in the robotics domain is undermined by hallucination issues such as LLM-based instant policy, which occasionally generates poor trajectories that deviate from the given demonstrations. To alleviate this problem, we propose a new robust in-context imitation learning algorithm called the robust instant policy (RIP), which utilizes a Student's t-regression model to be robust against the hallucinated trajectories of instant policies to allow reliable trajectory generation. Specifically, RIP generates several candidate robot trajectories to complete a given task from an LLM and aggregates them using the Student's t-distribution, which is beneficial for ignoring outliers (i.e., hallucinations); thereby, a robust trajectory against hallucinations is generated. Our experiments, conducted in both simulated and real-world environments, show that RIP significantly outperforms state-of-the-art IL methods, with at least $26\%$ improvement in task success rates, particularly in low-data scenarios for everyday tasks. Video results available at https://sites.google.com/view/robustinstantpolicy.
- Abstract(参考訳): イミテーション・ラーニング(IL)は、ロボットがいくつかの人間のデモンストレーションを観察することで自律的にタスクを実行することを可能にすることを目的としている。
最近、ILの亜種であるIn-Context ILは、大規模なデモでネットワークモデルを明示的に更新するのではなく、いくつかのデモからコンテキストを理解して新しいタスクを実行するための即時ポリシーとして、既製の大規模言語モデル(LLM)を利用している。
しかしながら、ロボット分野における信頼性は、LLMベースのインスタントポリシーのような幻覚的な問題によって損なわれ、時には、与えられたデモから逸脱する粗悪な軌道を生成する。
この問題を軽減するために,学生のt-回帰モデルを用いて,信頼度の高い軌道生成を可能にするために,即時ポリシーの幻覚的軌跡に対して頑健な,頑健な文脈内模倣学習アルゴリズム(RIP)を提案する。
具体的には、LLMから与えられたタスクを完了させるために複数の候補ロボット軌道を生成し、学生のt分布を用いてそれらを集約する。
実環境と実環境の両方で実施した実験の結果,RIP は現状の IL 手法を著しく上回り,特に日常業務における低データシナリオにおいて,タスク成功率を少なくとも2,6 % 向上させることがわかった。
ビデオはhttps://sites.google.com/view/robustintpolicy.comで公開されている。
関連論文リスト
- Curating Demonstrations using Online Experience [52.59275477573012]
また,Demo-SCOREは手作業によるキュレーションを伴わずに,効果的に準最適動作を識別できることが示唆された。
Demo-SCOREは、全てのオリジナルのデモンストレーションで訓練された基本方針と比較して、結果のポリシーにおいて15~35%以上の絶対的な成功率を達成する。
論文 参考訳(メタデータ) (2025-03-05T17:58:16Z) - IMLE Policy: Fast and Sample Efficient Visuomotor Policy Learning via Implicit Maximum Likelihood Estimation [3.7584322469996896]
IMLEポリシーは、Implicit Maximum Likelihood Estimation (IMLE)に基づく新しい行動クローニング手法である
複雑なマルチモーダルな振る舞いを学ぶ上で、ベースラインメソッドのパフォーマンスに合わせるために、最小限のデモから効果的に学習し、平均で38%のデータを必要とします。
シミュレーションおよび実環境における多様な操作タスクに対するアプローチを検証し、データ制約下で複雑な振る舞いをキャプチャする能力を示す。
論文 参考訳(メタデータ) (2025-02-17T23:22:49Z) - Learning from Demonstration with Implicit Nonlinear Dynamics Models [16.26835655544884]
本研究では、時間的ダイナミクスをモデル化するための可変な動的特性を持つ固定非線形力学系を含むリカレントニューラルネットワーク層を開発する。
LASA Human Handwriting データセットを用いて人間の手書き動作を再現する作業において,ニューラルネットワーク層の有効性を検証する。
論文 参考訳(メタデータ) (2024-09-27T14:12:49Z) - Interactive Planning Using Large Language Models for Partially
Observable Robotics Tasks [54.60571399091711]
大きな言語モデル(LLM)は、オープン語彙タスクを実行するロボットエージェントを作成することで、驚くべき成果を上げている。
LLMを用いた部分的に観測可能なタスクのための対話型計画手法を提案する。
論文 参考訳(メタデータ) (2023-12-11T22:54:44Z) - Robust Visual Sim-to-Real Transfer for Robotic Manipulation [79.66851068682779]
シミュレーションにおけるビジュモータポリシーの学習は、現実世界よりも安全で安価である。
しかし、シミュレーションデータと実データとの相違により、シミュレータ訓練されたポリシーは実際のロボットに転送されると失敗することが多い。
視覚的なsim-to-real領域ギャップを埋める一般的なアプローチは、ドメインランダム化(DR)である。
論文 参考訳(メタデータ) (2023-07-28T05:47:24Z) - DEALIO: Data-Efficient Adversarial Learning for Imitation from
Observation [57.358212277226315]
観察ifoからの模倣学習において、学習エージェントは、実演者の生成した制御信号にアクセスせずに、実演行動の観察のみを用いて実演エージェントを模倣しようとする。
近年、逆模倣学習に基づく手法は、ifO問題に対する最先端のパフォーマンスをもたらすが、データ非効率でモデルなしの強化学習アルゴリズムに依存するため、サンプルの複雑さに悩まされることが多い。
この問題は、サンプルの収集が時間、エネルギー、およびリスクの面で高いコストを被る可能性がある現実世界の設定に展開することは非現実的です。
よりデータ効率の高いifOアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-31T23:46:32Z) - A Framework for Efficient Robotic Manipulation [79.10407063260473]
単一のロボットアームがピクセルからスパースリワード操作ポリシーを学習できることを示します。
デモは10回しかなく、単一のロボットアームがピクセルからスパースリワード操作のポリシーを学習できることを示しています。
論文 参考訳(メタデータ) (2020-12-14T22:18:39Z) - Human-in-the-Loop Imitation Learning using Remote Teleoperation [72.2847988686463]
6-DoF操作設定に合わせたデータ収集システムを構築します。
システムによって収集された新しいデータに基づいて,ポリシーを反復的にトレーニングするアルゴリズムを開発した。
介入型システムで収集したデータに基づいて訓練されたエージェントと、非介入型デモ参加者が収集した同等数のサンプルで訓練されたアルゴリズムを上回るエージェントを実証する。
論文 参考訳(メタデータ) (2020-12-12T05:30:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。