論文の概要: Efficient Evaluation of Multi-Task Robot Policies With Active Experiment Selection
- arxiv url: http://arxiv.org/abs/2502.09829v1
- Date: Fri, 14 Feb 2025 00:07:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-17 14:46:58.957458
- Title: Efficient Evaluation of Multi-Task Robot Policies With Active Experiment Selection
- Title(参考訳): アクティブな実験選択によるマルチタスクロボットの効率評価
- Authors: Abrar Anwar, Rohan Gupta, Zain Merchant, Sayan Ghosh, Willie Neiswanger, Jesse Thomason,
- Abstract要約: 学習したロボット制御ポリシーを評価して、その物理的タスクレベルの能力を決定するには、実験者による時間と労力がかかる。
すべてのタスクに対して,すべてのポリシを複数回テストすることは現実的ではない。
実験を順次実施する際には,全てのタスクやポリシーにまたがるロボット性能の分布をモデル化することを提案する。
- 参考スコア(独自算出の注目度): 26.01454902727706
- License:
- Abstract: Evaluating learned robot control policies to determine their physical task-level capabilities costs experimenter time and effort. The growing number of policies and tasks exacerbates this issue. It is impractical to test every policy on every task multiple times; each trial requires a manual environment reset, and each task change involves re-arranging objects or even changing robots. Naively selecting a random subset of tasks and policies to evaluate is a high-cost solution with unreliable, incomplete results. In this work, we formulate robot evaluation as an active testing problem. We propose to model the distribution of robot performance across all tasks and policies as we sequentially execute experiments. Tasks often share similarities that can reveal potential relationships in policy behavior, and we show that natural language is a useful prior in modeling these relationships between tasks. We then leverage this formulation to reduce the experimenter effort by using a cost-aware expected information gain heuristic to efficiently select informative trials. Our framework accommodates both continuous and discrete performance outcomes. We conduct experiments on existing evaluation data from real robots and simulations. By prioritizing informative trials, our framework reduces the cost of calculating evaluation metrics for robot policies across many tasks.
- Abstract(参考訳): 学習したロボット制御ポリシーを評価して、その物理的タスクレベルの能力を決定するには、実験者による時間と労力がかかる。
政策やタスクの増大がこの問題を悪化させている。
それぞれの試行は、手動の環境リセットを必要とし、各タスクの変更は、オブジェクトの再配置や、ロボットの変更を含む。
タスクとポリシーのランダムなサブセットを選択して評価することは、信頼できない不完全な結果の高コストなソリューションである。
本研究では,ロボット評価をアクティブなテスト問題として定式化する。
実験を順次実施する際には,全てのタスクやポリシーにまたがるロボット性能の分布をモデル化することを提案する。
課題はしばしば、政策行動における潜在的な関係を明らかにするような類似性を共有し、これらの関係をタスク間でモデル化する上で、自然言語が有用であることを示す。
次に、この定式化を活用して、コストを意識した予測情報がヒューリスティックな情報を得て、情報的試行を効率的に選択することで、実験者の労力を削減する。
私たちのフレームワークは、連続的な結果と離散的なパフォーマンス結果の両方に対応しています。
実ロボットとシミュレーションによる既存の評価データについて実験を行った。
情報的試行を優先することにより,多くのタスクにわたるロボットポリシー評価指標の算出コストを削減できる。
関連論文リスト
- On the Evaluation of Generative Robotic Simulations [35.8253733339539]
生成シミュレーションに適した総合評価フレームワークを提案する。
単一タスクの品質では、生成されたタスクのリアリズムと生成されたトラジェクトリの完全性を評価する。
タスクレベルの一般化のために、複数の生成されたタスクで訓練されたポリシーの目に見えないタスクに対してゼロショットの一般化能力を評価する。
論文 参考訳(メタデータ) (2024-10-10T17:49:25Z) - Scaling Proprioceptive-Visual Learning with Heterogeneous Pre-trained Transformers [41.069074375686164]
本稿では、政策ニューラルネットワークのトランクを事前訓練してタスクを学習し、共有表現を具体化する異種事前学習トランスフォーマー(HPT)を提案する。
52データセットの範囲で,トレーニング対象のスケーリング行動を調べる実験を行った。
HPTはいくつかのベースラインを上回り、未確認タスクで20%以上の微調整されたポリシー性能を向上させる。
論文 参考訳(メタデータ) (2024-09-30T17:39:41Z) - Sparse Diffusion Policy: A Sparse, Reusable, and Flexible Policy for Robot Learning [61.294110816231886]
我々はスパース・リユース・フレキシブル・ポリシー、スパース・ディフュージョン・ポリシー(SDP)を導入する。
SDPは、エキスパートとスキルを選択的に活性化し、モデル全体をトレーニングすることなく、効率的でタスク固有の学習を可能にする。
デモとコードはhttps://forrest-110.io/sparse_diffusion_policy/にある。
論文 参考訳(メタデータ) (2024-07-01T17:59:56Z) - PoCo: Policy Composition from and for Heterogeneous Robot Learning [44.1315170137613]
現在のメソッドは通常、1つのポリシーをトレーニングするために、1つのドメインからすべてのデータを収集し、プールします。
多様なモダリティやドメインにまたがる情報を組み合わせるための,ポリシ・コンポジションと呼ばれる柔軟なアプローチを提案する。
提案手法はタスクレベルの構成をマルチタスク操作に使用することができ,分析コスト関数を用いて推論時のポリシー動作を適応させることができる。
論文 参考訳(メタデータ) (2024-02-04T14:51:49Z) - Self-Improving Robots: End-to-End Autonomous Visuomotor Reinforcement
Learning [54.636562516974884]
模倣と強化学習において、人間の監督コストは、ロボットが訓練できるデータの量を制限する。
本研究では,自己改善型ロボットシステムのための新しい設計手法であるMEDAL++を提案する。
ロボットは、タスクの実施と解除の両方を学ぶことで、自律的にタスクを練習し、同時にデモンストレーションから報酬関数を推論する。
論文 参考訳(メタデータ) (2023-03-02T18:51:38Z) - Lifelong Robotic Reinforcement Learning by Retaining Experiences [61.79346922421323]
多くのマルチタスク強化学習は、ロボットが常にすべてのタスクからデータを収集できると仮定している。
本研究では,物理ロボットシステムの実用的制約を動機として,現実的なマルチタスクRL問題について検討する。
我々は、ロボットのスキルセットを累積的に成長させるために、過去のタスクで学んだデータとポリシーを効果的に活用するアプローチを導出する。
論文 参考訳(メタデータ) (2021-09-19T18:00:51Z) - Towards Coordinated Robot Motions: End-to-End Learning of Motion
Policies on Transform Trees [63.31965375413414]
人間による実証から構造化政策を学習し、マルチタスクの課題解決を提案します。
我々の構造化ポリシーは、異なる空間におけるサブタスクポリシーを組み合わせるためのフレームワークであるRMPflowにインスパイアされている。
マルチタスク問題に適したエンドツーエンドの学習目標関数を導き出します。
論文 参考訳(メタデータ) (2020-12-24T22:46:22Z) - COG: Connecting New Skills to Past Experience with Offline Reinforcement
Learning [78.13740204156858]
我々は、動的プログラミングによって新しいスキルを拡張するために、事前データを再利用できることを示します。
我々は、新しいタスクを解決するために、以前のデータセットに見られるいくつかの動作をチェーンすることで、アプローチの有効性を実証する。
我々は、高次元画像観察を低レベルのロボット制御コマンドにマッピングし、エンドツーエンドでポリシーを訓練する。
論文 参考訳(メタデータ) (2020-10-27T17:57:29Z) - Scalable Multi-Task Imitation Learning with Autonomous Improvement [159.9406205002599]
我々は、自律的なデータ収集を通じて継続的に改善できる模倣学習システムを構築している。
我々は、ロボット自身の試行を、実際に試みたタスク以外のタスクのデモとして活用する。
従来の模倣学習のアプローチとは対照的に,本手法は,継続的改善のための疎い監視によるデータ収集を自律的に行うことができる。
論文 参考訳(メタデータ) (2020-02-25T18:56:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。