論文の概要: Contrast Sets for Evaluating Language-Guided Robot Policies
- arxiv url: http://arxiv.org/abs/2406.13636v2
- Date: Fri, 25 Oct 2024 15:23:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-28 13:33:41.846460
- Title: Contrast Sets for Evaluating Language-Guided Robot Policies
- Title(参考訳): 言語誘導型ロボット政策評価のためのコントラストセット
- Authors: Abrar Anwar, Rohan Gupta, Jesse Thomason,
- Abstract要約: 我々は、ロボット工学のコントラストセットを導入して、独立で同一の分散テストインスタンスに対して、小さく、しかし特異な摂動を発生させる。
評価を行おうとする実験者の努力と得られた評価結果との関係について検討する。
我々は、異なるコントラストセットの摂動の相対的な性能変化を利用して、シミュレーション操作タスクと物理ロボット視覚・言語ナビゲーションタスクの両方において、実験者の努力を減らし、ポリシーを特徴づける。
- 参考スコア(独自算出の注目度): 10.105811371008091
- License:
- Abstract: Robot evaluations in language-guided, real world settings are time-consuming and often sample only a small space of potential instructions across complex scenes. In this work, we introduce contrast sets for robotics as an approach to make small, but specific, perturbations to otherwise independent, identically distributed (i.i.d.) test instances. We investigate the relationship between experimenter effort to carry out an evaluation and the resulting estimated test performance as well as the insights that can be drawn from performance on perturbed instances. We use the relative performance change of different contrast set perturbations to characterize policies at reduced experimenter effort in both a simulated manipulation task and a physical robot vision-and-language navigation task. We encourage the use of contrast set evaluations as a more informative alternative to small scale, i.i.d. demonstrations on physical robots, and as a scalable alternative to industry-scale real world evaluations.
- Abstract(参考訳): 言語誘導された現実世界の設定におけるロボットの評価は時間がかかり、複雑なシーンにまたがる潜在的な命令の小さなスペースだけをサンプリングすることが多い。
本研究では, ロボット工学におけるコントラストセットを, 独立で同一に分散された(d.d.)テストインスタンスに対して, 小さいが特異な摂動を生じさせるアプローチとして導入する。
本研究では,評価を行う実験者の努力と結果の予測結果,および摂動インスタンスの性能から得られる知見との関係について検討する。
我々は、異なるコントラストセットの摂動の相対的な性能変化を利用して、シミュレーション操作タスクと物理ロボット視覚・言語ナビゲーションタスクの両方において、実験者の努力を減らし、ポリシーを特徴づける。
我々は、コントラストセット評価を、小規模ロボットのより情報的な代替、すなわち物理ロボットのデモンストレーション、産業規模の実世界評価のスケーラブルな代替品として活用することを奨励する。
関連論文リスト
- DiffGen: Robot Demonstration Generation via Differentiable Physics Simulation, Differentiable Rendering, and Vision-Language Model [72.66465487508556]
DiffGenは、微分可能な物理シミュレーション、微分可能なレンダリング、ビジョン言語モデルを統合する新しいフレームワークである。
言語命令の埋め込みとシミュレートされた観察の埋め込みとの距離を最小化することにより、現実的なロボットデモを生成することができる。
実験によると、DiffGenを使えば、人間の努力やトレーニング時間を最小限に抑えて、ロボットデータを効率よく、効果的に生成できる。
論文 参考訳(メタデータ) (2024-05-12T15:38:17Z) - Bridging Language, Vision and Action: Multimodal VAEs in Robotic Manipulation Tasks [0.0]
本研究では,ロボット操作分野における教師なし視覚-言語-アクションマッピングに着目した。
本研究では,シミュレータにおけるモデルの性能を最大55%向上させるモデル不変学習法を提案する。
我々の研究は、ロボット運動軌跡の教師なし学習に現在のマルチモーダルVAEを使用することの潜在的な利点と限界にも光を当てている。
論文 参考訳(メタデータ) (2024-04-02T13:25:16Z) - Interactive Planning Using Large Language Models for Partially
Observable Robotics Tasks [54.60571399091711]
大きな言語モデル(LLM)は、オープン語彙タスクを実行するロボットエージェントを作成することで、驚くべき成果を上げている。
LLMを用いた部分的に観測可能なタスクのための対話型計画手法を提案する。
論文 参考訳(メタデータ) (2023-12-11T22:54:44Z) - What Matters to You? Towards Visual Representation Alignment for Robot
Learning [81.30964736676103]
人のために運用する場合、ロボットはエンドユーザーの好みに合わせて報酬を最適化する必要がある。
本稿では、視覚的表現アライメント問題を解決するためのRAPL(Representation-Aligned Preference-based Learning)を提案する。
論文 参考訳(メタデータ) (2023-10-11T23:04:07Z) - SCENEREPLICA: Benchmarking Real-World Robot Manipulation by Creating
Replicable Scenes [5.80109297939618]
実世界におけるロボット操作の評価のための再現可能な新しいベンチマークを提案し,特にピック・アンド・プレイスに着目した。
我々のベンチマークでは、ロボットコミュニティでよく使われているデータセットであるYCBオブジェクトを使用して、結果が他の研究と比較されるようにしています。
論文 参考訳(メタデータ) (2023-06-27T16:59:15Z) - Inferring Versatile Behavior from Demonstrations by Matching Geometric
Descriptors [72.62423312645953]
人間は直感的にタスクを多目的に解決し、軌道に基づく計画や個々のステップの行動を変化させる。
現在のImitation Learningアルゴリズムは、通常、単調な専門家によるデモンストレーションのみを考慮し、状態アクションベースの設定で行動する。
代わりに、移動プリミティブの混合と分布マッチングの目的を組み合わせることで、専門家の行動と汎用性にマッチする多目的行動を学ぶ。
論文 参考訳(メタデータ) (2022-10-17T16:42:59Z) - An in-depth experimental study of sensor usage and visual reasoning of
robots navigating in real environments [20.105395754497202]
実物的エージェントの性能と推論能力について検討し、シミュレーションで訓練し、2つの異なる物理的環境に展開する。
我々は,PointGoalタスクに対して,多種多様なタスクを事前訓練し,対象環境の模擬バージョンを微調整したエージェントが,sim2real転送をモデル化せずに競争性能に達することを示す。
論文 参考訳(メタデータ) (2021-11-29T16:27:29Z) - Improving Object Permanence using Agent Actions and Reasoning [8.847502932609737]
既存のアプローチは、低レベルの知覚からオブジェクト永続性を学ぶ。
我々は、ロボットが実行された動作に関する知識を使用する場合、オブジェクトの永続性を改善することができると論じる。
論文 参考訳(メタデータ) (2021-10-01T07:09:49Z) - Few-Shot Visual Grounding for Natural Human-Robot Interaction [0.0]
本稿では,人間ユーザによって音声で示される,混み合ったシーンから対象物を分割するソフトウェアアーキテクチャを提案する。
システムのコアでは、視覚的な接地のためにマルチモーダルディープニューラルネットワークを使用します。
公開シーンデータセットから収集した実RGB-Dデータに対して,提案モデルの性能を評価する。
論文 参考訳(メタデータ) (2021-03-17T15:24:02Z) - Robust Policies via Mid-Level Visual Representations: An Experimental
Study in Manipulation and Navigation [115.4071729927011]
エンド・ツー・エンドのRLフレームワークにおいて,中間レベルの視覚表現を汎用的かつ容易に認識可能な知覚状態として用いることの効果について検討した。
一般化を支援し、サンプルの複雑さを改善し、最終的なパフォーマンスを高めることを示します。
実際には、ドメインのランダム化やスクラッチからの学習が失敗したタスクのポリシーをうまくトレーニングするために、中間レベルの表現が使用できる。
論文 参考訳(メタデータ) (2020-11-13T00:16:05Z) - Integrated Benchmarking and Design for Reproducible and Accessible
Evaluation of Robotic Agents [61.36681529571202]
本稿では,開発とベンチマークを統合した再現性ロボット研究の新しい概念について述べる。
このセットアップの中心的なコンポーネントの1つはDuckietown Autolabであり、これは比較的低コストで再現可能な標準化されたセットアップである。
本研究では,インフラを用いて実施した実験の再現性を解析し,ロボットのハードウェアや遠隔実験室間でのばらつきが低いことを示す。
論文 参考訳(メタデータ) (2020-09-09T15:31:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。