論文の概要: Distilling and Retrieving Generalizable Knowledge for Robot Manipulation via Language Corrections
- arxiv url: http://arxiv.org/abs/2311.10678v2
- Date: Thu, 21 Mar 2024 05:47:22 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-22 19:47:00.247130
- Title: Distilling and Retrieving Generalizable Knowledge for Robot Manipulation via Language Corrections
- Title(参考訳): 言語補正によるロボット操作における汎用知識の蒸留と検索
- Authors: Lihan Zha, Yuchen Cui, Li-Heng Lin, Minae Kwon, Montserrat Gonzalez Arenas, Andy Zeng, Fei Xia, Dorsa Sadigh,
- Abstract要約: オンライン補正(DROC)の蒸留と検索について紹介する。
DROCは大規模言語モデル(LLM)ベースのシステムで、任意の形式の言語フィードバックに対応できる。
DROCは、知識ベースにおけるオンライン修正のシーケンスから、関連情報を効果的に蒸留できることを実証する。
- 参考スコア(独自算出の注目度): 45.420679219101245
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Today's robot policies exhibit subpar performance when faced with the challenge of generalizing to novel environments. Human corrective feedback is a crucial form of guidance to enable such generalization. However, adapting to and learning from online human corrections is a non-trivial endeavor: not only do robots need to remember human feedback over time to retrieve the right information in new settings and reduce the intervention rate, but also they would need to be able to respond to feedback that can be arbitrary corrections about high-level human preferences to low-level adjustments to skill parameters. In this work, we present Distillation and Retrieval of Online Corrections (DROC), a large language model (LLM)-based system that can respond to arbitrary forms of language feedback, distill generalizable knowledge from corrections, and retrieve relevant past experiences based on textual and visual similarity for improving performance in novel settings. DROC is able to respond to a sequence of online language corrections that address failures in both high-level task plans and low-level skill primitives. We demonstrate that DROC effectively distills the relevant information from the sequence of online corrections in a knowledge base and retrieves that knowledge in settings with new task or object instances. DROC outperforms other techniques that directly generate robot code via LLMs by using only half of the total number of corrections needed in the first round and requires little to no corrections after two iterations. We show further results, videos, prompts and code on https://sites.google.com/stanford.edu/droc .
- Abstract(参考訳): 今日のロボット政策は、新しい環境への一般化という課題に直面した場合、サブパーパフォーマンスを示す。
人間の修正フィードバックは、そのような一般化を可能にするための重要なガイダンスである。
しかし、オンラインの人間の修正に適応し、学習することは、簡単ではない。ロボットは、新しい設定における適切な情報を取得し、介入率を減らすために、時間とともに人間のフィードバックを記憶する必要があるだけでなく、高いレベルの人間の好みに関する任意の修正や、スキルパラメータの低レベルの調整といったフィードバックに応答できる必要がある。
本稿では,言語フィードバックの任意の形式に応答し,修正から一般化可能な知識を抽出し,テキストや視覚的類似性に基づいて関連した過去の経験を検索し,新規な設定における性能向上を図る,大規模言語モデル(LLM)ベースのシステムであるDROCについて述べる。
DROCは、高レベルのタスクプランと低レベルのスキルプリミティブの両方の障害に対処する一連のオンライン言語修正に対応することができる。
DROCは、知識ベースにおけるオンライン修正のシーケンスから関連情報を効果的に蒸留し、その知識を新しいタスクやオブジェクトインスタンスの設定で回収することを示した。
DROCは、第1ラウンドに必要な修正の総数の半分しか使用せず、2回のイテレーション後にほとんど修正を必要とせず、LSMを通してロボットコードを直接生成する他の技術よりも優れている。
さらなる結果、ビデオ、プロンプト、コードをhttps://sites.google.com/stanford.edu/drocで示します。
関連論文リスト
- RACER: Rich Language-Guided Failure Recovery Policies for Imitation Learning [19.023560632891467]
本稿では,障害復旧トラジェクトリによる専門家によるデモンストレーションを強化する,スケーラブルなデータ生成パイプラインを提案する。
次に、Rich languAge-guided failure reCovERy(RACER)を紹介します。
実験の結果,RACERはRLbench上での最先端のロボットビュートランスよりも優れていた。
論文 参考訳(メタデータ) (2024-09-23T02:50:33Z) - Tag and correct: high precision post-editing approach to correction of speech recognition errors [0.0]
ASR(Automatic Speech Recognition)仮説の単語を単語単位で修正する方法を学ぶニューラルネットワークタグと、タグによって返される修正を適用する修正モジュールとから構成される。
提案手法はアーキテクチャによらず,任意のASRシステムに適用可能である。
論文 参考訳(メタデータ) (2024-06-11T09:52:33Z) - Adaptive Rentention & Correction for Continual Learning [114.5656325514408]
連続学習における一般的な問題は、最新のタスクに対する分類層のバイアスである。
アダプティブ・リテンション・アンド・コレクション (ARC) のアプローチを例に挙げる。
ARCはCIFAR-100とImagenet-Rのデータセットで平均2.7%と2.6%のパフォーマンス向上を達成した。
論文 参考訳(メタデータ) (2024-05-23T08:43:09Z) - Constrained Equation Learner Networks for Precision-Preserving
Extrapolation of Robotic Skills [6.144680854063937]
本稿では,実証によるプログラミングにおける軌道適応問題に対処する,教師付き学習フレームワークを提案する。
方程式学習ネットワークを用いて解析式を学習し,基礎関数として利用する。
提案手法は, ロボット軌道の適応における3つの課題に対処する。1) 軌道の歪みを最小限に抑えること,2) 適応の精度を保つこと,3) 基本機能の構造に関する直観の欠如に対処すること。
論文 参考訳(メタデータ) (2023-11-04T18:16:18Z) - Generative error correction for code-switching speech recognition using
large language models [49.06203730433107]
コードスイッチング(英: Code-switching, CS)とは、2つ以上の言語が同じ文内に混在する現象である。
本稿では,大規模言語モデル (LLM) と ASR が生成する仮説のリストを利用して,CS 問題に対処することを提案する。
論文 参考訳(メタデータ) (2023-10-17T14:49:48Z) - Reinforced Self-Training (ReST) for Language Modeling [56.75447441157628]
人間からのフィードバック(RLHF)からの強化学習は、人間の好みに合わせることで、大きな言語モデル(LLM)の出力の品質を向上させることができる。
強化自己学習(Reinforced Self-Training, ReST)と呼ばれる, バッチ強化学習(RL)の成長にインスパイアされたLLMを人間の好みに合わせるための簡単なアルゴリズムを提案する。
この結果から,ReSTは自動測定値と機械翻訳ベンチマークの人的評価によって,計算とサンプル効率で翻訳品質を大幅に向上させることができることがわかった。
論文 参考訳(メタデータ) (2023-08-17T14:12:48Z) - Towards Unbounded Machine Unlearning [13.31957848633701]
我々は,異なるアプリケーション (RB, RC, UP) に対するアンラーニングを,それぞれ独自のデシラタ,忘れるための定義,および品質を忘れるための関連する指標をもって研究する。
UPでは,非学習者に対する強力なメンバーシップ推論攻撃の新たな適応を提案する。
また、RB, RC, UPの異なるアプリケーション依存メトリクス間で品質を忘れる上で、一貫してトップパフォーマーである新しいアンラーニングアルゴリズムであるSCRUBを提案する。
論文 参考訳(メタデータ) (2023-02-20T10:15:36Z) - "No, to the Right" -- Online Language Corrections for Robotic
Manipulation via Shared Autonomy [70.45420918526926]
LILACは、実行中に自然言語の修正をオンラインで実施し、適応するためのフレームワークである。
LILACは人間とロボットを個別にターンテイクする代わりに、人間とロボットの間にエージェンシーを分割する。
提案手法は,タスク完了率が高く,ユーザによって主観的に好まれることを示す。
論文 参考訳(メタデータ) (2023-01-06T15:03:27Z) - Improving Readability for Automatic Speech Recognition Transcription [50.86019112545596]
我々は、可読性のためのASRポストプロセッシング(APR)と呼ばれる新しいNLPタスクを提案する。
APRは、ノイズの多いASR出力を、話者の意味を保ちながら、人間や下流タスクのための読みやすいテキストに変換することを目的としている。
我々は,いくつかのオープンソースモデルと適応型事前学習モデルに基づく微調整モデルと,従来のパイプライン手法との比較を行った。
論文 参考訳(メタデータ) (2020-04-09T09:26:42Z) - Pre-Training for Query Rewriting in A Spoken Language Understanding
System [14.902583546933563]
まず、クエリ書き換えのためのニューラル検索に基づくアプローチを提案する。
そして、事前学習された文脈言語埋め込みの成功に触発されて、言語モデリング(LM)に基づくアプローチを提案する。
論文 参考訳(メタデータ) (2020-02-13T16:31:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。