論文の概要: IIFL: Implicit Interactive Fleet Learning from Heterogeneous Human
Supervisors
- arxiv url: http://arxiv.org/abs/2306.15228v1
- Date: Tue, 27 Jun 2023 06:02:44 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-28 14:29:35.967243
- Title: IIFL: Implicit Interactive Fleet Learning from Heterogeneous Human
Supervisors
- Title(参考訳): IIFL:不均質なヒューマンスーパーバイザによる対話型フリートラーニング
- Authors: Gaurav Datta, Ryan Hoque, Anrui Gu, Eugen Solowjow, Ken Goldberg
- Abstract要約: Inlicit Interactive Fleet Learning (IIFL) によるマルチモーダリティと分散シフトの両立を提案する。
IIFLは、ジェフリーズ分岐のESMへの新しい応用を用いて不確実性を定量化する。
その結果、IIFLはシミュレーション実験において、人的努力に対する効果が4.5倍に向上し、物理ブロックプッシュタスクにおける成功率が80%向上することが示唆された。
- 参考スコア(独自算出の注目度): 18.665186915013695
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Imitation learning has been applied to a range of robotic tasks, but can
struggle when (1) robots encounter edge cases that are not represented in the
training data (distribution shift) or (2) the human demonstrations are
heterogeneous: taking different paths around an obstacle, for instance
(multimodality). Interactive fleet learning (IFL) mitigates distribution shift
by allowing robots to access remote human teleoperators during task execution
and learn from them over time, but is not equipped to handle multimodality.
Recent work proposes Implicit Behavior Cloning (IBC), which is able to
represent multimodal demonstrations using energy-based models (EBMs). In this
work, we propose addressing both multimodality and distribution shift with
Implicit Interactive Fleet Learning (IIFL), the first extension of implicit
policies to interactive imitation learning (including the single-robot,
single-human setting). IIFL quantifies uncertainty using a novel application of
Jeffreys divergence to EBMs. While IIFL is more computationally expensive than
explicit methods, results suggest that IIFL achieves 4.5x higher return on
human effort in simulation experiments and an 80% higher success rate in a
physical block pushing task over (Explicit) IFL, IBC, and other baselines when
human supervision is heterogeneous.
- Abstract(参考訳): 模倣学習は様々なロボット作業に適用されてきたが,(1)訓練データ(分配シフト)に表現されないエッジケースにロボットが遭遇した場合や,(2)人間のデモが異質である場合,例えば障害物周辺の異なる経路(マルチモダリティ)で苦労することがある。
インタラクティブフリート学習(ifl)は、タスク実行中にロボットが遠隔操作者にアクセスし、時間とともにそれらから学習できるようにすることで、分散シフトを緩和するが、マルチモーダリティを処理できない。
最近の研究は、エネルギーベースモデル(EBM)を用いてマルチモーダルなデモンストレーションを表現できるIBC(Implicit Behavior Cloning)を提案する。
本研究では、対話型模倣学習(シングルロボット、シングルヒューマン設定を含む)への暗黙的ポリシーの最初の拡張であるImplicit Interactive Fleet Learning (IIFL)を用いて、マルチモーダルと分散シフトの両立を提案する。
IIFLは、ジェフリーズ分岐のESMへの新しい応用を用いて不確実性を定量化する。
IIFLは、明示的な手法よりも計算コストが高いが、シミュレーション実験において、IIFLは、人間の作業に対して4.5倍高いリターンを達成し、(明示的な)IFL、IBCや他のベースラインに対する物理ブロックプッシュタスクにおいて、80%高い成功率を達成することが示唆されている。
関連論文リスト
- FactorLLM: Factorizing Knowledge via Mixture of Experts for Large Language Models [50.331708897857574]
本稿では,高度に訓練された高密度FFNを余分なサブネットワークに分解する新しいアプローチであるFacterLLMを紹介する。
FactorLLMは、最大85%のモデル性能を確保しながら、推論速度を30%以上増加させながら、ソースモデルに匹敵するパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-08-15T16:45:16Z) - Sparse Diffusion Policy: A Sparse, Reusable, and Flexible Policy for Robot Learning [61.294110816231886]
我々はスパース・リユース・フレキシブル・ポリシー、スパース・ディフュージョン・ポリシー(SDP)を導入する。
SDPは、エキスパートとスキルを選択的に活性化し、モデル全体をトレーニングすることなく、効率的でタスク固有の学習を可能にする。
デモとコードはhttps://forrest-110.io/sparse_diffusion_policy/にある。
論文 参考訳(メタデータ) (2024-07-01T17:59:56Z) - Large Language Models for Orchestrating Bimanual Robots [19.60907949776435]
本稿では,Language-based Bimanual Orchestration (LABOR)を提案する。
NICOLヒューマノイドロボットを用いた2種類の長距離作業のシミュレーション実験により,本手法の評価を行った。
論文 参考訳(メタデータ) (2024-04-02T15:08:35Z) - GeRM: A Generalist Robotic Model with Mixture-of-experts for Quadruped Robot [27.410618312830497]
本稿では,GERM(Generalist Robotic Model)を提案する。
データ利用戦略を最適化するためにオフライン強化学習を利用する。
我々は、マルチモーダル入力と出力動作を処理するために、トランスフォーマーベースのVLAネットワークを使用する。
論文 参考訳(メタデータ) (2024-03-20T07:36:43Z) - Interactive Planning Using Large Language Models for Partially
Observable Robotics Tasks [54.60571399091711]
大きな言語モデル(LLM)は、オープン語彙タスクを実行するロボットエージェントを作成することで、驚くべき成果を上げている。
LLMを用いた部分的に観測可能なタスクのための対話型計画手法を提案する。
論文 参考訳(メタデータ) (2023-12-11T22:54:44Z) - Mastering Robot Manipulation with Multimodal Prompts through Pretraining and Multi-task Fine-tuning [49.92517970237088]
我々はマルチモーダルなプロンプトを理解するためにロボットを訓練する問題に取り組む。
このようなタスクは、視覚と言語信号の相互接続と相補性を理解するロボットの能力にとって大きな課題となる。
マルチモーダルプロンプトを用いてロボット操作を行うためのポリシーを学習する効果的なフレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-14T22:24:58Z) - Expanding Frozen Vision-Language Models without Retraining: Towards
Improved Robot Perception [0.0]
視覚言語モデル(VLM)は、視覚的質問応答と推論タスクにおいて強力な能力を示している。
本稿では,異なるモダリティの埋め込み空間を視覚埋め込み空間に整列させる手法を示す。
複数モードを入力として使用すると、VLMのシーン理解が向上し、様々なタスクにおける全体的なパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2023-08-31T06:53:55Z) - Pre-training Language Model as a Multi-perspective Course Learner [103.17674402415582]
本研究では,サンプル効率のよい事前学習のためのマルチパースペクティブ・コース・ラーニング(MCL)手法を提案する。
本研究では,3つの自己超越コースが,「綱引き」力学の固有の欠陥を軽減するように設計されている。
本手法は,GLUEおよびSQuAD 2.0ベンチマークにおいて,ELECTRAの平均性能をそれぞれ2.8%,絶対点を3.2%向上させる。
論文 参考訳(メタデータ) (2023-05-06T09:02:10Z) - Flexible Parallel Learning in Edge Scenarios: Communication,
Computational and Energy Cost [20.508003076947848]
FogとIoTベースのシナリオでは、両方のアプローチを組み合わせる必要があることが多い。
フレキシブル並列学習(FPL)のためのフレームワークを提案し,データとモデル並列性を両立させる。
我々の実験は、最先端のディープネットワークアーキテクチャと大規模データセットを用いて行われ、FPLが計算コスト、通信オーバーヘッド、学習性能に優れたトレードオフを実現することを確認した。
論文 参考訳(メタデータ) (2022-01-19T03:47:04Z) - ACNMP: Skill Transfer and Task Extrapolation through Learning from
Demonstration and Reinforcement Learning via Representation Sharing [5.06461227260756]
ACNMPは、異なる形態を持つロボット間のスキル伝達を実装するために使用できる。
本稿では,実際のロボット実験を通して,ACNMPの現実的適合性を示す。
論文 参考訳(メタデータ) (2020-03-25T11:28:12Z) - On the interaction between supervision and self-play in emergent
communication [82.290338507106]
本研究は,2つのカテゴリの学習信号と,サンプル効率の向上を目標とする学習信号の関係について検討する。
人間のデータに基づく教師付き学習による初等訓練エージェントが,自己演奏が会話に優れていることが判明した。
論文 参考訳(メタデータ) (2020-02-04T02:35:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。