Fugu-MT 論文翻訳(概要): IIFL: Implicit Interactive Fleet Learning from Heterogeneous Human Supervisors

論文の概要: IIFL: Implicit Interactive Fleet Learning from Heterogeneous Human Supervisors

arxiv url: http://arxiv.org/abs/2306.15228v2
Date: Fri, 20 Oct 2023 05:43:49 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-24 03:34:53.579427
Title: IIFL: Implicit Interactive Fleet Learning from Heterogeneous Human Supervisors
Title（参考訳）: IIFL:不均質なヒューマンスーパーバイザによる対話型フリートラーニング
Authors: Gaurav Datta, Ryan Hoque, Anrui Gu, Eugen Solowjow, Ken Goldberg
Abstract要約: Implicit Interactive Fleet Learning (IIFL) は、Implicit Behavior Cloning (IBC) に基づく、インタラクティブな模倣学習のためのアルゴリズムである。 IIFLはシミュレーション実験で2.8倍の成功率、人間の努力で4.5倍のリターンを達成する。
参考スコア（独自算出の注目度）: 20.182639914630514
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Imitation learning has been applied to a range of robotic tasks, but can struggle when robots encounter edge cases that are not represented in the training data (i.e., distribution shift). Interactive fleet learning (IFL) mitigates distribution shift by allowing robots to access remote human supervisors during task execution and learn from them over time, but different supervisors may demonstrate the task in different ways. Recent work proposes Implicit Behavior Cloning (IBC), which is able to represent multimodal demonstrations using energy-based models (EBMs). In this work, we propose Implicit Interactive Fleet Learning (IIFL), an algorithm that builds on IBC for interactive imitation learning from multiple heterogeneous human supervisors. A key insight in IIFL is a novel approach for uncertainty quantification in EBMs using Jeffreys divergence. While IIFL is more computationally expensive than explicit methods, results suggest that IIFL achieves a 2.8x higher success rate in simulation experiments and a 4.5x higher return on human effort in a physical block pushing task over (Explicit) IFL, IBC, and other baselines.
Abstract（参考訳）: 模倣学習は、様々なロボットタスクに適用されてきたが、訓練データ(すなわち分布シフト)で表現されないエッジケースにロボットが遭遇すると、苦労することがある。インタラクティブフリートラーニング(IFL)は、タスク実行中にロボットがリモートヒューマンスーパーバイザーにアクセスし、時間とともに学習することで、分散シフトを緩和するが、異なるスーパーバイザーが異なる方法でタスクを実証することができる。最近の研究は、エネルギーベースモデル(EBM)を用いてマルチモーダルなデモンストレーションを表現できるIBC(Implicit Behavior Cloning)を提案する。本研究では,複数の異種人監督者からのインタラクティブな模倣学習のためのIBCに基づくアルゴリズムであるImplicit Interactive Fleet Learning (IIFL)を提案する。 IIFLにおける重要な洞察は、ジェフリーズ分散を用いたESMの不確実性定量化の新しいアプローチである。 IIFLは明示的な手法よりも計算コストが高いが、その結果、IIFLはシミュレーション実験で2.8倍の成功率を獲得し、物理的ブロックプッシュタスク(Explicit)IFL、IBCなどのベースラインよりも4.5倍高いリターンを達成している。

関連論文リスト

Cooperative Multi-Agent Planning with Adaptive Skill Synthesis [16.228784877899976]
強化学習を用いたマルチエージェントシステムでは, サンプル効率, 解釈可能性, 伝達性に課題が生じる。本稿では、視覚言語モデル(VLM)を動的スキルライブラリと統合し、分散化されたクローズドループ決定のための構造化通信を行う新しいマルチエージェントアーキテクチャを提案する。
論文参考訳（メタデータ） (2025-02-14T13:23:18Z)
Low-rank Prompt Interaction for Continual Vision-Language Retrieval [47.323830129786145]
本稿では,マルチモーダル理解の問題に対処するために,低ランクプロンプトインタラクションを提案する。トレーニングパラメータがレイヤー数やタスク数にスケールすることを考えると、低ランクな相互作用強化分解を提案する。また、ロバストネストレーニングを確保するために、階層的な低ランクのコントラスト学習を採用しています。
論文参考訳（メタデータ） (2025-01-24T10:00:47Z)
FactorLLM: Factorizing Knowledge via Mixture of Experts for Large Language Models [50.331708897857574]
本稿では,高度に訓練された高密度FFNを余分なサブネットワークに分解する新しいアプローチであるFacterLLMを紹介する。 FactorLLMは、最大85%のモデル性能を確保しながら、推論速度を30%以上増加させながら、ソースモデルに匹敵するパフォーマンスを達成する。
論文参考訳（メタデータ） (2024-08-15T16:45:16Z)
Sparse Diffusion Policy: A Sparse, Reusable, and Flexible Policy for Robot Learning [61.294110816231886]
我々はスパース・リユース・フレキシブル・ポリシー、スパース・ディフュージョン・ポリシー(SDP)を導入する。 SDPは、エキスパートとスキルを選択的に活性化し、モデル全体をトレーニングすることなく、効率的でタスク固有の学習を可能にする。デモとコードはhttps://forrest-110.io/sparse_diffusion_policy/にある。
論文参考訳（メタデータ） (2024-07-01T17:59:56Z)
Variational Offline Multi-agent Skill Discovery [47.924414207796005]
本稿では,サブグループレベルの抽象化と時間レベルの抽象化を同時に取得し,マルチエージェントスキルを形成するための2つの新しい自動エンコーダ方式を提案する。提案手法はオフラインのマルチタスクデータに適用可能であり,検出したサブグループスキルは再学習することなく,関連するタスク間で伝達可能である。 StarCraftタスクに対する実証的な評価は、既存の階層型マルチエージェント強化学習(MARL)法よりもはるかに優れていることを示している。
論文参考訳（メタデータ） (2024-05-26T00:24:46Z)
Large Language Models for Orchestrating Bimanual Robots [19.60907949776435]
本稿では,Language-based Bimanual Orchestration (LABOR)を提案する。 NICOLヒューマノイドロボットを用いた2種類の長距離作業のシミュレーション実験により,本手法の評価を行った。
論文参考訳（メタデータ） (2024-04-02T15:08:35Z)
GeRM: A Generalist Robotic Model with Mixture-of-experts for Quadruped Robot [27.410618312830497]
本稿では,GERM(Generalist Robotic Model)を提案する。データ利用戦略を最適化するためにオフライン強化学習を利用する。我々は、マルチモーダル入力と出力動作を処理するために、トランスフォーマーベースのVLAネットワークを使用する。
論文参考訳（メタデータ） (2024-03-20T07:36:43Z)
Interactive Planning Using Large Language Models for Partially Observable Robotics Tasks [54.60571399091711]
大きな言語モデル(LLM)は、オープン語彙タスクを実行するロボットエージェントを作成することで、驚くべき成果を上げている。 LLMを用いた部分的に観測可能なタスクのための対話型計画手法を提案する。
論文参考訳（メタデータ） (2023-12-11T22:54:44Z)
Mastering Robot Manipulation with Multimodal Prompts through Pretraining and Multi-task Fine-tuning [49.92517970237088]
我々はマルチモーダルなプロンプトを理解するためにロボットを訓練する問題に取り組む。このようなタスクは、視覚と言語信号の相互接続と相補性を理解するロボットの能力にとって大きな課題となる。マルチモーダルプロンプトを用いてロボット操作を行うためのポリシーを学習する効果的なフレームワークを提案する。
論文参考訳（メタデータ） (2023-10-14T22:24:58Z)
Expanding Frozen Vision-Language Models without Retraining: Towards Improved Robot Perception [0.0]
視覚言語モデル(VLM)は、視覚的質問応答と推論タスクにおいて強力な能力を示している。本稿では,異なるモダリティの埋め込み空間を視覚埋め込み空間に整列させる手法を示す。複数モードを入力として使用すると、VLMのシーン理解が向上し、様々なタスクにおける全体的なパフォーマンスが向上することを示す。
論文参考訳（メタデータ） (2023-08-31T06:53:55Z)
Pre-training Language Model as a Multi-perspective Course Learner [103.17674402415582]
本研究では,サンプル効率のよい事前学習のためのマルチパースペクティブ・コース・ラーニング(MCL)手法を提案する。本研究では,3つの自己超越コースが,「綱引き」力学の固有の欠陥を軽減するように設計されている。本手法は,GLUEおよびSQuAD 2.0ベンチマークにおいて,ELECTRAの平均性能をそれぞれ2.8%,絶対点を3.2%向上させる。
論文参考訳（メタデータ） (2023-05-06T09:02:10Z)
Flexible Parallel Learning in Edge Scenarios: Communication, Computational and Energy Cost [20.508003076947848]
FogとIoTベースのシナリオでは、両方のアプローチを組み合わせる必要があることが多い。フレキシブル並列学習(FPL)のためのフレームワークを提案し,データとモデル並列性を両立させる。我々の実験は、最先端のディープネットワークアーキテクチャと大規模データセットを用いて行われ、FPLが計算コスト、通信オーバーヘッド、学習性能に優れたトレードオフを実現することを確認した。
論文参考訳（メタデータ） (2022-01-19T03:47:04Z)
ACNMP: Skill Transfer and Task Extrapolation through Learning from Demonstration and Reinforcement Learning via Representation Sharing [5.06461227260756]
ACNMPは、異なる形態を持つロボット間のスキル伝達を実装するために使用できる。本稿では,実際のロボット実験を通して,ACNMPの現実的適合性を示す。
論文参考訳（メタデータ） (2020-03-25T11:28:12Z)
On the interaction between supervision and self-play in emergent communication [82.290338507106]
本研究は,2つのカテゴリの学習信号と,サンプル効率の向上を目標とする学習信号の関係について検討する。人間のデータに基づく教師付き学習による初等訓練エージェントが,自己演奏が会話に優れていることが判明した。
論文参考訳（メタデータ） (2020-02-04T02:35:19Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。