Fugu-MT 論文翻訳(概要): Fast Lifelong Adaptive Inverse Reinforcement Learning from Demonstrations

論文の概要: Fast Lifelong Adaptive Inverse Reinforcement Learning from Demonstrations

arxiv url: http://arxiv.org/abs/2209.11908v7
Date: Wed, 12 Apr 2023 14:19:36 GMT
ステータス: 翻訳完了
システム内更新日: 2023-04-13 18:44:46.463057
Title: Fast Lifelong Adaptive Inverse Reinforcement Learning from Demonstrations
Title（参考訳）: 実演からの高速長寿命適応逆強化学習
Authors: Letian Chen, Sravan Jayanthi, Rohan Paleja, Daniel Martin, Viacheslav Zakharov, Matthew Gombolay
Abstract要約: 我々は,新しいLfDフレームワークであるFast Lifelong Adaptive Inverse Reinforcement Learning (FLAIR)を提案する。 FLAIRが適応性(ロボットが不均一でユーザ固有のタスク嗜好に適応する)、効率(ロボットがサンプル効率のよい適応を達成する)、スケーラビリティを実証的に検証する。 FLAIRは3つのコントロールタスクでベンチマークを上回り、ポリシーリターンが平均57%改善し、デモモデリングに必要なエピソードが平均78%減少した。
参考スコア（独自算出の注目度）: 1.6050172226234585
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Learning from Demonstration (LfD) approaches empower end-users to teach robots novel tasks via demonstrations of the desired behaviors, democratizing access to robotics. However, current LfD frameworks are not capable of fast adaptation to heterogeneous human demonstrations nor the large-scale deployment in ubiquitous robotics applications. In this paper, we propose a novel LfD framework, Fast Lifelong Adaptive Inverse Reinforcement learning (FLAIR). Our approach (1) leverages learned strategies to construct policy mixtures for fast adaptation to new demonstrations, allowing for quick end-user personalization, (2) distills common knowledge across demonstrations, achieving accurate task inference; and (3) expands its model only when needed in lifelong deployments, maintaining a concise set of prototypical strategies that can approximate all behaviors via policy mixtures. We empirically validate that FLAIR achieves adaptability (i.e., the robot adapts to heterogeneous, user-specific task preferences), efficiency (i.e., the robot achieves sample-efficient adaptation), and scalability (i.e., the model grows sublinearly with the number of demonstrations while maintaining high performance). FLAIR surpasses benchmarks across three control tasks with an average 57% improvement in policy returns and an average 78% fewer episodes required for demonstration modeling using policy mixtures. Finally, we demonstrate the success of FLAIR in a table tennis task and find users rate FLAIR as having higher task (p<.05) and personalization (p<.05) performance.
Abstract（参考訳）: 実証から学ぶ(LfD)アプローチは、エンドユーザーに対して、望ましい振る舞いのデモを通じてロボットに新しいタスクを教えること、ロボット工学へのアクセスを民主化する。しかしながら、現在のLfDフレームワークは、異種人間のデモへの迅速な適応や、ユビキタスなロボティクスアプリケーションへの大規模展開ができない。本稿では,新しいLfDフレームワークであるFast Lifelong Adaptive Inverse Reinforcement Learning (FLAIR)を提案する。提案手法は,学習した戦略を活用して,新しいデモンストレーションに迅速に適応するためのポリシミックスを構築し,エンドユーザーパーソナライズを迅速に行えるようにし,(2)デモ全体にわたって共通知識を蒸留し,正確なタスク推論を実現し,(3)生涯展開に必要な場合にのみモデルを拡張し,ポリシミックスを通じてすべての行動を近似可能な,簡潔なプロトタイプ戦略のセットを維持する。 flairが適応性(不均質なユーザ固有のタスク選択に適応するロボット)、効率性(サンプル効率の高い適応を実現するロボット)、スケーラビリティ(ハイパフォーマンスを維持しながらデモ数とサブリニアに成長するモデル)を達成することを実証的に検証する。 FLAIRは3つのコントロールタスクでベンチマークを上回り、ポリシーリターンが平均57%改善し、ポリシーミックスを使用したデモモデリングに必要なエピソードが平均78%減少した。最後に,テーブルテニスにおけるFLAIRの成功を実証し,FLAIRをより高いタスク (p<.05) とパーソナライズ性能 (p<.05) で評価した。

関連論文リスト

Action Flow Matching for Continual Robot Learning [57.698553219660376]
ロボット工学における継続的な学習は、変化する環境やタスクに常に適応できるシステムを求める。本稿では,オンラインロボット力学モデルアライメントのためのフローマッチングを利用した生成フレームワークを提案する。ロボットは,不整合モデルで探索するのではなく,行動自体を変換することで,より効率的に情報収集を行う。
論文参考訳（メタデータ） (2025-04-25T16:26:15Z)
Learning Adaptive Dexterous Grasping from Single Demonstrations [27.806856958659054]
この作業は、2つの重要な課題に対処する。人間による限られたデモンストレーションから、効率的なスキル獲得と、コンテキスト駆動のスキル選択だ。 AdaDexGraspは、スキルごとに1人の人間のデモからスキルを把握できるライブラリを学び、視覚言語モデル(VLM)を使用して最も適切なものを選択する。我々はAdaDexGraspをシミュレーションと実世界の両方の環境で評価し、RLの効率を大幅に改善し、さまざまなオブジェクト構成をまたいだ人間的な把握戦略の学習を可能にした。
論文参考訳（メタデータ） (2025-03-26T04:05:50Z)
Fine-Tuning Vision-Language-Action Models: Optimizing Speed and Success [100.226572152954]
視覚言語アクションモデル(VLA)のための最適化された微調整レシピを提案する。われわれのレシピはOpenVLAの4つのタスクスイートの平均成功率を76.5%から97.1%に引き上げ、アクション生成のスループットを26$times$に向上させた。実世界の評価において、我々の微調整のレシピにより、OpenVLAはバイマガルALOHAロボット上でデクスタラスで高周波な制御タスクをうまく実行することができる。
論文参考訳（メタデータ） (2025-02-27T00:30:29Z)
DexVLA: Vision-Language Model with Plug-In Diffusion Expert for General Robot Control [7.626715427413578]
視覚言語アクション(VLA)モデルは、一般化可能なロボットスキルを約束している。現在のVLAモデルは視覚言語モデル(VLM)コンポーネントのスケーリングに重点を置いていることが多いが、アクション空間の表現は依然として重要なボトルネックである。本稿では,複雑な長期タスクに対するVLAの効率性と一般化能力を向上する新しいフレームワークであるDexVLAを紹介する。
論文参考訳（メタデータ） (2025-02-09T11:25:56Z)
GRAPE: Generalizing Robot Policy via Preference Alignment [58.419992317452376]
GRAPE: 優先度アライメントによるロボット政策の一般化について述べる。 GRAPEはドメイン内および未確認操作タスクにおける成功率をそれぞれ51.79%、58.20%向上させる。 GRAPEは安全性や効率、衝突速度の37.44%、ロールアウト長さの11.15%といった様々な目標に合わせることができる。
論文参考訳（メタデータ） (2024-11-28T18:30:10Z)
One-Step Diffusion Policy: Fast Visuomotor Policies via Diffusion Distillation [80.71541671907426]
OneStep Diffusion Policy (OneDP)は、事前訓練された拡散政策から知識を単一ステップのアクションジェネレータに蒸留する新しいアプローチである。 OneDPはロボット制御タスクの応答時間を著しく短縮する。
論文参考訳（メタデータ） (2024-10-28T17:54:31Z)
FLaRe: Achieving Masterful and Adaptive Robot Policies with Large-Scale Reinforcement Learning Fine-Tuning [74.25049012472502]
FLaReは、堅牢な事前訓練された表現、大規模なトレーニング、勾配安定化技術を統合する大規模な強化学習フレームワークである。提案手法は,タスク完了に向けた事前訓練されたポリシーを整列し,これまで実証され,全く新しいタスクや実施状況において,最先端(SoTA)のパフォーマンスを達成する。
論文参考訳（メタデータ） (2024-09-25T03:15:17Z)
EquiBot: SIM(3)-Equivariant Diffusion Policy for Generalizable and Data Efficient Learning [36.0274770291531]
本研究では,ロボット操作タスク学習のための頑健で,データ効率が高く,汎用的なアプローチであるEquibotを提案する。提案手法は,SIM(3)等価なニューラルネットワークアーキテクチャと拡散モデルを組み合わせたものである。本手法は,5分間の人間による実演から学ぶことで,新しい物体やシーンに容易に一般化できることが示唆された。
論文参考訳（メタデータ） (2024-07-01T17:09:43Z)
Riemannian Flow Matching Policy for Robot Motion Learning [5.724027955589408]
本稿では,ロボットビジュモータポリシーの学習と合成のための新しいモデルを提案する。 RFMPはよりスムーズな行動軌跡を提供し,推論時間を大幅に短縮することを示した。
論文参考訳（メタデータ） (2024-03-15T20:48:41Z)
Meta-Learning with Self-Improving Momentum Target [72.98879709228981]
メタラーナーの性能を向上させるために,SiMT(Self-improving Momentum Target)を提案する。 SiMTはメタラーナーの時間アンサンブルから適応してターゲットモデルを生成する。我々は、SiMTが幅広いメタ学習手法と組み合わせることで、大きなパフォーマンス向上をもたらすことを示す。
論文参考訳（メタデータ） (2022-10-11T06:45:15Z)
Strategy Discovery and Mixture in Lifelong Learning from Heterogeneous Demonstration [1.2891210250935146]
実証から学ぶ(LfD)アプローチは、エンドユーザに望ましい振る舞いのデモンストレーションを通じて、ロボットに新しいタスクを教えることを促す。本稿では,異種間における共通知識を抽出する動的マルチストラテジー・リワード蒸留法(DMSRD)を提案する。当社のパーソナライズ、フェデレーション、生涯にわたるLfDアーキテクチャは、2つの継続的制御問題におけるベンチマークを上回り、ポリシーリターンは平均77%、ログリターンは42%改善しています。
論文参考訳（メタデータ） (2022-02-14T20:10:25Z)
Efficient Feature Transformations for Discriminative and Generative Continual Learning [98.10425163678082]
継続的学習のための簡易タスク特化機能マップ変換戦略を提案する。これらは新しいタスクを学習するための強力な柔軟性を提供し、ベースアーキテクチャに最小パラメータを追加することで実現される。本手法の有効性と効率を,判別(cifar-100およびimagenet-1k)および生成的タスクの一連の実験を用いて実証する。
論文参考訳（メタデータ） (2021-03-25T01:48:14Z)
Bayesian Meta-Learning for Few-Shot Policy Adaptation Across Robotic Platforms [60.59764170868101]
強化学習手法は、重要な性能を達成できるが、同じロボットプラットフォームで収集される大量のトレーニングデータを必要とする。私たちはそれを、さまざまなロボットプラットフォームで共有される共通の構造を捉えるモデルを見つけることを目標とする、数ショットのメタラーニング問題として定式化します。我々は,400個のロボットを用いて,実ロボットピッキング作業とシミュレーションリーチの枠組みを実験的に評価した。
論文参考訳（メタデータ） (2021-03-05T14:16:20Z)
Learning from Suboptimal Demonstration via Self-Supervised Reward Regression [1.2891210250935146]
実証から学ぶ(LfD)は、ロボット工学の民主化を目指す。現代のLfD技術、例えば逆強化学習(IRL)は、ユーザーが少なくとも最適なデモを提供すると仮定する。これらの手法が誤った仮定をしており、不安定で劣化した性能に悩まされていることを示す。本研究では,卓球におけるトップスピンストライクをロボットに教える物理的な実演を行い,ユーザの実演よりも32%,トップスピンが40%向上した。
論文参考訳（メタデータ） (2020-10-17T04:18:04Z)
Never Stop Learning: The Effectiveness of Fine-Tuning in Robotic Reinforcement Learning [109.77163932886413]
本稿では,ロボットによるロボット操作ポリシーを,政治以外の強化学習を通じて微調整することで,新たなバリエーションに適応する方法を示す。この適応は、タスクをゼロから学習するために必要なデータの0.2%未満を使用する。事前訓練されたポリシーを適用するという私たちのアプローチは、微調整の過程で大きなパフォーマンス向上につながります。
論文参考訳（メタデータ） (2020-04-21T17:57:04Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。