Fugu-MT 論文翻訳(概要): Efficiently Learning Recoveries from Failures Under Partial Observability

論文の概要: Efficiently Learning Recoveries from Failures Under Partial Observability

arxiv url: http://arxiv.org/abs/2209.13605v1
Date: Tue, 27 Sep 2022 18:00:55 GMT
ステータス: 翻訳完了
システム内更新日: 2022-09-29 16:28:35.937291
Title: Efficiently Learning Recoveries from Failures Under Partial Observability
Title（参考訳）: 部分的可観測性下での障害から回復を効率的に学ぶ
Authors: Shivam Vats, Maxim Likhachev, Oliver Kroemer
Abstract要約: 本稿では,サンプル効率のよい操作戦略を構築するための一般的な手法を提案する。当社のアプローチは,現在の戦略の障害モードを最初に発見することで,ロバストネスを漸進的に向上します。提案手法は, ドア開きの回復スキルを学習し, シミュレーションと実際のロボットを用いて, 微調整をほとんど行わずに評価する。
参考スコア（独自算出の注目度）: 31.891933360081342
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Operating under real world conditions is challenging due to the possibility of a wide range of failures induced by partial observability. In relatively benign settings, such failures can be overcome by retrying or executing one of a small number of hand-engineered recovery strategies. By contrast, contact-rich sequential manipulation tasks, like opening doors and assembling furniture, are not amenable to exhaustive hand-engineering. To address this issue, we present a general approach for robustifying manipulation strategies in a sample-efficient manner. Our approach incrementally improves robustness by first discovering the failure modes of the current strategy via exploration in simulation and then learning additional recovery skills to handle these failures. To ensure efficient learning, we propose an online algorithm Value Upper Confidence Limit (Value-UCL) that selects what failure modes to prioritize and which state to recover to such that the expected performance improves maximally in every training episode. We use our approach to learn recovery skills for door-opening and evaluate them both in simulation and on a real robot with little fine-tuning. Compared to open-loop execution, our experiments show that even a limited amount of recovery learning improves task success substantially from 71\% to 92.4\% in simulation and from 75\% to 90\% on a real robot.
Abstract（参考訳）: 実世界の条件下での運用は、部分的な可観測性によって引き起こされる幅広い障害の可能性のために困難である。比較的良質な設定では、このような障害は少数の手動リカバリ戦略の1つを再試行または実行することで克服することができる。対照的に、ドアの開閉や家具の組み立てなど、接触の多いシーケンシャルな操作タスクは、徹底的なハンドエンジニアリングには適さない。この問題に対処するため,サンプル効率のよい操作戦略を構築するための一般的な手法を提案する。当社のアプローチでは,シミュレーションの探索を通じて現在の戦略の障害モードを発見し,これらの障害に対処する新たな回復スキルを学習することで,ロバストネスを漸進的に向上する。そこで本研究では,学習の効率を高めるために,どの障害モードを優先するか,どの状態から回復するかを選択するオンラインアルゴリズムであるhigher confidence limit(value-ucl)を提案する。提案手法は, ドア開きの回復スキルを学習し, シミュレーションと実際のロボットを用いて, 微調整の少ない評価を行う。オープンループ実行と比較して,リカバリ学習が限られた場合であっても,シミュレーションでは71\%から92.4\%,実際のロボットでは75\%から90\%のタスク成功が著しく向上することが示された。

関連論文リスト

RLVMR: Reinforcement Learning with Verifiable Meta-Reasoning Rewards for Robust Long-Horizon Agents [43.806220882212386]
RLVMRは、検証可能なメタ推論の振る舞いに報いることによって、密集したプロセスレベルの監視をエンドツーエンドのRLに統合する。挑戦的なALFWorldとScienceWorldのベンチマークでは、RLVMRが新たな最先端の結果を達成している。
論文参考訳（メタデータ） (2025-07-30T17:00:48Z)
Exploring Expert Failures Improves LLM Agent Tuning [74.0772570556016]
本稿では,失敗した専門家の軌道から有益な行動を識別する専門的失敗の探索(EEF)を提案する。 EEFは、未解決のいくつかのサブタスクをうまく解決し、エージェントチューニング性能を改善する。
論文参考訳（メタデータ） (2025-04-17T17:53:54Z)
Next-Future: Sample-Efficient Policy Learning for Robotic-Arm Tasks [6.991281327290525]
我々は,単一ステップ遷移に対する報酬に焦点を当てた新しいリプレイ戦略「Next-Future」を紹介する。このアプローチは、マルチゴールマルコフ決定過程の学習におけるサンプル効率と精度を大幅に向上させる。
論文参考訳（メタデータ） (2025-04-15T14:45:51Z)
Sim-to-Real Reinforcement Learning for Vision-Based Dexterous Manipulation on Humanoids [61.033745979145536]
本研究は,ヒューマノイドの具体化におけるコンタクトリッチな操作タスクの集合を解決するために,強化学習を適用する上で重要な課題について検討する。私たちの主なコントリビューションは、シミュレーション環境を現実世界に近づける自動リアルタイムチューニングモジュールです。本研究は,3つのヒューマノイド・デキスタラス・オペレーティング・タスクにおいて有望な結果を示し,それぞれのテクニックについてアブレーション研究を行った。
論文参考訳（メタデータ） (2025-02-27T18:59:52Z)
RecoveryChaining: Learning Local Recovery Policies for Robust Manipulation [41.38308130776887]
本稿では,ロボットの回復方針を個別に学習するために階層的強化学習を提案する。回復方針は、感覚観測に基づいて故障が検出されたときに起動され、ロボットをタスクを完了できる状態に導こうとする。提案手法は,3段階の多段階操作タスクにおいて,低報酬で評価し,ベースラインで学習したものよりもはるかに堅牢な回復ポリシーを学習する。
論文参考訳（メタデータ） (2024-10-17T19:14:43Z)
FLaRe: Achieving Masterful and Adaptive Robot Policies with Large-Scale Reinforcement Learning Fine-Tuning [74.25049012472502]
FLaReは、堅牢な事前訓練された表現、大規模なトレーニング、勾配安定化技術を統合する大規模な強化学習フレームワークである。提案手法は,タスク完了に向けた事前訓練されたポリシーを整列し,これまで実証され,全く新しいタスクや実施状況において,最先端(SoTA)のパフォーマンスを達成する。
論文参考訳（メタデータ） (2024-09-25T03:15:17Z)
Unlearning with Control: Assessing Real-world Utility for Large Language Model Unlearning [97.2995389188179]
最近の研究は、勾配上昇(GA)を通した大規模言語モデル(LLM)の未学習にアプローチし始めている。その単純さと効率性にもかかわらず、我々はGAベースの手法が過剰な未学習の傾向に直面することを示唆している。過剰な未学習の度合いを制御できるいくつかの制御手法を提案する。
論文参考訳（メタデータ） (2024-06-13T14:41:00Z)
Adaptable Recovery Behaviors in Robotics: A Behavior Trees and Motion Generators(BTMG) Approach for Failure Management [0.0]
本稿では,リカバリ動作を適応可能なロボット技術としてモデル化し,行動木と動作生成器(BTMG)フレームワークをポリシー表現に活用する手法を提案する。我々は,ペグ・イン・ア・ホール作業における一連の段階的なシナリオを通じて方法論を評価し,ロボットの協調作業における作業効率の向上とタスク成功率の向上に対するアプローチの有効性を実証した。
論文参考訳（メタデータ） (2024-04-09T08:56:43Z)
Towards Compute-Optimal Transfer Learning [82.88829463290041]
我々は、事前訓練されたモデルのゼロショット構造化プルーニングにより、性能を最小限に抑えて計算効率を向上させることができると主張している。その結果,事前訓練されたモデルの畳み込み畳み込みフィルタは,低計算条件下で20%以上の性能向上をもたらす可能性が示唆された。
論文参考訳（メタデータ） (2023-04-25T21:49:09Z)
Asking for Help: Failure Prediction in Behavioral Cloning through Value Approximation [8.993237527071756]
本稿では,行動クローン化政策と協調して,状態値関数を学習する手法である行動クローン値近似(BCVA)を導入する。我々は,ラッチドア開口の移動操作課題にBCVAを適用し,BCVAの有効性を実証した。
論文参考訳（メタデータ） (2023-02-08T20:56:23Z)
Anchored Learning for On-the-Fly Adaptation -- Extended Technical Report [45.123633153460034]
本研究は「アンカー批評家」であり, 実空間を横断する強化学習(RL)エージェントの堅牢性を高めるための新たな戦略である。そこでは、政策が頻繁に遭遇する状態に対して高い報酬を維持するが、稀で重要なシナリオではパフォーマンスを失う。提案手法は,シム・トゥ・シム・ジム・タスクやシム・トゥ・リアルシナリオにおいて,制御可能な安定飛行を維持しつつ,ほぼ50%の消費電力削減を実現することができることを示す。
論文参考訳（メタデータ） (2023-01-17T16:16:53Z)
Persistent Reinforcement Learning via Subgoal Curricula [114.83989499740193]
VaPRL(Value-accelerated Persistent Reinforcement Learning)は、初期状態のカリキュラムを生成する。 VaPRLは、エピソード強化学習と比較して、3桁の精度で必要な介入を減らす。
論文参考訳（メタデータ） (2021-07-27T16:39:45Z)
MURAL: Meta-Learning Uncertainty-Aware Rewards for Outcome-Driven Reinforcement Learning [65.52675802289775]
本研究では,不確かさを意識した分類器が,強化学習の難しさを解消できることを示す。正規化最大度(NML)分布の計算法を提案する。得られたアルゴリズムは、カウントベースの探索法と、報酬関数を学習するための先行アルゴリズムの両方に多くの興味深い関係を持つことを示す。
論文参考訳（メタデータ） (2021-07-15T08:19:57Z)
Reparameterized Variational Divergence Minimization for Stable Imitation [57.06909373038396]
確率的発散の選択における変動が、より高性能なILOアルゴリズムをもたらす可能性について検討する。本稿では,提案する$f$-divergence最小化フレームワークの課題を軽減するために,逆模倣学習のための再パラメータ化手法を提案する。経験的に、我々の設計選択は、ベースラインアプローチより優れ、低次元連続制御タスクにおける専門家のパフォーマンスとより密に適合するIOOアルゴリズムを許容することを示した。
論文参考訳（メタデータ） (2020-06-18T19:04:09Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。