Fugu-MT 論文翻訳(概要): Implicit Behavioral Cloning

論文の概要: Implicit Behavioral Cloning

arxiv url: http://arxiv.org/abs/2109.00137v1
Date: Wed, 1 Sep 2021 01:20:25 GMT
ステータス: 翻訳完了
システム内更新日: 2021-09-02 14:27:46.853863
Title: Implicit Behavioral Cloning
Title（参考訳）: 暗黙的行動的クローニング
Authors: Pete Florence, Corey Lynch, Andy Zeng, Oscar Ramirez, Ayzaan Wahid, Laura Downs, Adrian Wong, Johnny Lee, Igor Mordatch, Jonathan Tompson
Abstract要約: 教師付き政策学習を暗黙的モデルで扱うことは、一般的に使われる明示的モデルよりも平均的に優れていることを示す。ロボットポリシー学習タスクにおいて、エネルギーベースモデル(EBM)による暗黙的な行動クローニングポリシーは、しばしば共通の明示的なポリシーよりも優れていることを示す。
参考スコア（独自算出の注目度）: 30.49554953862617
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We find that across a wide range of robot policy learning scenarios, treating supervised policy learning with an implicit model generally performs better, on average, than commonly used explicit models. We present extensive experiments on this finding, and we provide both intuitive insight and theoretical arguments distinguishing the properties of implicit models compared to their explicit counterparts, particularly with respect to approximating complex, potentially discontinuous and multi-valued (set-valued) functions. On robotic policy learning tasks we show that implicit behavioral cloning policies with energy-based models (EBM) often outperform common explicit (Mean Square Error, or Mixture Density) behavioral cloning policies, including on tasks with high-dimensional action spaces and visual image inputs. We find these policies provide competitive results or outperform state-of-the-art offline reinforcement learning methods on the challenging human-expert tasks from the D4RL benchmark suite, despite using no reward information. In the real world, robots with implicit policies can learn complex and remarkably subtle behaviors on contact-rich tasks from human demonstrations, including tasks with high combinatorial complexity and tasks requiring 1mm precision.
Abstract（参考訳）: ロボットポリシー学習の幅広いシナリオにおいて、教師付きポリシー学習を暗黙のモデルで扱うことで、一般的に使用される明示的なモデルよりも平均的に、より優れたパフォーマンスが得られます。この発見について広範な実験を行い、暗黙的モデルの性質と明示的モデルとを区別する直感的な洞察と理論的議論、特に複雑で不連続で多値な(集合評価された)関数の近似について提示する。ロボットポリシー学習タスクにおいて、エネルギーベースモデル(EBM)による暗黙的な行動クローニングポリシーは、高次元の行動空間や視覚的イメージ入力を持つタスクを含む共通の行動クローニングポリシー(平均平方誤差、混合密度)より優れていることが示される。これらのポリシーは、報酬情報を使用しないにもかかわらず、D4RLベンチマークスイートからの挑戦的な人間専門家タスクに対して、競争結果を提供するか、最先端のオフライン強化学習手法より優れている。現実の世界では、暗黙のポリシーを持つロボットは、人間によるデモンストレーションから、接触の多いタスクの複雑な微妙な振る舞いを学習することができる。

関連論文リスト

COMBO-Grasp: Learning Constraint-Based Manipulation for Bimanual Occluded Grasping [56.907940167333656]
集積ロボットグルーピングは、表面衝突などの環境制約により、所望のグルーピングポーズが運動的に不可能な場所である。従来のロボット操作アプローチは、人間が一般的に使用する非包括的または双対的戦略の複雑さに苦しむ。本稿では,2つの協調ポリシーを活用する学習ベースアプローチであるCOMBO-Grasp(Constraint-based Manipulation for Bimanual Occluded Grasping)を紹介する。
論文参考訳（メタデータ） (2025-02-12T01:31:01Z)
STRAP: Robot Sub-Trajectory Retrieval for Augmented Policy Learning [8.860366821983211]
STRAPは、トレーニング済みの視覚基盤モデルと動的時間ワープを利用して、大規模なトレーニングコーパスからトラジェクトリのサブシーケンスを堅牢に検索する技術である。本研究では、事前学習された視覚基盤モデルと動的時間ワープを活用して、大規模学習コーパスからのトラジェクトリのサブシーケンスをロバストに検索するSTRAPを提案する。
論文参考訳（メタデータ） (2024-12-19T18:54:06Z)
Guided Reinforcement Learning for Robust Multi-Contact Loco-Manipulation [12.377289165111028]
強化学習(Reinforcement Learning, RL)は、各タスクに合わせた細かなマルコフ決定プロセス(MDP)設計を必要とすることが多い。本研究は,マルチコンタクトロコ操作タスクの動作合成と制御に対する体系的アプローチを提案する。モデルベース軌道から生成されたタスク毎の1つの実演のみを用いて,RLポリシーを訓練するためのタスク非依存のMDPを定義する。
論文参考訳（メタデータ） (2024-10-17T17:46:27Z)
Active Fine-Tuning of Generalist Policies [54.65568433408307]
AMF(Active Multi-task Fine-tuning)を提案する。我々は,AMFの性能保証を規則性仮定で導き,複雑・高次元環境における実験的有効性を示す。
論文参考訳（メタデータ） (2024-10-07T13:26:36Z)
Sparse Diffusion Policy: A Sparse, Reusable, and Flexible Policy for Robot Learning [61.294110816231886]
我々はスパース・リユース・フレキシブル・ポリシー、スパース・ディフュージョン・ポリシー(SDP)を導入する。 SDPは、エキスパートとスキルを選択的に活性化し、モデル全体をトレーニングすることなく、効率的でタスク固有の学習を可能にする。デモとコードはhttps://forrest-110.io/sparse_diffusion_policy/にある。
論文参考訳（メタデータ） (2024-07-01T17:59:56Z)
Dreamitate: Real-World Visuomotor Policy Learning via Video Generation [49.03287909942888]
本研究では,与えられたタスクの人間による実演の映像拡散モデルを微調整するビジュモータポリシー学習フレームワークを提案する。我々は,新しいシーンの画像に条件付きタスクの実行例を生成し,この合成された実行を直接使用してロボットを制御する。
論文参考訳（メタデータ） (2024-06-24T17:59:45Z)
Building Minimal and Reusable Causal State Abstractions for Reinforcement Learning [63.58935783293342]
Causal Bisimulation Modeling (CBM) は、各タスクのダイナミクスと報酬関数の因果関係を学習し、最小限のタスク固有の抽象化を導出する手法である。 CBMの学習された暗黙的ダイナミクスモデルは、明確なものよりも根底にある因果関係と状態抽象化を正確に識別する。
論文参考訳（メタデータ） (2024-01-23T05:43:15Z)
GAN-MPC: Training Model Predictive Controllers with Parameterized Cost Functions using Demonstrations from Non-identical Experts [14.291720751625585]
本稿では,ジェンセン-シャノン間におけるデモンストレータの状態-軌道分布のばらつきを最小限に抑えるために,GAN(Generative Adversarial Network)を提案する。我々はDeepMind Controlスイートの様々なシミュレーションロボットタスクに対するアプローチを評価した。
論文参考訳（メタデータ） (2023-05-30T15:15:30Z)
Information Maximizing Curriculum: A Curriculum-Based Approach for Imitating Diverse Skills [14.685043874797742]
本稿では,各データポイントに重みを割り当て,表現可能なデータに特化するようにモデルに促すカリキュラムベースのアプローチを提案する。すべてのモードをカバーし、多様な振る舞いを可能にするため、我々は、各ミックスコンポーネントが学習のためのトレーニングデータの独自のサブセットを選択する、専門家(MoE)ポリシーの混合にアプローチを拡張します。データセットの完全なカバレッジを実現するために,新たな最大エントロピーに基づく目標を提案する。
論文参考訳（メタデータ） (2023-03-27T16:02:50Z)
Learning Category-Level Generalizable Object Manipulation Policy via Generative Adversarial Self-Imitation Learning from Demonstrations [14.001076951265558]
汎用的なオブジェクト操作スキルは、インテリジェントロボットが現実世界の複雑なシーンで働くために不可欠である。本研究では,このカテゴリレベルのオブジェクト操作ポリシー学習問題に対して,タスク非依存の手法で模倣学習を行うことで対処する。本稿では, 実演から生成的対人自己イメージ学習, 差別化の進行的成長, エキスパートバッファのインスタンスバランスなど, 汎用的ながら重要な手法を提案する。
論文参考訳（メタデータ） (2022-03-04T02:52:02Z)
IQ-Learn: Inverse soft-Q Learning for Imitation [95.06031307730245]
少数の専門家データからの模倣学習は、複雑な力学を持つ高次元環境では困難である。行動クローニングは、実装の単純さと安定した収束性のために広く使われている単純な方法である。本稿では,1つのQ-関数を学習することで,対向学習を回避する動的適応型ILを提案する。
論文参考訳（メタデータ） (2021-06-23T03:43:10Z)
Policy Information Capacity: Information-Theoretic Measure for Task Complexity in Deep Reinforcement Learning [83.66080019570461]
課題の難易度について,環境にとらわれない,アルゴリズムにとらわれない2つの定量的指標を提案する。これらの指標は、様々な代替案よりも、正規化タスク可解性スコアとの相関が高いことを示す。これらのメトリクスは、鍵設計パラメータの高速かつ計算効率の良い最適化にも使用できる。
論文参考訳（メタデータ） (2021-03-23T17:49:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。