論文の概要: Imitating Unknown Policies via Exploration
- arxiv url: http://arxiv.org/abs/2008.05660v1
- Date: Thu, 13 Aug 2020 03:03:35 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-30 22:19:49.630987
- Title: Imitating Unknown Policies via Exploration
- Title(参考訳): 未知の政策を探索する
- Authors: Nathan Gavenski and Juarez Monteiro and Roger Granada and Felipe
Meneguzzi and Rodrigo C. Barros
- Abstract要約: 行動クローニング(英: Behavioral cloning)は、エージェントに専門家によるデモンストレーションを通じて行動の仕方を教える模倣学習技術である。
最近のアプローチでは、状態ペアをアクションにデコードするために、状態の完全な観測不可能なスナップショットをセルフスーパービジョンで使用しています。
これらの制約に対処するため、2段階のモデルを元のフレームワークに組み込むことで、探索を通じてラベルなしの観測から学習する。
- 参考スコア(独自算出の注目度): 18.78730427200346
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Behavioral cloning is an imitation learning technique that teaches an agent
how to behave through expert demonstrations. Recent approaches use
self-supervision of fully-observable unlabeled snapshots of the states to
decode state-pairs into actions. However, the iterative learning scheme from
these techniques are prone to getting stuck into bad local minima. We address
these limitations incorporating a two-phase model into the original framework,
which learns from unlabeled observations via exploration, substantially
improving traditional behavioral cloning by exploiting (i) a sampling mechanism
to prevent bad local minima, (ii) a sampling mechanism to improve exploration,
and (iii) self-attention modules to capture global features. The resulting
technique outperforms the previous state-of-the-art in four different
environments by a large margin.
- Abstract(参考訳): 行動クローン(behavior clone)は、エージェントに専門家のデモンストレーションを通じて行動の仕方を教える模倣学習技法である。
最近のアプローチでは、状態ペアをアクションにデコードするために、状態の完全な監視不能なスナップショットの自己スーパービジョンを使用する。
しかし、これらの手法による反復学習方式は、悪質なローカル・ミニマに陥る傾向にある。
研究を通じてラベルなしの観察から学習し,活用による従来の行動クローニングを実質的に改善する,二相モデルを原型フレームワークに組み込んだこれらの制限に対処する。
(i)悪質な局所性ミニマを防ぐためのサンプリング機構
(ii)探査を改善するためのサンプリング機構、及び
(iii)グローバルな特徴を捉える自己注意モジュール。
その結果得られた技術は、4つの異なる環境における従来の最先端技術よりも大きなマージンで優れている。
関連論文リスト
- Perturb, Attend, Detect and Localize (PADL): Robust Proactive Image Defense [5.150608040339816]
本稿では,クロスアテンションに基づく符号化と復号の対称スキームを用いて,画像固有の摂動を生成する新しいソリューションであるPADLを紹介する。
提案手法は,StarGANv2,BlendGAN,DiffAE,StableDiffusion,StableDiffusionXLなど,さまざまなアーキテクチャ設計の未確認モデルに一般化する。
論文 参考訳(メタデータ) (2024-09-26T15:16:32Z) - Exploiting Fine-Grained Prototype Distribution for Boosting Unsupervised Class Incremental Learning [13.17775851211893]
本稿では,教師なしクラスインクリメンタルラーニング(UCIL)の課題について検討する。
この問題に対処することの本質は、包括的特徴表現を効果的に捉え、未知の新しいクラスを発見することである。
本稿では,新しいクラスと既存クラスの重複を最小限に抑え,歴史的知識を保存し,破滅的な忘れの現象を緩和する戦略を提案する。
論文 参考訳(メタデータ) (2024-08-19T14:38:27Z) - Explorative Imitation Learning: A Path Signature Approach for Continuous Environments [9.416194245966022]
CILO(Continuous Imitation Learning from Observation)は、模倣学習を2つの重要な特徴で強化する新しい方法である。
CILO探索は、より多様な状態遷移を可能にし、専門家のトラジェクトリを少なくし、トレーニングのイテレーションを少なくする。
すべての環境において、すべての模倣学習手法の全体的なパフォーマンスが最も優れており、2つの環境において専門家よりも優れています。
論文 参考訳(メタデータ) (2024-07-05T20:25:39Z) - Offline Imitation Learning with Model-based Reverse Augmentation [48.64791438847236]
本稿では,自己ペースの逆拡張によるオフラインImitation Learningという,新しいモデルベースフレームワークを提案する。
具体的には、オフラインのデモからリバース・ダイナミック・モデルを構築し、専門家が観察した状態につながる軌道を効率的に生成する。
後続の強化学習法を用いて,拡張軌道から学習し,未観測状態から未観測状態へ移行する。
論文 参考訳(メタデータ) (2024-06-18T12:27:02Z) - Unsupervised Temporal Action Localization via Self-paced Incremental
Learning [57.55765505856969]
本稿では,クラスタリングとローカライズトレーニングを同時に行うための,自己ペースの漸進学習モデルを提案する。
我々は,2つの段階的なインスタンス学習戦略を設計し,ビデオ擬似ラベルの信頼性を確保する。
論文 参考訳(メタデータ) (2023-12-12T16:00:55Z) - Self-Supervised Adversarial Imitation Learning [20.248498544165184]
行動クローンは、専門家によるデモンストレーションを通じてエージェントに行動の仕方を教える。
最近のアプローチでは、状態ペアをアクションにデコードするために、状態の完全な観測不可能なスナップショットをセルフスーパービジョンで使用しています。
これまでの作業では、この問題を解決するためにゴール認識戦略を使用していました。
差別化を元のフレームワークに組み込むことによって、この制限に対処する。
論文 参考訳(メタデータ) (2023-04-21T12:12:33Z) - Toward Certified Robustness Against Real-World Distribution Shifts [65.66374339500025]
我々は、データから摂動を学ぶために生成モデルを訓練し、学習したモデルの出力に関して仕様を定義する。
この設定から生じるユニークな挑戦は、既存の検証者がシグモイドの活性化を厳密に近似できないことである。
本稿では,古典的な反例誘導的抽象的洗練の概念を活用するシグモイドアクティベーションを扱うための一般的なメタアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-06-08T04:09:13Z) - Few-shot Action Recognition with Prototype-centered Attentive Learning [88.10852114988829]
2つの新しい構成要素からなるプロトタイプ中心型注意学習(pal)モデル。
まず,従来のクエリ中心学習目標を補完するために,プロトタイプ中心のコントラスト学習損失を導入する。
第二に、PALは注意深いハイブリッド学習機構を統合しており、アウトレーヤの負の影響を最小限に抑えることができる。
論文 参考訳(メタデータ) (2021-01-20T11:48:12Z) - Augmented Behavioral Cloning from Observation [14.45796459531414]
観察からの模倣(英:imitation from Observation)とは、専門家の行動の模倣法をエージェントに教える技法である。
我々は4つの異なる環境における最先端のアプローチよりも大きなマージンで優れていることを実証的に示す。
論文 参考訳(メタデータ) (2020-04-28T13:56:36Z) - State-Only Imitation Learning for Dexterous Manipulation [63.03621861920732]
本稿では,国家のみの模倣学習について考察する。
我々は、逆ダイナミクスモデルをトレーニングし、状態のみのデモンストレーションのアクションを予測するためにそれを使用します。
我々の手法は状態-作用アプローチと同等に動作し、RL単独よりもかなり優れています。
論文 参考訳(メタデータ) (2020-04-07T17:57:20Z) - Incremental Object Detection via Meta-Learning [77.55310507917012]
本稿では,段階的タスク間の情報を最適に共有するように,モデル勾配を再形成するメタラーニング手法を提案する。
既存のメタ学習法と比較して,本手法はタスク非依存であり,オブジェクト検出のための高容量モデルに新たなクラスやスケールを段階的に追加することができる。
論文 参考訳(メタデータ) (2020-03-17T13:40:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。