論文の概要: Self-Supervised Adversarial Imitation Learning
- arxiv url: http://arxiv.org/abs/2304.10914v1
- Date: Fri, 21 Apr 2023 12:12:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-24 14:53:23.939036
- Title: Self-Supervised Adversarial Imitation Learning
- Title(参考訳): 自己監督型対人模倣学習
- Authors: Juarez Monteiro, Nathan Gavenski, Felipe Meneguzzi and Rodrigo C.
Barros
- Abstract要約: 行動クローンは、専門家によるデモンストレーションを通じてエージェントに行動の仕方を教える。
最近のアプローチでは、状態ペアをアクションにデコードするために、状態の完全な観測不可能なスナップショットをセルフスーパービジョンで使用しています。
これまでの作業では、この問題を解決するためにゴール認識戦略を使用していました。
差別化を元のフレームワークに組み込むことによって、この制限に対処する。
- 参考スコア(独自算出の注目度): 20.248498544165184
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Behavioural cloning is an imitation learning technique that teaches an agent
how to behave via expert demonstrations. Recent approaches use self-supervision
of fully-observable unlabelled snapshots of the states to decode state pairs
into actions. However, the iterative learning scheme employed by these
techniques is prone to get trapped into bad local minima. Previous work uses
goal-aware strategies to solve this issue. However, this requires manual
intervention to verify whether an agent has reached its goal. We address this
limitation by incorporating a discriminator into the original framework,
offering two key advantages and directly solving a learning problem previous
work had. First, it disposes of the manual intervention requirement. Second, it
helps in learning by guiding function approximation based on the state
transition of the expert's trajectories. Third, the discriminator solves a
learning issue commonly present in the policy model, which is to sometimes
perform a `no action' within the environment until the agent finally halts.
- Abstract(参考訳): 行動クローン(Behavioural cloning)は、エージェントに専門家によるデモンストレーションを通じて行動を教える模倣学習技術である。
最近のアプローチでは、状態ペアをアクションにデコードするために、完全な監視不能な状態スナップショットの自己スーパービジョンを使用する。
しかし,これらの手法を応用した反復学習方式は,悪質な局所性ミニマに陥りやすい。
以前の作業では、この問題を解決するためにゴールアウェア戦略を使用している。
しかし、エージェントがその目標に達したかどうかを確認するには手動で介入する必要がある。
差別化を元のフレームワークに組み込むことによって、この制限に対処し、2つの重要な利点を提供し、以前の作業が抱えていた学習問題を直接解決する。
第一に、手動介入要件を廃止する。
第二に、専門家の軌跡の状態遷移に基づいて関数近似を導くことで学習を支援する。
第3に、判別器はポリシーモデルに共通する学習問題を解決し、エージェントが最終的に停止するまで、時には環境内で「ノーアクション」を行う。
関連論文リスト
- Efficient Active Imitation Learning with Random Network Distillation [8.517915878774756]
Random Network Distillation DAgger (RND-DAgger) は、新しいアクティブな模倣学習法である。
学習した状態ベースのアウト・オブ・ディストリビューション(out-of-distribution)手段を使用して介入をトリガーすることで、専門家によるクエリを制限します。
RND-DAggerを従来の模倣学習や3Dビデオゲームやロボット作業におけるアクティブなアプローチに対して評価する。
論文 参考訳(メタデータ) (2024-11-04T08:50:52Z) - Agent-Aware Training for Agent-Agnostic Action Advising in Deep
Reinforcement Learning [37.70609910232786]
深層強化学習(DRL)における非効率サンプリングの課題を軽減するため、専門家教員からの補助的指導を活用するための行動アドバイス
従来のエージェント特異的な行動アドバイス法はエージェント自体の不完全性によって妨げられ、エージェント非依存的なアプローチでは学習エージェントへの適応性が制限される。
本稿では,エージェント・アウェア・trAining yet Agent-Agnostic Action Advising (A7) という新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2023-11-28T14:09:43Z) - A Study of Forward-Forward Algorithm for Self-Supervised Learning [65.268245109828]
本研究では,自己指導型表現学習におけるフォワードとバックプロパゲーションのパフォーマンスについて検討する。
我々の主な発見は、フォワードフォワードアルゴリズムが(自己教師付き)トレーニング中にバックプロパゲーションに相容れないように機能するのに対し、転送性能は研究されたすべての設定において著しく遅れていることである。
論文 参考訳(メタデータ) (2023-09-21T10:14:53Z) - Let Offline RL Flow: Training Conservative Agents in the Latent Space of
Normalizing Flows [58.762959061522736]
オフライン強化学習は、追加の環境相互作用なしに、事前に記録された、固定されたデータセット上でポリシーをトレーニングすることを目的としている。
我々は、最近、潜在行動空間における学習ポリシーを基礎として、生成モデルの構築に正規化フローの特別な形式を用いる。
提案手法が最近提案したアルゴリズムより優れていることを示すため,様々な移動タスクとナビゲーションタスクについて評価を行った。
論文 参考訳(メタデータ) (2022-11-20T21:57:10Z) - Chain of Thought Imitation with Procedure Cloning [129.62135987416164]
本稿では,一連の専門家計算を模倣するために,教師付きシーケンス予測を適用したプロシージャクローニングを提案する。
本研究では、専門家の行動の中間計算を模倣することで、プロシージャのクローン化により、未知の環境構成に顕著な一般化を示すポリシーを学習できることを示す。
論文 参考訳(メタデータ) (2022-05-22T13:14:09Z) - Domain-Robust Visual Imitation Learning with Mutual Information
Constraints [0.0]
Disentangling Generative Adversarial Imitation Learning (DisentanGAIL)と呼ばれる新しいアルゴリズムを導入する。
本アルゴリズムは,タスクを実行する専門家の高次元観察から自律エージェントを直接学習することを可能にする。
論文 参考訳(メタデータ) (2021-03-08T21:18:58Z) - Human-in-the-Loop Imitation Learning using Remote Teleoperation [72.2847988686463]
6-DoF操作設定に合わせたデータ収集システムを構築します。
システムによって収集された新しいデータに基づいて,ポリシーを反復的にトレーニングするアルゴリズムを開発した。
介入型システムで収集したデータに基づいて訓練されたエージェントと、非介入型デモ参加者が収集した同等数のサンプルで訓練されたアルゴリズムを上回るエージェントを実証する。
論文 参考訳(メタデータ) (2020-12-12T05:30:35Z) - SAFARI: Safe and Active Robot Imitation Learning with Imagination [16.967930721746676]
SAFARIは、新しい能動的学習制御アルゴリズムである。
これにより、エージェントは、これらのアウト・オブ・ディストリビューションの状況が満たされたときに、さらに人間のデモを要求することができる。
本手法により, エージェントが自律的に障害を迅速かつ安全に予測できることを示す。
論文 参考訳(メタデータ) (2020-11-18T23:43:59Z) - Combining Self-Training and Self-Supervised Learning for Unsupervised
Disfluency Detection [80.68446022994492]
本研究では,未ラベルテキストコーパスを扱える教師なし学習パラダイムについて検討する。
我々のモデルは、自己学習の考え方を拡張する半教師あり学習アプローチである、雑音学習(Noisy Student Training)に関する最近の研究に基づいている。
論文 参考訳(メタデータ) (2020-10-29T05:29:26Z) - Imitating Unknown Policies via Exploration [18.78730427200346]
行動クローニング(英: Behavioral cloning)は、エージェントに専門家によるデモンストレーションを通じて行動の仕方を教える模倣学習技術である。
最近のアプローチでは、状態ペアをアクションにデコードするために、状態の完全な観測不可能なスナップショットをセルフスーパービジョンで使用しています。
これらの制約に対処するため、2段階のモデルを元のフレームワークに組み込むことで、探索を通じてラベルなしの観測から学習する。
論文 参考訳(メタデータ) (2020-08-13T03:03:35Z) - Safe Reinforcement Learning via Curriculum Induction [94.67835258431202]
安全クリティカルなアプリケーションでは、自律エージェントはミスが非常にコストがかかる環境で学ぶ必要がある。
既存の安全な強化学習手法は、エージェントが危険な状況を避けるために、事前にエージェントを頼りにしている。
本稿では,エージェントが自動インストラクターの指導の下で学習する,人間の指導にインスパイアされた代替手法を提案する。
論文 参考訳(メタデータ) (2020-06-22T10:48:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。