論文の概要: Behavior Cloning in OpenAI using Case Based Reasoning
- arxiv url: http://arxiv.org/abs/2002.11197v1
- Date: Sun, 23 Feb 2020 22:41:56 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-29 09:09:29.369861
- Title: Behavior Cloning in OpenAI using Case Based Reasoning
- Title(参考訳): 事例ベース推論を用いたOpenAIにおける行動クローニング
- Authors: Chad Peters, Babak Esfandiari, Mohamad Zalat and Robert West
- Abstract要約: 観察から学ぶ(LfO)とは、専門家の振る舞いを記録し、記録されたデータを用いて必要な振る舞いを生成することによってソフトウェアエージェントを構築するアプローチである。
jLOAFはケースベースの推論を使用してLfOを実現するプラットフォームである。
- 参考スコア(独自算出の注目度): 23.15182320149672
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning from Observation (LfO), also known as Behavioral Cloning, is an
approach for building software agents by recording the behavior of an expert
(human or artificial) and using the recorded data to generate the required
behavior. jLOAF is a platform that uses Case-Based Reasoning to achieve LfO. In
this paper we interface jLOAF with the popular OpenAI Gym environment. Our
experimental results show how our approach can be used to provide a baseline
for comparison in this domain, as well as identify the strengths and weaknesses
when dealing with environmental complexity.
- Abstract(参考訳): learning from observation (lfo) は、専門家(人間または人工)の行動を記録し、記録されたデータを用いて必要な行動を生成することにより、ソフトウェアエージェントを構築するためのアプローチである。
jLOAFはケースベースの推論を使用してLfOを実現するプラットフォームである。
本稿では、jLOAFと人気のあるOpenAI Gym環境をインターフェースする。
実験結果は,この領域における比較基準と,環境複雑性を扱う際の強みと弱みの同定に,我々のアプローチがどう役立つかを示す。
関連論文リスト
- RLIF: Interactive Imitation Learning as Reinforcement Learning [61.14928315004026]
オフ・ポリティクス強化学習は、インタラクティブな模倣学習よりも近いが、潜在的にさらに実践的な仮定の下で、パフォーマンスを向上させることができる。
提案手法は,ユーザ介入信号を用いた強化学習を報奨として利用する。
このことは、インタラクティブな模倣学習において介入する専門家がほぼ最適であるべきだという仮定を緩和し、アルゴリズムが潜在的に最適でない人間の専門家よりも改善される行動を学ぶことを可能にする。
論文 参考訳(メタデータ) (2023-11-21T21:05:21Z) - FSAR: Federated Skeleton-based Action Recognition with Adaptive Topology
Structure and Knowledge Distillation [23.0771949978506]
既存の骨格に基づく行動認識手法は、典型的には集中学習パラダイムに従っており、人間関連のビデオを公開する際にプライバシー上の懸念を生じさせる。
我々は,局所的な機密データにアクセスせずにグローバルに一般化されたモデルを構築することのできる,新しいフェデレート・骨格に基づく行動認識(FSAR)パラダイムを導入する。
論文 参考訳(メタデータ) (2023-06-19T16:18:14Z) - An Empirical Evaluation of Federated Contextual Bandit Algorithms [27.275089644378376]
フェデレートされた学習は、ユーザが関心のあるアプリケーションと対話するときに生成される暗黙の信号を使って行うことができる。
我々は,フェデレートされた設定のための集中的な設定から,顕著な文脈的帯域幅アルゴリズムの変種を開発する。
本実験は, 探索・探索のトレードオフのバランスをとる上で, シンプルで一般的なソフトマックスの驚くべき有効性を明らかにした。
論文 参考訳(メタデータ) (2023-03-17T19:22:30Z) - Feature Correlation-guided Knowledge Transfer for Federated
Self-supervised Learning [19.505644178449046]
特徴相関に基づくアグリゲーション(FedFoA)を用いたフェデレーション型自己教師型学習法を提案する。
私たちの洞察は、機能相関を利用して、特徴マッピングを整列し、ローカルトレーニングプロセス中にクライアント間でローカルモデルの更新を校正することにあります。
我々はFedFoAがモデルに依存しないトレーニングフレームワークであることを証明する。
論文 参考訳(メタデータ) (2022-11-14T13:59:50Z) - Cluster-level pseudo-labelling for source-free cross-domain facial
expression recognition [94.56304526014875]
表情認識のためのSFUDA法を提案する。
本手法は,自己教師付き事前学習を利用して,対象データから優れた特徴表現を学習する。
提案手法の有効性を4つの適応方式で検証し,FERに適用した場合,既存のSFUDA法より一貫して優れていることを示す。
論文 参考訳(メタデータ) (2022-10-11T08:24:50Z) - FedControl: When Control Theory Meets Federated Learning [63.96013144017572]
ローカル学習のパフォーマンスと進化に応じてクライアントのコントリビューションを区別する。
この手法は制御理論から着想を得ており、その分類性能はIIDフレームワークで広く評価されている。
論文 参考訳(メタデータ) (2022-05-27T21:05:52Z) - Let's Go to the Alien Zoo: Introducing an Experimental Framework to
Study Usability of Counterfactual Explanations for Machine Learning [6.883906273999368]
反事実的説明(CFEs)は、心理的に根拠づけられたアプローチとして、ポストホックな説明を生み出している。
私たちは、エンゲージメントがあり、Webベースでゲームに触発された実験的なフレームワークであるAlien Zooを紹介します。
概念実証として,本手法の有効性と実用性を示す。
論文 参考訳(メタデータ) (2022-05-06T17:57:05Z) - Confounder Identification-free Causal Visual Feature Learning [84.28462256571822]
本稿では,創始者を特定する必要性を排除した,創始者同定自由因果視覚特徴学習(CICF)手法を提案する。
CICFは、フロントドア基準に基づいて異なるサンプル間の介入をモデル化し、インスタンスレベルの介入に対するグローバルスコープ干渉効果を近似する。
我々は,CICFと一般的なメタラーニング戦略MAMLの関係を明らかにするとともに,MAMLが理論的観点から機能する理由を解釈する。
論文 参考訳(メタデータ) (2021-11-26T10:57:47Z) - DEALIO: Data-Efficient Adversarial Learning for Imitation from
Observation [57.358212277226315]
観察ifoからの模倣学習において、学習エージェントは、実演者の生成した制御信号にアクセスせずに、実演行動の観察のみを用いて実演エージェントを模倣しようとする。
近年、逆模倣学習に基づく手法は、ifO問題に対する最先端のパフォーマンスをもたらすが、データ非効率でモデルなしの強化学習アルゴリズムに依存するため、サンプルの複雑さに悩まされることが多い。
この問題は、サンプルの収集が時間、エネルギー、およびリスクの面で高いコストを被る可能性がある現実世界の設定に展開することは非現実的です。
よりデータ効率の高いifOアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-31T23:46:32Z) - Mining Implicit Entity Preference from User-Item Interaction Data for
Knowledge Graph Completion via Adversarial Learning [82.46332224556257]
本稿では,知識グラフ補完タスクにおけるユーザインタラクションデータを活用することで,新たな逆学習手法を提案する。
我々のジェネレータはユーザインタラクションデータから分離されており、識別器の性能を向上させるのに役立ちます。
利用者の暗黙の実体的嗜好を発見するために,グラフニューラルネットワークに基づく精巧な協調学習アルゴリズムを設計する。
論文 参考訳(メタデータ) (2020-03-28T05:47:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。