論文の概要: Behavior Cloning in OpenAI using Case Based Reasoning
- arxiv url: http://arxiv.org/abs/2002.11197v1
- Date: Sun, 23 Feb 2020 22:41:56 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-29 09:09:29.369861
- Title: Behavior Cloning in OpenAI using Case Based Reasoning
- Title(参考訳): 事例ベース推論を用いたOpenAIにおける行動クローニング
- Authors: Chad Peters, Babak Esfandiari, Mohamad Zalat and Robert West
- Abstract要約: 観察から学ぶ(LfO)とは、専門家の振る舞いを記録し、記録されたデータを用いて必要な振る舞いを生成することによってソフトウェアエージェントを構築するアプローチである。
jLOAFはケースベースの推論を使用してLfOを実現するプラットフォームである。
- 参考スコア(独自算出の注目度): 23.15182320149672
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning from Observation (LfO), also known as Behavioral Cloning, is an
approach for building software agents by recording the behavior of an expert
(human or artificial) and using the recorded data to generate the required
behavior. jLOAF is a platform that uses Case-Based Reasoning to achieve LfO. In
this paper we interface jLOAF with the popular OpenAI Gym environment. Our
experimental results show how our approach can be used to provide a baseline
for comparison in this domain, as well as identify the strengths and weaknesses
when dealing with environmental complexity.
- Abstract(参考訳): learning from observation (lfo) は、専門家(人間または人工)の行動を記録し、記録されたデータを用いて必要な行動を生成することにより、ソフトウェアエージェントを構築するためのアプローチである。
jLOAFはケースベースの推論を使用してLfOを実現するプラットフォームである。
本稿では、jLOAFと人気のあるOpenAI Gym環境をインターフェースする。
実験結果は,この領域における比較基準と,環境複雑性を扱う際の強みと弱みの同定に,我々のアプローチがどう役立つかを示す。
関連論文リスト
- Geospatial Trajectory Generation via Efficient Abduction: Deployment for Independent Testing [1.8877926393541125]
情報(A*)探索により,移動軌跡を効率的に吸収できることが示される。
私たちはまた、正確な結果を提供するだけでなく、非常に大きなシナリオにもスケールできることを示す独自の実験について報告します。
論文 参考訳(メタデータ) (2024-07-08T23:11:47Z) - ReCaLL: Membership Inference via Relative Conditional Log-Likelihoods [56.073335779595475]
ReCaLL (Relative Conditional Log-Likelihood) という新しいメンバーシップ推論攻撃(MIA)を提案する。
ReCaLLは、ターゲットデータポイントを非メンバーコンテキストでプレフィックスする場合、条件付きログライクな状態の相対的変化を調べる。
我々は総合的な実験を行い、ReCaLLがWikiMIAデータセット上で最先端のパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2024-06-23T00:23:13Z) - Can LLMs Generate Human-Like Wayfinding Instructions? Towards Platform-Agnostic Embodied Instruction Synthesis [51.04181562775778]
本稿では,ロボットエージェントの「ウェイフィンディング指示」を自動的に合成する手法を提案する。
提案アルゴリズムは,LLMの条件付けにコンテキスト内学習を用い,わずかな参照を用いて命令を生成する。
我々は,Matterport3D,AI Habitat,ThreeDWorldなど,複数のシミュレーションプラットフォームにアプローチを実装した。
論文 参考訳(メタデータ) (2024-03-18T05:38:07Z) - RLIF: Interactive Imitation Learning as Reinforcement Learning [56.997263135104504]
我々は,対話型模倣学習と類似するが,さらに実践的な仮定の下で,非政治強化学習によってパフォーマンスが向上できることを実証する。
提案手法は,ユーザ介入信号を用いた強化学習を報奨として利用する。
このことは、インタラクティブな模倣学習において介入する専門家がほぼ最適であるべきだという仮定を緩和し、アルゴリズムが潜在的に最適でない人間の専門家よりも改善される行動を学ぶことを可能にする。
論文 参考訳(メタデータ) (2023-11-21T21:05:21Z) - FSAR: Federated Skeleton-based Action Recognition with Adaptive Topology
Structure and Knowledge Distillation [23.0771949978506]
既存の骨格に基づく行動認識手法は、典型的には集中学習パラダイムに従っており、人間関連のビデオを公開する際にプライバシー上の懸念を生じさせる。
我々は,局所的な機密データにアクセスせずにグローバルに一般化されたモデルを構築することのできる,新しいフェデレート・骨格に基づく行動認識(FSAR)パラダイムを導入する。
論文 参考訳(メタデータ) (2023-06-19T16:18:14Z) - An Empirical Evaluation of Federated Contextual Bandit Algorithms [27.275089644378376]
フェデレートされた学習は、ユーザが関心のあるアプリケーションと対話するときに生成される暗黙の信号を使って行うことができる。
我々は,フェデレートされた設定のための集中的な設定から,顕著な文脈的帯域幅アルゴリズムの変種を開発する。
本実験は, 探索・探索のトレードオフのバランスをとる上で, シンプルで一般的なソフトマックスの驚くべき有効性を明らかにした。
論文 参考訳(メタデータ) (2023-03-17T19:22:30Z) - Feature Correlation-guided Knowledge Transfer for Federated
Self-supervised Learning [19.505644178449046]
特徴相関に基づくアグリゲーション(FedFoA)を用いたフェデレーション型自己教師型学習法を提案する。
私たちの洞察は、機能相関を利用して、特徴マッピングを整列し、ローカルトレーニングプロセス中にクライアント間でローカルモデルの更新を校正することにあります。
我々はFedFoAがモデルに依存しないトレーニングフレームワークであることを証明する。
論文 参考訳(メタデータ) (2022-11-14T13:59:50Z) - Cluster-level pseudo-labelling for source-free cross-domain facial
expression recognition [94.56304526014875]
表情認識のためのSFUDA法を提案する。
本手法は,自己教師付き事前学習を利用して,対象データから優れた特徴表現を学習する。
提案手法の有効性を4つの適応方式で検証し,FERに適用した場合,既存のSFUDA法より一貫して優れていることを示す。
論文 参考訳(メタデータ) (2022-10-11T08:24:50Z) - Let's Go to the Alien Zoo: Introducing an Experimental Framework to
Study Usability of Counterfactual Explanations for Machine Learning [6.883906273999368]
反事実的説明(CFEs)は、心理的に根拠づけられたアプローチとして、ポストホックな説明を生み出している。
私たちは、エンゲージメントがあり、Webベースでゲームに触発された実験的なフレームワークであるAlien Zooを紹介します。
概念実証として,本手法の有効性と実用性を示す。
論文 参考訳(メタデータ) (2022-05-06T17:57:05Z) - Confounder Identification-free Causal Visual Feature Learning [84.28462256571822]
本稿では,創始者を特定する必要性を排除した,創始者同定自由因果視覚特徴学習(CICF)手法を提案する。
CICFは、フロントドア基準に基づいて異なるサンプル間の介入をモデル化し、インスタンスレベルの介入に対するグローバルスコープ干渉効果を近似する。
我々は,CICFと一般的なメタラーニング戦略MAMLの関係を明らかにするとともに,MAMLが理論的観点から機能する理由を解釈する。
論文 参考訳(メタデータ) (2021-11-26T10:57:47Z) - DEALIO: Data-Efficient Adversarial Learning for Imitation from
Observation [57.358212277226315]
観察ifoからの模倣学習において、学習エージェントは、実演者の生成した制御信号にアクセスせずに、実演行動の観察のみを用いて実演エージェントを模倣しようとする。
近年、逆模倣学習に基づく手法は、ifO問題に対する最先端のパフォーマンスをもたらすが、データ非効率でモデルなしの強化学習アルゴリズムに依存するため、サンプルの複雑さに悩まされることが多い。
この問題は、サンプルの収集が時間、エネルギー、およびリスクの面で高いコストを被る可能性がある現実世界の設定に展開することは非現実的です。
よりデータ効率の高いifOアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-31T23:46:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。