論文の概要: Behavioral Cloning via Search in Video PreTraining Latent Space
- arxiv url: http://arxiv.org/abs/2212.13326v2
- Date: Mon, 17 Apr 2023 05:38:15 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-18 21:31:34.145344
- Title: Behavioral Cloning via Search in Video PreTraining Latent Space
- Title(参考訳): ビデオ事前学習空間における探索による行動クローニング
- Authors: Federico Malato, Florian Leopold, Amogh Raut, Ville Hautam\"aki,
Andrew Melnik
- Abstract要約: 専門家のデモンストレーションのデータセット上での探索問題として制御問題を定式化する。
我々は,ビデオPreTrainingモデルの潜在表現において,BASALT MineRLデータセットの近接探索を行う。
エージェントは、エージェントの状態表現とデータセットから選択された専門家軌跡との距離が分岐しない限り、専門家軌跡からのアクションをコピーする。
- 参考スコア(独自算出の注目度): 0.13999481573773073
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Our aim is to build autonomous agents that can solve tasks in environments
like Minecraft. To do so, we used an imitation learning-based approach. We
formulate our control problem as a search problem over a dataset of experts'
demonstrations, where the agent copies actions from a similar demonstration
trajectory of image-action pairs. We perform a proximity search over the BASALT
MineRL-dataset in the latent representation of a Video PreTraining model. The
agent copies the actions from the expert trajectory as long as the distance
between the state representations of the agent and the selected expert
trajectory from the dataset do not diverge. Then the proximity search is
repeated. Our approach can effectively recover meaningful demonstration
trajectories and show human-like behavior of an agent in the Minecraft
environment.
- Abstract(参考訳): 私たちの目標は、Minecraftのような環境でタスクを解決できる自律エージェントを作ることです。
そのため、模倣学習に基づくアプローチを採用しました。
我々は,専門家のデモンストレーションデータセット上での探索問題として制御問題を定式化し,エージェントが画像と動作のペアの類似したデモ軌跡から動作をコピーする。
我々は,ビデオPreTrainingモデルの潜在表現において,BASALT MineRLデータセットの近接探索を行う。
エージェントは、エージェントの状態表現とデータセットから選択された専門家軌跡との距離が分岐しない限り、専門家軌跡からのアクションをコピーする。
そして、近接探索を繰り返す。
提案手法は,有意義な実証軌道を効果的に復元し,Minecraft環境におけるエージェントの人間的行動を示す。
関連論文リスト
- Zero-shot Imitation Policy via Search in Demonstration Dataset [0.16817021284806563]
行動クローンは、ポリシーを学ぶためにデモのデータセットを使用する。
本稿では,事前学習した基礎モデルの潜在空間を用いて,実演データセットをインデックス化することを提案する。
提案手法は,マインクラフト環境において,有意義なデモンストレーションを効果的に再現し,エージェントの人間的行動を示す。
論文 参考訳(メタデータ) (2024-01-29T18:38:29Z) - SeMAIL: Eliminating Distractors in Visual Imitation via Separated Models [22.472167814814448]
本稿では,SeMAIL(Separated Model-based Adversarial Imitation Learning)というモデルベース模倣学習アルゴリズムを提案する。
本手法は, 様々な視覚的制御タスクにおいて, 複雑な観察と, 専門的な観察から異なる背景を持つより困難なタスクにおいて, ほぼ専門的な性能を実現する。
論文 参考訳(メタデータ) (2023-06-19T04:33:44Z) - Behavioral Cloning via Search in Embedded Demonstration Dataset [0.15293427903448023]
振る舞いクローンは、行動ポリシーを学ぶためにデモのデータセットを使用する。
遅延スペースを使用して、デモデータセットをインデックス化し、関連するエクスペリエンスに即座にアクセスし、これらの状況から振る舞いをコピーします。
提案手法は,マインクラフト環境において,有意義なデモンストレーションを効果的に再現し,エージェントの人間的行動を示す。
論文 参考訳(メタデータ) (2023-06-15T12:25:41Z) - Imitation from Observation With Bootstrapped Contrastive Learning [12.048166025000976]
IfO(IfO)は、マルコフ決定プロセスにおいて自律エージェントを訓練する学習パラダイムである。
本稿では,OfOアルゴリズムであるBootIfOLについて紹介する。
我々は,限られた数の実証軌道を用いて効果的な政策を訓練できることを示す,様々な制御タスクに対するアプローチを評価する。
論文 参考訳(メタデータ) (2023-02-13T17:32:17Z) - Leveraging Demonstrations with Latent Space Priors [90.56502305574665]
本稿では,スキル学習とシーケンスモデリングを組み合わせることで,実演データセットを活用することを提案する。
本研究では、国家のみのモーションキャプチャーの実証から、そのような先行情報をどうやって取得するかを示し、政策学習に組み込むためのいくつかの方法を探る。
実験結果から, 学習速度と最終性能において, 遅延空間が顕著に向上することが確認された。
論文 参考訳(メタデータ) (2022-10-26T13:08:46Z) - Multitask Adaptation by Retrospective Exploration with Learned World
Models [77.34726150561087]
本稿では,タスク非依存ストレージから取得したMBRLエージェントのトレーニングサンプルを提供するRAMaというメタ学習型アドレッシングモデルを提案する。
このモデルは、期待されるエージェントのパフォーマンスを最大化するために、ストレージから事前のタスクを解く有望な軌道を選択することで訓練される。
論文 参考訳(メタデータ) (2021-10-25T20:02:57Z) - Multi-Agent Imitation Learning with Copulas [102.27052968901894]
マルチエージェント模倣学習は、観察と行動のマッピングを学習することで、デモからタスクを実行するために複数のエージェントを訓練することを目的としている。
本稿では,確率変数間の依存を捉える強力な統計ツールである copula を用いて,マルチエージェントシステムにおける相関関係と協調関係を明示的にモデル化する。
提案モデルでは,各エージェントの局所的行動パターンと,エージェント間の依存構造のみをフルにキャプチャするコプラ関数を別々に学習することができる。
論文 参考訳(メタデータ) (2021-07-10T03:49:41Z) - Time-series Imputation of Temporally-occluded Multiagent Trajectories [18.862173210927658]
エージェントのサブセットの過去と将来の観測が、他のエージェントの欠落した観察を推定するために使用される、マルチエージェントの時系列計算の問題について検討する。
グラフインプタ(Graph Imputer)と呼ばれる我々の手法は,グラフネットワークと変分オートエンコーダを組み合わせた前方情報と後方情報を利用する。
提案手法は,プロジェクティブカメラモジュールを用いて,オフスクリーンプレーヤの状態推定設定のためのモデルをトレーニングし,評価する。
論文 参考訳(メタデータ) (2021-06-08T09:58:43Z) - Learning to Shift Attention for Motion Generation [55.61994201686024]
ロボット学習を用いた動作生成の課題の1つは、人間のデモが1つのタスククエリに対して複数のモードを持つ分布に従うことである。
以前のアプローチでは、すべてのモードをキャプチャできなかったり、デモの平均モードを取得できないため、無効なトラジェクトリを生成する傾向があった。
この問題を克服する外挿能力を有するモーション生成モデルを提案する。
論文 参考訳(メタデータ) (2021-02-24T09:07:52Z) - Environment Predictive Coding for Embodied Agents [92.31905063609082]
本稿では,環境レベルの表現を具体化エージェントに学習する自己教師型手法である環境予測符号化を導入する。
GibsonとMatterport3Dのフォトリアリスティックな3D環境に関する実験により、我々の手法は、限られた経験の予算しか持たない課題において、最先端の課題よりも優れていることが示された。
論文 参考訳(メタデータ) (2021-02-03T23:43:16Z) - Forgetful Experience Replay in Hierarchical Reinforcement Learning from
Demonstrations [55.41644538483948]
本稿では,複雑な視覚環境において,エージェントが低品質な実演を行えるようにするためのアプローチの組み合わせを提案する。
提案した目標指向のリプレイバッファ構築により,エージェントはデモにおいて複雑な階層的タスクを解くためのサブゴールを自動的に強調することができる。
私たちのアルゴリズムに基づくこのソリューションは、有名なMineRLコンペティションのすべてのソリューションを破り、エージェントがMinecraft環境でダイヤモンドをマイニングすることを可能にする。
論文 参考訳(メタデータ) (2020-06-17T15:38:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。