論文の概要: Zero-shot Imitation Policy via Search in Demonstration Dataset
- arxiv url: http://arxiv.org/abs/2401.16398v1
- Date: Mon, 29 Jan 2024 18:38:29 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-30 13:43:59.456875
- Title: Zero-shot Imitation Policy via Search in Demonstration Dataset
- Title(参考訳): デモデータセットの探索によるゼロショット模倣ポリシー
- Authors: Federco Malato, Florian Leopold, Andrew Melnik, Ville Hautamaki
- Abstract要約: 行動クローンは、ポリシーを学ぶためにデモのデータセットを使用する。
本稿では,事前学習した基礎モデルの潜在空間を用いて,実演データセットをインデックス化することを提案する。
提案手法は,マインクラフト環境において,有意義なデモンストレーションを効果的に再現し,エージェントの人間的行動を示す。
- 参考スコア(独自算出の注目度): 0.16817021284806563
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Behavioral cloning uses a dataset of demonstrations to learn a policy. To
overcome computationally expensive training procedures and address the policy
adaptation problem, we propose to use latent spaces of pre-trained foundation
models to index a demonstration dataset, instantly access similar relevant
experiences, and copy behavior from these situations. Actions from a selected
similar situation can be performed by the agent until representations of the
agent's current situation and the selected experience diverge in the latent
space. Thus, we formulate our control problem as a dynamic search problem over
a dataset of experts' demonstrations. We test our approach on BASALT
MineRL-dataset in the latent representation of a Video Pre-Training model. We
compare our model to state-of-the-art, Imitation Learning-based Minecraft
agents. Our approach can effectively recover meaningful demonstrations and show
human-like behavior of an agent in the Minecraft environment in a wide variety
of scenarios. Experimental results reveal that performance of our search-based
approach clearly wins in terms of accuracy and perceptual evaluation over
learning-based models.
- Abstract(参考訳): 行動クローンは、ポリシーを学ぶためにデモのデータセットを使用する。
計算コストの高いトレーニング手順を克服し、ポリシー適応問題に対処するために、事前学習された基礎モデルの潜在空間を用いて、デモンストレーションデータセットをインデックス化し、同様の関連する体験に即座にアクセスし、これらの状況から行動のコピーを行う。
選択された類似状況からのアクションは、エージェントの現在の状況の表現と選択された経験が潜時空間に分散するまで、エージェントによって実行される。
そこで本稿では,専門家のデモンストレーションのデータセット上での動的探索問題として制御問題を定式化する。
ビデオプリトレーニングモデルの潜在表現におけるbasalt minerl-datasetのアプローチをテストした。
われわれのモデルを、最先端のImitation LearningベースのMinecraftエージェントと比較する。
提案手法は,多種多様なシナリオにおいて,有意義なデモンストレーションを効果的に再現し,Minecraft環境におけるエージェントの人間的行動を示す。
実験結果から,学習モデルよりも精度と知覚的評価の点から,検索によるアプローチの有効性が明らかとなった。
関連論文リスト
- Explanatory Model Monitoring to Understand the Effects of Feature Shifts on Performance [61.06245197347139]
そこで本研究では,機能シフトによるブラックボックスモデルの振る舞いを説明する新しい手法を提案する。
本稿では,最適輸送と共有値の概念を組み合わせた提案手法について,説明的性能推定として紹介する。
論文 参考訳(メタデータ) (2024-08-24T18:28:19Z) - Behavioral Cloning via Search in Embedded Demonstration Dataset [0.15293427903448023]
振る舞いクローンは、行動ポリシーを学ぶためにデモのデータセットを使用する。
遅延スペースを使用して、デモデータセットをインデックス化し、関連するエクスペリエンスに即座にアクセスし、これらの状況から振る舞いをコピーします。
提案手法は,マインクラフト環境において,有意義なデモンストレーションを効果的に再現し,エージェントの人間的行動を示す。
論文 参考訳(メタデータ) (2023-06-15T12:25:41Z) - Inverse Dynamics Pretraining Learns Good Representations for Multitask
Imitation [66.86987509942607]
このようなパラダイムを模倣学習でどのように行うべきかを評価する。
本稿では,事前学習コーパスがマルチタスクのデモンストレーションから成り立つ環境について考察する。
逆動力学モデリングはこの設定に適していると主張する。
論文 参考訳(メタデータ) (2023-05-26T14:40:46Z) - Behavioral Cloning via Search in Video PreTraining Latent Space [0.13999481573773073]
専門家のデモンストレーションのデータセット上での探索問題として制御問題を定式化する。
我々は,ビデオPreTrainingモデルの潜在表現において,BASALT MineRLデータセットの近接探索を行う。
エージェントは、エージェントの状態表現とデータセットから選択された専門家軌跡との距離が分岐しない限り、専門家軌跡からのアクションをコピーする。
論文 参考訳(メタデータ) (2022-12-27T00:20:37Z) - Leveraging Demonstrations with Latent Space Priors [90.56502305574665]
本稿では,スキル学習とシーケンスモデリングを組み合わせることで,実演データセットを活用することを提案する。
本研究では、国家のみのモーションキャプチャーの実証から、そのような先行情報をどうやって取得するかを示し、政策学習に組み込むためのいくつかの方法を探る。
実験結果から, 学習速度と最終性能において, 遅延空間が顕著に向上することが確認された。
論文 参考訳(メタデータ) (2022-10-26T13:08:46Z) - Robust Imitation of a Few Demonstrations with a Backwards Model [3.8530020696501794]
専門家によるデモンストレーションの行動クローニングは、強化学習よりもよりサンプル効率のよい学習ポリシーを高速化することができる。
実験の周囲のアトラクションの領域を拡大することで、エージェントがオフコースを走行した場合に、実証軌道に戻す方法を学ぶことができるようにすることで、この問題に対処する。
最適あるいは準最適の実証では、学習されたポリシーは、偏差に対して最適かつ堅牢であり、より広いアトラクション領域を持つ。
論文 参考訳(メタデータ) (2022-10-17T18:02:19Z) - Cluster-level pseudo-labelling for source-free cross-domain facial
expression recognition [94.56304526014875]
表情認識のためのSFUDA法を提案する。
本手法は,自己教師付き事前学習を利用して,対象データから優れた特徴表現を学習する。
提案手法の有効性を4つの適応方式で検証し,FERに適用した場合,既存のSFUDA法より一貫して優れていることを示す。
論文 参考訳(メタデータ) (2022-10-11T08:24:50Z) - Multitask Adaptation by Retrospective Exploration with Learned World
Models [77.34726150561087]
本稿では,タスク非依存ストレージから取得したMBRLエージェントのトレーニングサンプルを提供するRAMaというメタ学習型アドレッシングモデルを提案する。
このモデルは、期待されるエージェントのパフォーマンスを最大化するために、ストレージから事前のタスクを解く有望な軌道を選択することで訓練される。
論文 参考訳(メタデータ) (2021-10-25T20:02:57Z) - DEALIO: Data-Efficient Adversarial Learning for Imitation from
Observation [57.358212277226315]
観察ifoからの模倣学習において、学習エージェントは、実演者の生成した制御信号にアクセスせずに、実演行動の観察のみを用いて実演エージェントを模倣しようとする。
近年、逆模倣学習に基づく手法は、ifO問題に対する最先端のパフォーマンスをもたらすが、データ非効率でモデルなしの強化学習アルゴリズムに依存するため、サンプルの複雑さに悩まされることが多い。
この問題は、サンプルの収集が時間、エネルギー、およびリスクの面で高いコストを被る可能性がある現実世界の設定に展開することは非現実的です。
よりデータ効率の高いifOアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-31T23:46:32Z) - Stochastic Action Prediction for Imitation Learning [1.6385815610837169]
模倣学習は、観察を行動にマップするポリシーを学ぶために専門家のデモンストレーションに依存するスキルを獲得するためのデータ駆動のアプローチです。
遠隔操作車によるライン追従を含むタスクのために収集されたデモに本質性を示す。
専門家データにおける相反性の説明は,タスク完了の成功率を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2020-12-26T08:02:33Z) - Shaping Rewards for Reinforcement Learning with Imperfect Demonstrations
using Generative Models [18.195406135434503]
本稿では,報酬関数を状態と行動に依存したポテンシャルに形成することにより,強化と模倣学習を組み合わせた手法を提案する。
このことは,まず探索する価値のある状態空間と行動空間の高価値領域を指定することで,政策学習を加速させることを示す。
特に、これらのポテンシャルを表現するために、正規化フローとジェネレーティブ・アドバイサル・ネットワークの両方について検討する。
論文 参考訳(メタデータ) (2020-11-02T20:32:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。