論文の概要: Meta-World Conditional Neural Processes
- arxiv url: http://arxiv.org/abs/2302.10320v1
- Date: Mon, 20 Feb 2023 21:18:02 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-22 17:11:00.783451
- Title: Meta-World Conditional Neural Processes
- Title(参考訳): メタワールド条件付き神経プロセス
- Authors: Suzan Ece Ada, Emre Ugur
- Abstract要約: エージェントが自身の「幻覚」からサンプルを採取できるようにするメタワールドコンディショナルニューラルプロセス(MW-CNP)を提案する。
MW-CNPは、メタトレーニング中に記録されたオフラインインタラクションデータに基づいて訓練される。
- 参考スコア(独自算出の注目度): 2.627046865670577
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose Meta-World Conditional Neural Processes (MW-CNP), a conditional
world model generator that leverages sample efficiency and scalability of
Conditional Neural Processes to enable an agent to sample from its own
"hallucination". We intend to reduce the agent's interaction with the target
environment at test time as much as possible. To reduce the number of samples
required at test time, we first obtain a latent representation of the
transition dynamics from a single rollout from the test environment with hidden
parameters. Then, we obtain rollouts for few-shot learning by interacting with
the "hallucination" generated by the meta-world model. Using the world model
representation from MW-CNP, the meta-RL agent can adapt to an unseen target
environment with significantly fewer samples collected from the target
environment compared to the baselines. We emphasize that the agent does not
have access to the task parameters throughout training and testing, and MW-CNP
is trained on offline interaction data logged during meta-training.
- Abstract(参考訳): 本稿では,条件付きニューラルネットワークのサンプル効率と拡張性を活用した条件付き世界モデル生成装置であるmeta-world conditional neural processes (mw-cnp)を提案する。
テスト時にターゲット環境とのエージェントのインタラクションを可能な限り削減するつもりです。
テスト時間に必要なサンプル数を減らすために,まず,隠れパラメータを持つテスト環境から単一ロールアウトから遷移ダイナミクスの潜在表現を得る。
そこで,メタワールドモデルが生み出す「幻覚」と相互作用することで,数ショット学習のためのロールアウトを得る。
MW-CNPのワールドモデル表現を用いて、メタRLエージェントは、ベースラインに比べてターゲット環境から収集したサンプルを著しく少なく、目に見えないターゲット環境に適応することができる。
エージェントは、トレーニングとテストを通じてタスクパラメータにアクセスできず、mw-cnpは、メタトレーニング中にログされたオフラインインタラクションデータでトレーニングされる。
関連論文リスト
- EAS-SNN: End-to-End Adaptive Sampling and Representation for Event-based Detection with Recurrent Spiking Neural Networks [14.046487518350792]
スパイキングニューラルネットワーク(SNN)は、スパーススパイク通信を通じてイベント駆動の操作を行う。
本稿では,Residual potential Dropout (RPD) と Spike-Aware Training (SAT) を導入する。
我々の方法では、Gen1データセットで4.4%のmAP改善が得られ、パラメータは38%減少し、3つのタイムステップしか必要としない。
論文 参考訳(メタデータ) (2024-03-19T09:34:11Z) - Synthetic location trajectory generation using categorical diffusion
models [50.809683239937584]
拡散モデル(DPM)は急速に進化し、合成データのシミュレーションにおける主要な生成モデルの一つとなっている。
本稿では,個人が訪れた物理的位置を表す変数列である合成個別位置軌跡(ILT)の生成にDPMを用いることを提案する。
論文 参考訳(メタデータ) (2024-02-19T15:57:39Z) - Self-Supervised Dataset Distillation for Transfer Learning [77.4714995131992]
ラベルなしデータセットを、効率的な自己教師付き学習(SSL)のための小さな合成サンプル群に蒸留する新しい問題を提案する。
両レベル最適化におけるSSL目標に対する合成サンプルの勾配は、データ拡張やマスキングから生じるランダム性から、テキストバイアスを受けていることを最初に証明する。
転送学習を含む様々な応用における本手法の有効性を実証的に検証する。
論文 参考訳(メタデータ) (2023-10-10T10:48:52Z) - Continual Test-time Domain Adaptation via Dynamic Sample Selection [38.82346845855512]
本稿では,連続テスト時間領域適応(CTDA)のための動的サンプル選択法を提案する。
誤情報を誤用するリスクを低減するため,高品質と低品質の両方のサンプルに共同正負の学習を適用した。
私たちのアプローチは3Dポイントのクラウドドメインでも評価されており、その汎用性とより広範な適用可能性を示している。
論文 参考訳(メタデータ) (2023-10-05T06:35:21Z) - Leveraging World Model Disentanglement in Value-Based Multi-Agent
Reinforcement Learning [18.651307543537655]
本稿では,Distangled World Modelを用いた新しいモデルベースマルチエージェント強化学習手法であるValue Decomposition Frameworkを提案する。
本研究では,本手法が高サンプリング効率を実現し,敵軍を撃破する性能が他のベースラインよりも優れていることを示すために,簡単な,ハード,スーパーハードのStarCraft IIマイクロマネジメントの課題について実験的に検討した。
論文 参考訳(メタデータ) (2023-09-08T22:12:43Z) - Neural-Sim: Learning to Generate Training Data with NeRF [31.81496344354997]
本稿では,ニューラルレージアンスフィールド(NeRF)を対象アプリケーションの損失関数を持つ閉ループに使用した,最初の完全微分可能な合成データパイプラインを提案する。
提案手法は,人的負担を伴わないオンデマンドでデータを生成し,目標タスクの精度を最大化する。
論文 参考訳(メタデータ) (2022-07-22T22:48:33Z) - Multitask Adaptation by Retrospective Exploration with Learned World
Models [77.34726150561087]
本稿では,タスク非依存ストレージから取得したMBRLエージェントのトレーニングサンプルを提供するRAMaというメタ学習型アドレッシングモデルを提案する。
このモデルは、期待されるエージェントのパフォーマンスを最大化するために、ストレージから事前のタスクを解く有望な軌道を選択することで訓練される。
論文 参考訳(メタデータ) (2021-10-25T20:02:57Z) - Energy-Efficient and Federated Meta-Learning via Projected Stochastic
Gradient Ascent [79.58680275615752]
エネルギー効率のよいメタラーニングフレームワークを提案する。
各タスクは別々のエージェントによって所有されていると仮定するため、メタモデルをトレーニングするために限られたタスクが使用される。
論文 参考訳(メタデータ) (2021-05-31T08:15:44Z) - Robust Finite Mixture Regression for Heterogeneous Targets [70.19798470463378]
本稿では,サンプルクラスタの探索と,複数の不完全な混合型ターゲットを同時にモデル化するFMRモデルを提案する。
我々は、高次元の学習フレームワークの下で、無症状のオラクルのパフォーマンス境界をモデルに提供します。
その結果,我々のモデルは最先端の性能を達成できることがわかった。
論文 参考訳(メタデータ) (2020-10-12T03:27:07Z) - A Provably Efficient Sample Collection Strategy for Reinforcement
Learning [123.69175280309226]
オンライン強化学習(RL)における課題の1つは、エージェントがその振る舞いを最適化するために、環境の探索とサンプルの活用をトレードオフする必要があることである。
1) 生成モデル(環境のスパースシミュレータなど)にアクセス可能な状態のサンプル数を規定する「対象別」アルゴリズム,2) 所定のサンプルをできるだけ早く生成する「対象別」サンプル収集。
論文 参考訳(メタデータ) (2020-07-13T15:17:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。