論文の概要: A Generalist Dynamics Model for Control
- arxiv url: http://arxiv.org/abs/2305.10912v2
- Date: Sat, 23 Sep 2023 20:10:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-27 02:52:31.644397
- Title: A Generalist Dynamics Model for Control
- Title(参考訳): 制御のための一般動力学モデル
- Authors: Ingmar Schubert and Jingwei Zhang and Jake Bruce and Sarah Bechtle and
Emilio Parisotto and Martin Riedmiller and Jost Tobias Springenberg and
Arunkumar Byravan and Leonard Hasenclever and Nicolas Heess
- Abstract要約: TDMは、目に見えない環境に強力な一般化能力を示す。
TDMは、単一環境学習環境でも良好に機能する。
これらの性質により、TDMは制御の基礎モデルとして有望な材料となる。
- 参考スコア(独自算出の注目度): 27.45800288062335
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We investigate the use of transformer sequence models as dynamics models
(TDMs) for control. We find that TDMs exhibit strong generalization
capabilities to unseen environments, both in a few-shot setting, where a
generalist TDM is fine-tuned with small amounts of data from the target
environment, and in a zero-shot setting, where a generalist TDM is applied to
an unseen environment without any further training. Here, we demonstrate that
generalizing system dynamics can work much better than generalizing optimal
behavior directly as a policy. Additional results show that TDMs also perform
well in a single-environment learning setting when compared to a number of
baseline models. These properties make TDMs a promising ingredient for a
foundation model of control.
- Abstract(参考訳): 制御のための動的モデル (TDM) としてのトランスフォーマーシーケンスモデルについて検討する。
対象環境からの少ないデータ量でジェネラリストtdmを微調整し,無傷環境にジェネラリストtdmをそれ以上のトレーニングなしで適用したゼロショット設定において,無傷環境に対して強力な一般化能力を示すことが判明した。
ここでは,システムダイナミクスの一般化が,ポリシーとして直接最適動作を一般化するよりもはるかに優れていることを示す。
さらに,TDMは,多数のベースラインモデルと比較して,単一環境学習環境でも良好に動作することを示す。
これらの性質により、TDMは制御の基礎モデルとして有望な材料となる。
関連論文リスト
- Steering Masked Discrete Diffusion Models via Discrete Denoising Posterior Prediction [88.65168366064061]
本稿では,確率論的推論の課題として,事前学習したMDMを操る作業を行う新しいフレームワークであるDDPPを紹介する。
私たちのフレームワークは、3つの新しい目標のファミリーにつながります。
Wet-lab Validation(ウェット・ラブ・バリデーション)を用いて,報酬最適化タンパク質配列の過渡的発現を観察する。
論文 参考訳(メタデータ) (2024-10-10T17:18:30Z) - Masked Generative Priors Improve World Models Sequence Modelling Capabilities [19.700020499490137]
Masked Generative Modellingはより効率的で優れた帰納的バイアスとして登場した。
GIT-STORMは、Atari 100kベンチマークでRLタスクのパフォーマンスが大幅に向上したことを示している。
トランスフォーマーをベースとした世界モデルが初めて連続行動環境に適用し、先行研究における大きなギャップに対処する。
論文 参考訳(メタデータ) (2024-10-10T11:52:07Z) - ControlVAR: Exploring Controllable Visual Autoregressive Modeling [48.66209303617063]
拡散モデル(DM)の出現により、条件付き視覚発生は顕著に進展した。
高価な計算コスト、高い推論遅延、大規模言語モデル(LLM)との統合の難しさといった課題は、DMに代わる方法を模索する必要がある。
本稿では,フレキシブルかつ効率的な条件生成のための視覚自己回帰モデリングにおける画素レベル制御を探求する新しいフレームワークであるControlmoreを紹介する。
論文 参考訳(メタデータ) (2024-06-14T06:35:33Z) - Decision Transformer as a Foundation Model for Partially Observable Continuous Control [5.453548045211778]
決定変換器(DT)アーキテクチャは、過去の観測、行動、報酬に基づいて最適な行動を予測するために使用される。
DTは、全く新しいタスクに対して驚くべきゼロショットの一般化能力を示す。
これらの知見は、一般的な制御アプリケーションの基本制御系としてのDTの可能性を示している。
論文 参考訳(メタデータ) (2024-04-03T02:17:34Z) - Efficient GPT Model Pre-training using Tensor Train Matrix
Representation [65.96485282393361]
大規模なトランスフォーマーモデルは数十億のパラメータを特徴としており、デプロイが困難になり、スクラッチからトレーニングコストが禁じられている。
GPT-2アーキテクチャのパラメータ数を削減すべく、完全に接続された層の行列を対応するTrain Matrix(TTM)構造に置き換える。
GPTベースのモデルは最大40%のパラメータを格納し、元のモデルに匹敵するパープレキシティを示す。
論文 参考訳(メタデータ) (2023-06-05T08:38:25Z) - Predictable MDP Abstraction for Unsupervised Model-Based RL [93.91375268580806]
予測可能なMDP抽象化(PMA)を提案する。
元のMDPで予測モデルを訓練する代わりに、学習されたアクション空間を持つ変換MDPでモデルを訓練する。
我々はPMAを理論的に解析し、PMAが以前の教師なしモデルベースRLアプローチよりも大幅に改善することを示す。
論文 参考訳(メタデータ) (2023-02-08T07:37:51Z) - Uni-Perceiver-MoE: Learning Sparse Generalist Models with Conditional
MoEs [63.936622239286685]
異なるタスクとモダリティ間の干渉が、この現象の主要な要因であることがわかった。
一般モデルに条件混合(Conditional Mixture-of-Experts)を導入する。
コード及び事前訓練されたジェネリストモデルは、解放される。
論文 参考訳(メタデータ) (2022-06-09T17:59:59Z) - Controlling Conditional Language Models with Distributional Policy
Gradients [2.9176992922046923]
汎用事前学習型生成モデルは、ダウンストリーム要求の一部を満たすことができないことが多い。
このことは、事前訓練された生成モデルをその能力を破壊することなく新しいタスクに適応させる方法について重要な疑問を提起する。
近年の研究では、エネルギーモデルを用いてタスク固有の要求を表現することによって、この問題を解決することが示唆されている。
本稿では,条件付きDMG(CDPG)を提案し,条件付きタスクにアプローチを拡張した。
論文 参考訳(メタデータ) (2021-12-01T19:24:05Z) - Trajectory-wise Multiple Choice Learning for Dynamics Generalization in
Reinforcement Learning [137.39196753245105]
本稿では,動的一般化のためのマルチヘッドダイナミックスモデルを学習するモデルベース強化学習アルゴリズムを提案する。
文脈学習は,過去の経験から得られる動的情報からコンテキスト潜在ベクトルにエンコードする。
提案手法は,最先端のRL法と比較して,様々な制御タスクにおいて優れたゼロショット一般化性能を示す。
論文 参考訳(メタデータ) (2020-10-26T03:20:42Z) - Generalized Hidden Parameter MDPs Transferable Model-based RL in a
Handful of Trials [13.051708608864539]
一般化隠れMDP(英: Generalized Hidden MDPs、GHP-MDPs)は、タスクによって異なる隠れパラメータの関数として、力学と報酬の両方が変化するMDPのファミリーを指す。
我々は、報酬空間と動的潜伏空間を用いた新しい課題である MuJoCo タスクに対して、最先端性能とサンプル効率を実験的に実証した。
論文 参考訳(メタデータ) (2020-02-08T02:49:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。