論文の概要: Model Predictive Control with Self-supervised Representation Learning
- arxiv url: http://arxiv.org/abs/2304.07219v1
- Date: Fri, 14 Apr 2023 16:02:04 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-17 13:10:47.617471
- Title: Model Predictive Control with Self-supervised Representation Learning
- Title(参考訳): 自己教師付き表現学習によるモデル予測制御
- Authors: Jonas Matthies, Muhammad Burhan Hafez, Mostafa Kotb, Stefan Wermter
- Abstract要約: 本稿では,TD-MPCフレームワーク内での再構成機能の利用を提案する。
提案した損失項の追加は、状態ベースタスクと画像ベースタスクの両方のパフォーマンス改善につながる。
- 参考スコア(独自算出の注目度): 13.225264876433528
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Over the last few years, we have not seen any major developments in
model-free or model-based learning methods that would make one obsolete
relative to the other. In most cases, the used technique is heavily dependent
on the use case scenario or other attributes, e.g. the environment. Both
approaches have their own advantages, for example, sample efficiency or
computational efficiency. However, when combining the two, the advantages of
each can be combined and hence achieve better performance. The TD-MPC framework
is an example of this approach. On the one hand, a world model in combination
with model predictive control is used to get a good initial estimate of the
value function. On the other hand, a Q function is used to provide a good
long-term estimate. Similar to algorithms like MuZero a latent state
representation is used, where only task-relevant information is encoded to
reduce the complexity. In this paper, we propose the use of a reconstruction
function within the TD-MPC framework, so that the agent can reconstruct the
original observation given the internal state representation. This allows our
agent to have a more stable learning signal during training and also improves
sample efficiency. Our proposed addition of another loss term leads to improved
performance on both state- and image-based tasks from the DeepMind-Control
suite.
- Abstract(参考訳): ここ数年、モデルフリーやモデルベースの学習方法において、一方が他方に比べて時代遅れになるような大きな進展は見られていません。
ほとんどの場合、使用されるテクニックはユースケースのシナリオや環境など他の属性に大きく依存します。
どちらのアプローチも、サンプル効率や計算効率など、それぞれ独自の利点がある。
しかし、この2つを組み合わせると、それぞれの利点が組み合わされ、より良い性能が得られる。
TD-MPCフレームワークはこのアプローチの例である。
一方、モデル予測制御と組み合わせた世界モデルを用いて、値関数の適切な初期推定を行う。
一方、q関数は、良好な長期推定を提供するために使用される。
muzeroのようなアルゴリズムと同様に、タスク関連情報のみをエンコードして複雑さを減らす、潜在状態表現が使用される。
本稿では,TD-MPCフレームワーク内での再構成関数の利用を提案する。
これにより、エージェントはトレーニング中により安定した学習信号を得ることができ、サンプル効率も向上する。
提案する損失項の追加により,DeepMind-Controlスイートのステートベースタスクとイメージベースタスクの両方のパフォーマンスが向上した。
関連論文リスト
- AdaMerging: Adaptive Model Merging for Multi-Task Learning [68.75885518081357]
本稿では,Adaptive Model Merging (AdaMerging)と呼ばれる革新的な手法を紹介する。
本来のトレーニングデータに頼ることなく、タスクレベルでも階層的にも、モデルマージの係数を自律的に学習することを目指している。
AdaMergingは、現在の最先端のタスク演算のマージ方式と比較すると、パフォーマンスが11%向上している。
論文 参考訳(メタデータ) (2023-10-04T04:26:33Z) - Consensus-Adaptive RANSAC [104.87576373187426]
本稿では,パラメータ空間の探索を学習する新しいRANSACフレームワークを提案する。
注意機構は、ポイント・ツー・モデル残差のバッチで動作し、軽量のワンステップ・トランスフォーマーで見いだされたコンセンサスを考慮するために、ポイント・ツー・モデル推定状態を更新する。
論文 参考訳(メタデータ) (2023-07-26T08:25:46Z) - Value function estimation using conditional diffusion models for control [62.27184818047923]
拡散値関数(DVF)と呼ばれる単純なアルゴリズムを提案する。
拡散モデルを用いて環境-ロボット相互作用の連成多段階モデルを学ぶ。
本稿では,DVFを用いて複数のコントローラの状態を効率よく把握する方法を示す。
論文 参考訳(メタデータ) (2023-06-09T18:40:55Z) - Deep Active Ensemble Sampling For Image Classification [8.31483061185317]
アクティブラーニングフレームワークは、最も有益なデータポイントのラベル付けを積極的に要求することで、データアノテーションのコストを削減することを目的としている。
提案手法には、不確実性に基づく手法、幾何学的手法、不確実性に基づく手法と幾何学的手法の暗黙の組み合わせなどがある。
本稿では, サンプル選択戦略における効率的な探索・探索トレードオフを実現するために, 不確実性に基づくフレームワークと幾何学的フレームワークの両方の最近の進歩を革新的に統合する。
本フレームワークは,(1)正確な後続推定,(2)計算オーバーヘッドと高い精度のトレードオフの2つの利点を提供する。
論文 参考訳(メタデータ) (2022-10-11T20:20:20Z) - Value-Consistent Representation Learning for Data-Efficient
Reinforcement Learning [105.70602423944148]
本稿では,意思決定に直接関連のある表現を学習するための,VCR(Value-Consistent Expression Learning)という新しい手法を提案する。
この想像された状態と環境によって返される実状態とを一致させる代わりに、VCRは両方の状態に$Q$-valueヘッドを適用し、2つのアクション値の分布を得る。
検索不要なRLアルゴリズムに対して,提案手法が新たな最先端性能を実現することが実証された。
論文 参考訳(メタデータ) (2022-06-25T03:02:25Z) - HyperImpute: Generalized Iterative Imputation with Automatic Model
Selection [77.86861638371926]
カラムワイズモデルを適応的かつ自動的に構成するための一般化反復計算フレームワークを提案する。
既製の学習者,シミュレータ,インターフェースを備えた具体的な実装を提供する。
論文 参考訳(メタデータ) (2022-06-15T19:10:35Z) - Temporal Difference Learning for Model Predictive Control [29.217382374051347]
データ駆動モデル予測制御は、モデルフリーメソッドよりも2つの大きな利点がある。
TD-MPCは、状態と画像に基づく連続制御タスクの事前処理よりも、より優れたサンプリング効率と性能を実現する。
論文 参考訳(メタデータ) (2022-03-09T18:58:28Z) - DEALIO: Data-Efficient Adversarial Learning for Imitation from
Observation [57.358212277226315]
観察ifoからの模倣学習において、学習エージェントは、実演者の生成した制御信号にアクセスせずに、実演行動の観察のみを用いて実演エージェントを模倣しようとする。
近年、逆模倣学習に基づく手法は、ifO問題に対する最先端のパフォーマンスをもたらすが、データ非効率でモデルなしの強化学習アルゴリズムに依存するため、サンプルの複雑さに悩まされることが多い。
この問題は、サンプルの収集が時間、エネルギー、およびリスクの面で高いコストを被る可能性がある現実世界の設定に展開することは非現実的です。
よりデータ効率の高いifOアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-31T23:46:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。