論文の概要: Can Direct Latent Model Learning Solve Linear Quadratic Gaussian
Control?
- arxiv url: http://arxiv.org/abs/2212.14511v1
- Date: Fri, 30 Dec 2022 01:42:04 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-02 16:13:08.864032
- Title: Can Direct Latent Model Learning Solve Linear Quadratic Gaussian
Control?
- Title(参考訳): 線形二次ガウス制御の直接潜在モデル学習は可能か?
- Authors: Yi Tian, Kaiqing Zhang, Russ Tedrake, Suvrit Sra
- Abstract要約: 本研究では,高次元観測から状態表現を学習する課題について検討する。
我々は,ある潜在状態空間における動的モデルを,計画に直接関連する量を予測することによって学習する,直接潜在モデル学習手法を追求する。
- 参考スコア(独自算出の注目度): 85.5454275594976
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study the task of learning state representations from potentially
high-dimensional observations, with the goal of controlling an unknown
partially observable system. We pursue a direct latent model learning approach,
where a dynamic model in some latent state space is learned by predicting
quantities directly related to planning (e.g., costs) without reconstructing
the observations. In particular, we focus on an intuitive cost-driven state
representation learning method for solving Linear Quadratic Gaussian (LQG)
control, one of the most fundamental partially observable control problems. As
our main results, we establish finite-sample guarantees of finding a
near-optimal state representation function and a near-optimal controller using
the directly learned latent model. To the best of our knowledge, despite
various empirical successes, prior to this work it was unclear if such a
cost-driven latent model learner enjoys finite-sample guarantees. Our work
underscores the value of predicting multi-step costs, an idea that is key to
our theory, and notably also an idea that is known to be empirically valuable
for learning state representations.
- Abstract(参考訳): 本研究では,未知の部分観測系を制御することを目的として,潜在的に高次元の観測から状態表現を学習するタスクについて検討する。
我々は,ある潜在状態空間における動的モデルが観測を再構築することなく,計画(例えばコスト)に直接関連する量を予測することによって学習される,直接潜在モデル学習手法を追求する。
特に、線形二次ガウス制御(LQG)を解くための直感的なコスト駆動型状態表現学習手法に着目する。
その結果, 直接学習した潜在モデルを用いて, 最適に近い状態表現関数とオプティマイズに近い制御器を見出すための有限サンプルの保証が確立された。
我々の知る限り、様々な実証的な成功にもかかわらず、このようなコスト駆動の潜在モデル学習者が有限サンプル保証を享受しているかどうかは不明だった。
私たちの研究は、マルチステップコストを予測する価値、すなわち理論の鍵となるアイデア、特に状態表現を学ぶ上で経験的に価値のあるアイデアを強調するものです。
関連論文リスト
- Sublinear Regret for a Class of Continuous-Time Linear--Quadratic Reinforcement Learning Problems [10.404992912881601]
拡散に対する連続時間線形四元数制御(LQ)のクラスに対する強化学習について検討した。
本研究では,モデルパラメータの知識にも,その推定にも依存しないモデルフリーアプローチを適用し,最適なポリシーパラメータを直接学習するためのアクタ批判アルゴリズムを考案する。
論文 参考訳(メタデータ) (2024-07-24T12:26:21Z) - Unlearning with Control: Assessing Real-world Utility for Large Language Model Unlearning [97.2995389188179]
最近の研究は、勾配上昇(GA)を通した大規模言語モデル(LLM)の未学習にアプローチし始めている。
その単純さと効率性にもかかわらず、我々はGAベースの手法が過剰な未学習の傾向に直面することを示唆している。
過剰な未学習の度合いを制御できるいくつかの制御手法を提案する。
論文 参考訳(メタデータ) (2024-06-13T14:41:00Z) - An Information Theoretic Approach to Machine Unlearning [45.600917449314444]
学びの鍵となる課題は、モデルのパフォーマンスを保ちながら、必要なデータをタイムリーに忘れることである。
この研究では、ゼロショットのアンラーニングシナリオに対処し、未学習のアルゴリズムは、トレーニングされたモデルと忘れられるデータだけが与えられたデータを削除できなければならない。
モデルの幾何に基づいて、単純だが原則化されたゼロショットアンラーニング法を導出する。
論文 参考訳(メタデータ) (2024-02-02T13:33:30Z) - Masked prediction tasks: a parameter identifiability view [49.533046139235466]
マスク付きトークンの予測に広く用いられている自己教師型学習手法に着目する。
いくつかの予測タスクは識別可能性をもたらすが、他のタスクはそうではない。
論文 参考訳(メタデータ) (2022-02-18T17:09:32Z) - Improving Self-supervised Learning with Automated Unsupervised Outlier
Arbitration [83.29856873525674]
本稿では,自己教師型学習のためのビューサンプリング問題を対象とした,軽量潜在変数モデル UOTA を提案する。
本手法は,多くの主流な自己指導型学習手法に直接応用する。
論文 参考訳(メタデータ) (2021-12-15T14:05:23Z) - Adaptive Control and Regret Minimization in Linear Quadratic Gaussian
(LQG) Setting [91.43582419264763]
我々は不確実性に直面した楽観主義の原理に基づく新しい強化学習アルゴリズムLqgOptを提案する。
LqgOptはシステムのダイナミクスを効率的に探索し、モデルのパラメータを信頼区間まで推定し、最も楽観的なモデルのコントローラをデプロイする。
論文 参考訳(メタデータ) (2020-03-12T19:56:38Z) - Value-driven Hindsight Modelling [68.658900923595]
値推定は強化学習(RL)パラダイムの重要な構成要素である。
モデル学習は、観測系列に存在する豊富な遷移構造を利用することができるが、このアプローチは通常、報酬関数に敏感ではない。
この2つの極点の間に位置するRLにおける表現学習のアプローチを開発する。
これにより、タスクに直接関連し、値関数の学習を加速できる、抽出可能な予測ターゲットが提供される。
論文 参考訳(メタデータ) (2020-02-19T18:10:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。