論文の概要: Multistep Inverse Is Not All You Need
- arxiv url: http://arxiv.org/abs/2403.11940v2
- Date: Fri, 6 Sep 2024 21:58:59 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-11 03:12:39.443208
- Title: Multistep Inverse Is Not All You Need
- Title(参考訳): マルチステップの逆は必要なだけではない
- Authors: Alexander Levine, Peter Stone, Amy Zhang,
- Abstract要約: 実世界の制御環境では、観測空間は不要に高次元であり、時間関連ノイズにさらされることが多い。
したがって、観測空間を制御関連変数のより単純な空間にマッピングするエンコーダを学ぶことが望ましい。
本稿では,多段階逆予測と遅延フォワードモデルを組み合わせた新しいアルゴリズムACDFを提案する。
- 参考スコア(独自算出の注目度): 87.62730694973696
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In real-world control settings, the observation space is often unnecessarily high-dimensional and subject to time-correlated noise. However, the controllable dynamics of the system are often far simpler than the dynamics of the raw observations. It is therefore desirable to learn an encoder to map the observation space to a simpler space of control-relevant variables. In this work, we consider the Ex-BMDP model, first proposed by Efroni et al. (2022), which formalizes control problems where observations can be factorized into an action-dependent latent state which evolves deterministically, and action-independent time-correlated noise. Lamb et al. (2022) proposes the "AC-State" method for learning an encoder to extract a complete action-dependent latent state representation from the observations in such problems. AC-State is a multistep-inverse method, in that it uses the encoding of the the first and last state in a path to predict the first action in the path. However, we identify cases where AC-State will fail to learn a correct latent representation of the agent-controllable factor of the state. We therefore propose a new algorithm, ACDF, which combines multistep-inverse prediction with a latent forward model. ACDF is guaranteed to correctly infer an action-dependent latent state encoder for a large class of Ex-BMDP models. We demonstrate the effectiveness of ACDF on tabular Ex-BMDPs through numerical simulations; as well as high-dimensional environments using neural-network-based encoders. Code is available at https://github.com/midi-lab/acdf.
- Abstract(参考訳): 実世界の制御環境では、観測空間は不要に高次元であり、時間関連ノイズにさらされることが多い。
しかし、制御可能なシステムの力学は、しばしば生の観測の力学よりもはるかに単純である。
したがって、観測空間を制御関連変数のより単純な空間にマッピングするエンコーダを学ぶことが望ましい。
本研究では,Efroni et al (2022) が最初に提案したEx-BMDPモデルについて考察する。
Lamb et al (2022) は、エンコーダを学習し、そのような問題の観測から完全な行動依存潜在状態表現を抽出する「AC状態」法を提案する。
AC-Stateは、パス内の最初のアクションを予測するために、パス内の最初の状態と最後の状態のエンコーディングを使用する、多段階逆法である。
しかし、AC-Stateがエージェント制御可能因子の正しい潜在表現を学習できないケースを特定する。
そこで我々は,多段階逆予測と潜在前方モデルを組み合わせた新しいアルゴリズムACDFを提案する。
ACDFは、多数のEx-BMDPモデルに対して、アクション依存の潜在状態エンコーダを正しく推論することが保証されている。
ニューラルネットワークを用いたエンコーダを用いた高次元環境だけでなく, 数値シミュレーションによる表計算元BMDPに対するACDFの有効性を実証する。
コードはhttps://github.com/midi-lab/acdf.comで入手できる。
関連論文リスト
- Dynamic layer selection in decoder-only transformers [21.18795712840146]
自然言語生成のための2つの一般的な動的推論手法を実証的に検討する。
トレーニング済みのデコーダのみのモデルでは,層スキップによる層除去が著しく堅牢であることがわかった。
また、シーケンス毎の動的計算割り当ては、大きな効率向上を約束することを示す。
論文 参考訳(メタデータ) (2024-10-26T00:44:11Z) - Learning a Fast Mixing Exogenous Block MDP using a Single Trajectory [87.62730694973696]
STEELは、単一軌道から外因性ブロックマルコフ決定過程の制御可能なダイナミクスを学習するための、最初の証明可能なサンプル効率アルゴリズムである。
我々は,STEELが正解であり,サンプル効率が良いことを証明し,STEELを2つの玩具問題で実証した。
論文 参考訳(メタデータ) (2024-10-03T21:57:21Z) - AMP: Autoregressive Motion Prediction Revisited with Next Token Prediction for Autonomous Driving [59.94343412438211]
本稿では,GPT方式の次のトークン動作予測を動作予測に導入する。
同種単位-ワードからなる言語データとは異なり、運転シーンの要素は複雑な空間的・時間的・意味的な関係を持つ可能性がある。
そこで本稿では,情報集約と位置符号化スタイルの異なる3つの因子化アテンションモジュールを用いて,それらの関係を捉えることを提案する。
論文 参考訳(メタデータ) (2024-03-20T06:22:37Z) - Value function estimation using conditional diffusion models for control [62.27184818047923]
拡散値関数(DVF)と呼ばれる単純なアルゴリズムを提案する。
拡散モデルを用いて環境-ロボット相互作用の連成多段階モデルを学ぶ。
本稿では,DVFを用いて複数のコントローラの状態を効率よく把握する方法を示す。
論文 参考訳(メタデータ) (2023-06-09T18:40:55Z) - STMT: A Spatial-Temporal Mesh Transformer for MoCap-Based Action Recognition [50.064502884594376]
本研究では、モーションキャプチャー(MoCap)シーケンスを用いた人間の行動認識の問題点について検討する。
メッシュシーケンスを直接モデル化する新しい時空間メッシュ変換器(STMT)を提案する。
提案手法は,スケルトンベースモデルやポイントクラウドベースモデルと比較して,最先端の性能を実現する。
論文 参考訳(メタデータ) (2023-03-31T16:19:27Z) - Value-Consistent Representation Learning for Data-Efficient
Reinforcement Learning [105.70602423944148]
本稿では,意思決定に直接関連のある表現を学習するための,VCR(Value-Consistent Expression Learning)という新しい手法を提案する。
この想像された状態と環境によって返される実状態とを一致させる代わりに、VCRは両方の状態に$Q$-valueヘッドを適用し、2つのアクション値の分布を得る。
検索不要なRLアルゴリズムに対して,提案手法が新たな最先端性能を実現することが実証された。
論文 参考訳(メタデータ) (2022-06-25T03:02:25Z) - CFLOW-AD: Real-Time Unsupervised Anomaly Detection with Localization via
Conditional Normalizing Flows [0.0]
そこで本研究では,局所化による異常検出をリアルタイムに行うモデルを提案する。
CFLOW-ADは差別的に事前訓練されたエンコーダとマルチスケール生成デコーダから構成される。
MVTecデータセットを用いた実験により,CFLOW-ADは検出タスクで0.36%,AUROCで1.12%,AUPROで2.5%,従来の手法で0.36%,それぞれ優れた性能を示した。
論文 参考訳(メタデータ) (2021-07-27T03:10:38Z) - Learning Navigation Costs from Demonstration in Partially Observable
Environments [24.457042947946025]
本稿では、未知の部分観測可能な環境における安全かつ効率的な自律ナビゲーションを実現するために、逆強化学習(IRL)に焦点を当てる。
本研究では, 確率的占有エンコーダと, 占有特性に繰り返し依存するコストエンコーダの2つの部分からなるコスト関数表現を開発する。
本モデルは,ロボットナビゲーションタスクにおけるベースラインIRLアルゴリズムの精度を上回り,トレーニングとテストタイム推論の効率を大幅に向上させる。
論文 参考訳(メタデータ) (2020-02-26T17:15:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。