論文の概要: Generalizing Multi-Step Inverse Models for Representation Learning to Finite-Memory POMDPs
- arxiv url: http://arxiv.org/abs/2404.14552v1
- Date: Mon, 22 Apr 2024 19:46:16 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-24 17:48:00.556373
- Title: Generalizing Multi-Step Inverse Models for Representation Learning to Finite-Memory POMDPs
- Title(参考訳): 有限メモリPOMDPへの表現学習のための多段階逆モデル一般化
- Authors: Lili Wu, Ben Evans, Riashat Islam, Raihan Seraj, Yonathan Efroni, Alex Lamb,
- Abstract要約: 本研究では,関連する情報のみを符号化し,無関係な情報を破棄する情報的,あるいはエージェント中心の状態表現の発見問題について検討する。
我々の結果は、決定論的力学設定の理論と、代替直観的アルゴリズムの反例を含む。
アルゴリズムを正しく使用した場合に成功させ、正しく使用した場合に劇的な失敗を引き起こす。
- 参考スコア(独自算出の注目度): 23.584313644411967
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Discovering an informative, or agent-centric, state representation that encodes only the relevant information while discarding the irrelevant is a key challenge towards scaling reinforcement learning algorithms and efficiently applying them to downstream tasks. Prior works studied this problem in high-dimensional Markovian environments, when the current observation may be a complex object but is sufficient to decode the informative state. In this work, we consider the problem of discovering the agent-centric state in the more challenging high-dimensional non-Markovian setting, when the state can be decoded from a sequence of past observations. We establish that generalized inverse models can be adapted for learning agent-centric state representation for this task. Our results include asymptotic theory in the deterministic dynamics setting as well as counter-examples for alternative intuitive algorithms. We complement these findings with a thorough empirical study on the agent-centric state discovery abilities of the different alternatives we put forward. Particularly notable is our analysis of past actions, where we show that these can be a double-edged sword: making the algorithms more successful when used correctly and causing dramatic failure when used incorrectly.
- Abstract(参考訳): 無関係な情報を排除しながら関連する情報のみをエンコードする情報的あるいはエージェント中心の状態表現を明らかにすることは、強化学習アルゴリズムをスケールし、下流タスクに効率的に適用する上で重要な課題である。
以前の研究では、現在の観測が複雑な対象であるが、情報状態の復号化に十分である場合、高次元マルコフ環境においてこの問題を研究していた。
本研究では,過去観測の連続から状態が復号化できる場合,より困難な高次元の非マルコフ的設定においてエージェント中心状態を発見する問題を考察する。
一般化された逆モデルがこのタスクのエージェント中心の状態表現を学習するために適応できることを確立した。
この結果には、決定論的力学設定における漸近理論や、代替直観的アルゴリズムの反例が含まれる。
提案する代替案のエージェント中心状態発見能力に関する実証実験により,これらの知見を補完する。
特に注目すべきは、過去の行動の分析であり、ここではこれらが二重刃の剣になり得ることを示します。
関連論文リスト
- Predictive Coding beyond Correlations [59.47245250412873]
このようなアルゴリズムのうちの1つは、予測符号化と呼ばれ、因果推論タスクを実行することができるかを示す。
まず、予測符号化の推論過程における簡単な変化が、因果グラフを再利用したり再定義したりすることなく、介入を計算できることを示す。
論文 参考訳(メタデータ) (2023-06-27T13:57:16Z) - Self-Supervised Likelihood Estimation with Energy Guidance for Anomaly
Segmentation in Urban Scenes [42.66864386405585]
我々は、異常セグメンテーションのためのエネルギー誘導型自己教師型フレームワークを設計する。
我々は、セグメンテーションタスクの強い文脈依存の性質を利用する。
提案手法に基づいて,適応型自己教師型トレーニングフレームワークを考案した。
論文 参考訳(メタデータ) (2023-02-14T03:54:32Z) - Framing Algorithmic Recourse for Anomaly Detection [18.347886926848563]
我々は,タブラルデータ(CARAT)における異常に対する文脈保存型アルゴリズムレコースを提案する。
CARATはトランスフォーマーベースのエンコーダデコーダモデルを用いて、低い確率で特徴を見つけることで異常を説明する。
異常なインスタンス内の特徴の全体的コンテキストを使用して、強調された特徴を変更することによって、意味的に一貫性のある反事実が生成される。
論文 参考訳(メタデータ) (2022-06-29T03:30:51Z) - Masked prediction tasks: a parameter identifiability view [49.533046139235466]
マスク付きトークンの予測に広く用いられている自己教師型学習手法に着目する。
いくつかの予測タスクは識別可能性をもたらすが、他のタスクはそうではない。
論文 参考訳(メタデータ) (2022-02-18T17:09:32Z) - Generalization of Neural Combinatorial Solvers Through the Lens of
Adversarial Robustness [68.97830259849086]
ほとんどのデータセットは単純なサブプロブレムのみをキャプチャし、おそらくは突発的な特徴に悩まされる。
本研究では, 局所的な一般化特性である対向ロバスト性について検討し, 厳密でモデル固有な例と突発的な特徴を明らかにする。
他のアプリケーションとは異なり、摂動モデルは知覚できないという主観的な概念に基づいて設計されているため、摂動モデルは効率的かつ健全である。
驚くべきことに、そのような摂動によって、十分に表現力のあるニューラルソルバは、教師あり学習で共通する正確さと悪質さのトレードオフの限界に悩まされない。
論文 参考訳(メタデータ) (2021-10-21T07:28:11Z) - Unsupervised Disentanglement without Autoencoding: Pitfalls and Future
Directions [21.035001142156464]
切り離された視覚表現は、変分オートエンコーダ(VAE)のような生成モデルで主に研究されている。
コントラスト学習を用いた正規化手法について検討し、大規模データセットや下流アプリケーションに十分強力なアンタングル表現をもたらす可能性があることを示す。
下流タスクとの絡み合いを評価し、使用する各正規化の利点と欠点を分析し、今後の方向性について議論する。
論文 参考訳(メタデータ) (2021-08-14T21:06:42Z) - MURAL: Meta-Learning Uncertainty-Aware Rewards for Outcome-Driven
Reinforcement Learning [65.52675802289775]
本研究では,不確かさを意識した分類器が,強化学習の難しさを解消できることを示す。
正規化最大度(NML)分布の計算法を提案する。
得られたアルゴリズムは、カウントベースの探索法と、報酬関数を学習するための先行アルゴリズムの両方に多くの興味深い関係を持つことを示す。
論文 参考訳(メタデータ) (2021-07-15T08:19:57Z) - Sequential Transfer in Reinforcement Learning with a Generative Model [48.40219742217783]
本稿では,従来の課題から知識を移譲することで,新たな課題を学習する際のサンプルの複雑さを軽減する方法について述べる。
この種の事前知識を使用することのメリットを明確に示すために,PAC境界のサンプル複雑性を導出する。
簡単なシミュレートされた領域における理論的な発見を実証的に検証する。
論文 参考訳(メタデータ) (2020-07-01T19:53:35Z) - Active Model Estimation in Markov Decision Processes [108.46146218973189]
マルコフ決定過程(MDP)をモデル化した環境の正確なモデル学習のための効率的な探索の課題について検討する。
マルコフに基づくアルゴリズムは,本アルゴリズムと極大エントロピーアルゴリズムの両方を小サンプル方式で上回っていることを示す。
論文 参考訳(メタデータ) (2020-03-06T16:17:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。