論文の概要: Learning The Minimum Action Distance
- arxiv url: http://arxiv.org/abs/2506.09276v1
- Date: Tue, 10 Jun 2025 22:27:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 06:35:02.123528
- Title: Learning The Minimum Action Distance
- Title(参考訳): 最小アクション距離の学習
- Authors: Lorenzo Steccanella, Joshua B. Evans, Özgür Şimşek, Anders Jonsson,
- Abstract要約: 本稿では,状態軌跡のみから学習可能なマルコフ決定プロセス(MDP)の状態表現フレームワークを提案する。
本稿では,環境の基盤構造を捉えるための基本指標として,最小行動距離(MAD)の学習を提案する。
- 参考スコア(独自算出の注目度): 6.232804902200881
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents a state representation framework for Markov decision processes (MDPs) that can be learned solely from state trajectories, requiring neither reward signals nor the actions executed by the agent. We propose learning the minimum action distance (MAD), defined as the minimum number of actions required to transition between states, as a fundamental metric that captures the underlying structure of an environment. MAD naturally enables critical downstream tasks such as goal-conditioned reinforcement learning and reward shaping by providing a dense, geometrically meaningful measure of progress. Our self-supervised learning approach constructs an embedding space where the distances between embedded state pairs correspond to their MAD, accommodating both symmetric and asymmetric approximations. We evaluate the framework on a comprehensive suite of environments with known MAD values, encompassing both deterministic and stochastic dynamics, as well as discrete and continuous state spaces, and environments with noisy observations. Empirical results demonstrate that the proposed approach not only efficiently learns accurate MAD representations across these diverse settings but also significantly outperforms existing state representation methods in terms of representation quality.
- Abstract(参考訳): 本稿では,マルコフ決定プロセス(MDP)の状態表現フレームワークについて,報酬信号やエージェントが実行する動作を必要とせず,状態軌跡のみから学習できることを示す。
本研究では,環境の基盤構造を捉えるための基本的な指標として,状態間の遷移に必要な最小アクション数として定義される最小アクション距離(MAD)の学習を提案する。
MADは、高度で幾何学的に意味のある進捗測定を提供することで、目標条件付き強化学習や報酬形成といった重要な下流タスクを自然に実現している。
我々の自己教師付き学習アプローチは、埋め込み状態ペア間の距離がMADに対応し、対称近似と非対称近似の両方を共役する埋め込み空間を構築する。
我々は、決定論的および確率的ダイナミクス、離散的かつ連続的な状態空間、およびノイズの多い観測環境を含む、既知のMAD値を持つ総合的な環境上で、このフレームワークを評価する。
実験の結果,提案手法は,これらの多様な設定の正確なMAD表現を効率よく学習するだけでなく,表現品質の観点からも既存の状態表現法よりも優れていることがわかった。
関連論文リスト
- Policy Gradient Methods in the Presence of Symmetries and State
Abstractions [46.66541516203923]
高次元および複雑な問題に対する強化学習(RL)は、効率と一般化を改善するための抽象化に依存している。
連続制御設定における抽象化を研究し、マルコフ決定過程(MDP)の準同型の定義を連続状態と作用空間の設定に拡張する。
本稿では,政策とMDP準同型写像を同時に学習できるアクター批判アルゴリズムのファミリーを提案する。
論文 参考訳(メタデータ) (2023-05-09T17:59:10Z) - Distributed Bayesian Learning of Dynamic States [65.7870637855531]
提案アルゴリズムは有限状態隠れマルコフモデルに対する分散ベイズフィルタタスクである。
逐次状態推定や、動的環境下でのソーシャルネットワーク上での意見形成のモデル化に使用できる。
論文 参考訳(メタデータ) (2022-12-05T19:40:17Z) - Using Forwards-Backwards Models to Approximate MDP Homomorphisms [11.020094184644789]
離散作用空間における準同型を構成するための新しい手法を提案する。
環境力学の学習モデルを用いて、どの状態-作用ペアが同じ状態につながるかを推定する。
MinAtarでは,低サンプリング限界における値ベースオフ政治ベースラインに対して,ほぼ4倍の改善が報告されている。
論文 参考訳(メタデータ) (2022-09-14T00:38:12Z) - Towards Robust Bisimulation Metric Learning [3.42658286826597]
ビシミュレーションメトリクスは、表現学習問題に対する一つの解決策を提供する。
非最適ポリシーへのオン・ポリティクス・バイシミュレーション・メトリクスの値関数近似境界を一般化する。
これらの問題は、制約の少ない力学モデルと、報酬信号への埋め込みノルムの不安定な依存に起因する。
論文 参考訳(メタデータ) (2021-10-27T00:32:07Z) - Machine-Learning-Derived Entanglement Witnesses [55.76279816849472]
本稿では,線形支援ベクトルマシン (SVM) と絡み合い目撃者の対応を示す。
我々はこの対応を利用して、二部類と三部類(およびキュビット)の絡み合った状態に対する絡み合いの証人を生成する。
論文 参考訳(メタデータ) (2021-07-05T22:28:02Z) - A Deep Reinforcement Learning Approach to Marginalized Importance
Sampling with the Successor Representation [61.740187363451746]
マージナライズド・プライバシ・サンプリング(MIS)は、ターゲットポリシーのステートアクション占有率とサンプリング分布の密度比を測定する。
我々は,MISと深層強化学習のギャップを,目標方針の後継表現から密度比を計算することによって埋める。
我々は,Atari環境とMuJoCo環境に対するアプローチの実証的性能を評価した。
論文 参考訳(メタデータ) (2021-06-12T20:21:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。