論文の概要: Learning Good State and Action Representations via Tensor Decomposition
- arxiv url: http://arxiv.org/abs/2105.01136v1
- Date: Mon, 3 May 2021 19:24:55 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-06 02:29:17.917263
- Title: Learning Good State and Action Representations via Tensor Decomposition
- Title(参考訳): テンソル分解による状態と行動表現の学習
- Authors: Chengzhuo Ni, Anru Zhang, Yaqi Duan, Mengdi Wang
- Abstract要約: 連続状態-作用マルコフ決定過程(MDP)の遷移カーネルは、自然なテンソル構造を認める。
本論文では,意味のある低次元状態と行動表現を識別するテンソルに基づく教師なし学習法を提案する。
- 参考スコア(独自算出の注目度): 43.28313193602637
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The transition kernel of a continuous-state-action Markov decision process
(MDP) admits a natural tensor structure. This paper proposes a tensor-inspired
unsupervised learning method to identify meaningful low-dimensional state and
action representations from empirical trajectories. The method exploits the
MDP's tensor structure by kernelization, importance sampling and
low-Tucker-rank approximation. This method can be further used to cluster
states and actions respectively and find the best discrete MDP abstraction. We
provide sharp statistical error bounds for tensor concentration and the
preservation of diffusion distance after embedding.
- Abstract(参考訳): 連続状態反応マルコフ決定過程(MDP)の遷移核は自然なテンソル構造を持つ。
本稿では,経験的軌跡から意味のある低次元状態と行動表現を識別するテンソルにインスパイアされた教師なし学習法を提案する。
この方法は、カーネル化、重要サンプリング、低タッカーランク近似により、MDPのテンソル構造を利用する。
この方法は、それぞれ状態とアクションをクラスタリングし、最良の離散MDP抽象化を見つけるためにさらに利用できる。
テンソル濃度に対する鋭い統計的誤差境界と埋め込み後の拡散距離の保存を提供する。
関連論文リスト
- Performance Gaps in Multi-view Clustering under the Nested Matrix-Tensor
Model [7.4968526280735945]
最近導入されたネストマトリクス・テンソルモデルに隠された植込み信号の推定について検討した。
ここではテンソルベースアプローチとトラクタブルアプローチのパフォーマンスギャップを定量化する。
論文 参考訳(メタデータ) (2024-02-16T13:31:43Z) - Handling The Non-Smooth Challenge in Tensor SVD: A Multi-Objective Tensor Recovery Framework [15.16222081389267]
テンソルデータの非滑らかな変化に対処するために,学習可能なテンソル核ノルムを持つ新しいテンソル復元モデルを導入する。
我々は,提案するテンソル完備化モデルを反復的に解くために,交代近似乗算法 (APMM) という新しい最適化アルゴリズムを開発した。
さらに,APMMに基づく多目的テンソル復元フレームワークを提案する。
論文 参考訳(メタデータ) (2023-11-23T12:16:33Z) - Unsupervised Discovery of Interpretable Directions in h-space of
Pre-trained Diffusion Models [63.1637853118899]
本稿では,事前学習した拡散モデルのh空間における解釈可能な方向を特定するための,教師なしおよび学習に基づく最初の手法を提案する。
我々は、事前訓練された拡散モデルのh-スペースで動作するシフト制御モジュールを用いて、サンプルをシフトしたバージョンに操作する。
それらを共同で最適化することで、モデルは自然に絡み合った、解釈可能な方向を発見する。
論文 参考訳(メタデータ) (2023-10-15T18:44:30Z) - Observation-Guided Diffusion Probabilistic Models [41.749374023639156]
観測誘導拡散確率モデル(OGDM)と呼ばれる新しい拡散に基づく画像生成法を提案する。
本手法は,観測プロセスの指導をマルコフ連鎖と統合することにより,トレーニング目標を再構築する。
本研究では,強力な拡散モデルベースライン上での多様な推論手法を用いたトレーニングアルゴリズムの有効性を示す。
論文 参考訳(メタデータ) (2023-10-06T06:29:06Z) - High-dimensional density estimation with tensorizing flow [5.457842083043014]
観測データから高次元確率密度関数を推定するテンソル化流法を提案する。
提案手法は、テンソルトレインの最適化のない特徴とフローベース生成モデルの柔軟性を組み合わせたものである。
論文 参考訳(メタデータ) (2022-12-01T18:45:45Z) - Score-based Continuous-time Discrete Diffusion Models [102.65769839899315]
連続時間マルコフ連鎖を介して逆過程が認知されるマルコフジャンププロセスを導入することにより、拡散モデルを離散変数に拡張する。
条件境界分布の単純なマッチングにより、偏りのない推定器が得られることを示す。
提案手法の有効性を,合成および実世界の音楽と画像のベンチマークで示す。
論文 参考訳(メタデータ) (2022-11-30T05:33:29Z) - Model based Multi-agent Reinforcement Learning with Tensor
Decompositions [52.575433758866936]
本稿では、CPランクの低いテンソルとして遷移関数と報酬関数をモデル化することにより、未探索の状態-作用対上の状態-作用空間の一般化を考察する。
合成MDPの実験により、モデルに基づく強化学習アルゴリズムでテンソル分解を用いることで、真の遷移関数と報酬関数が実際に低ランクである場合、はるかに高速な収束が得られることが示された。
論文 参考訳(メタデータ) (2021-10-27T15:36:25Z) - A Kernel-Based Approach to Non-Stationary Reinforcement Learning in
Metric Spaces [53.47210316424326]
KeRNSは、非定常マルコフ決定過程におけるエピソード強化学習のためのアルゴリズムである。
我々は、状態-作用空間の被覆次元と時間とともにMDPの総変動にスケールする後悔境界を証明した。
論文 参考訳(メタデータ) (2020-07-09T21:37:13Z) - Tensor completion via nonconvex tensor ring rank minimization with
guaranteed convergence [16.11872681638052]
近年の研究では、テンソル環(TR)のランクはテンソル完備化において高い効果を示している。
最近提案されたTRランクは、特異値が等しくペナル化される重み付き和の中で構造を捉えることに基づいている。
本稿では,ロゼット型関数を非スムーズな緩和法として利用することを提案する。
論文 参考訳(メタデータ) (2020-05-14T03:13:17Z) - Plannable Approximations to MDP Homomorphisms: Equivariance under
Actions [72.30921397899684]
学習した表現に作用同値を強制する対照的な損失関数を導入する。
損失が 0 であるとき、決定論的マルコフ決定過程の準同型が存在することを証明している。
本研究では, 決定論的MDPに対して, 抽象MDPの最適方針を元のMDPに引き上げることに成功した。
論文 参考訳(メタデータ) (2020-02-27T08:29:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。