Fugu-MT 論文翻訳(概要): Exploiting Expert-guided Symmetry Detection in Markov Decision Processes

論文の概要: Exploiting Expert-guided Symmetry Detection in Markov Decision Processes

arxiv url: http://arxiv.org/abs/2112.09943v1
Date: Sat, 18 Dec 2021 14:32:32 GMT
ステータス: 翻訳完了
システム内更新日: 2021-12-21 15:21:17.770735
Title: Exploiting Expert-guided Symmetry Detection in Markov Decision Processes
Title（参考訳）: マルコフ決定過程におけるエキスパート誘導対称性の検出
Authors: Giorgio Angelotti, Nicolas Drougard, Caroline P. C. Chanel
Abstract要約: 非決定論的MDPに取り組むためにパラダイムを拡張します。統計的距離に基づく分類環境における検出しきい値を提案する。我々はWilcoxon符号付き統計テストに基づく連続環境における分布シフトのベンチマークを導入する。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Offline estimation of the dynamical model of a Markov Decision Process (MDP) is a non-trivial task that greatly depends on the data available to the learning phase. Sometimes the dynamics of the model is invariant with respect to some transformations of the current state and action. Recent works showed that an expert-guided pipeline relying on Density Estimation methods as Deep Neural Network based Normalizing Flows effectively detects this structure in deterministic environments, both categorical and continuous-valued. The acquired knowledge can be exploited to augment the original data set, leading eventually to a reduction in the distributional shift between the true and the learnt model. In this work we extend the paradigm to also tackle non deterministic MDPs, in particular 1) we propose a detection threshold in categorical environments based on statistical distances, 2) we introduce a benchmark of the distributional shift in continuous environments based on the Wilcoxon signed-rank statistical test and 3) we show that the former results lead to a performance improvement when solving the learnt MDP and then applying the optimal policy in the real environment.
Abstract（参考訳）: マルコフ決定過程(MDP)の動的モデルのオフライン推定は、学習フェーズで利用可能なデータに大きく依存する非自明なタスクである。時々、モデルのダイナミクスは、現在の状態と作用のいくつかの変換に関して不変である。近年の研究では,Deep Neural Network based Normalizing Flows として密度推定手法に依存する専門家誘導パイプラインが,分類的・連続的評価の両面で決定論的環境において,この構造を効果的に検出することを示した。獲得した知識を利用して元のデータセットを拡大し、最終的には真と学習モデルの間の分布シフトを減少させる。本研究では,非決定論的MDP,特にそのパラダイムを拡張した。 1) 統計的距離に基づくカテゴリー環境における検出しきい値を提案する。 2)Wilcoxon符号付き統計的テストとそれに基づく連続環境の分布変化のベンチマークを導入する。 3) 学習済みのMDPを解き, 実環境に最適なポリシーを適用すると, 前者の結果が性能改善につながることを示す。

関連論文リスト

Generative Actor Critic [74.04971271003869]
Generative Actor Critic (GAC) は、軌道上での関節分布の生成モデル学習として、テキスト政治評価を反映して、シーケンシャルな意思決定を分離する新しいフレームワークである。 Gym-MuJoCoとMaze2Dベンチマークの実験では、GACの強いオフライン性能と、最先端の手法と比較してオフラインからオフラインへの大幅な改善が示されている。
論文参考訳（メタデータ） (2025-12-25T06:31:11Z)
Reinforcement learning based data assimilation for unknown state model [3.032674692886751]
本研究では,強化学習とアンサンブルに基づくベイジアン・ファルトリング手法を組み合わせた新しい手法を提案する。提案フレームワークは, 非線形および部分観測計測モデルを含む, 幅広い観測シナリオに対応している。いくつかの数値的な例では,提案手法は高次元設定における精度とロバスト性を向上することを示した。
論文参考訳（メタデータ） (2025-11-04T05:58:37Z)
Exploring Structural Degradation in Dense Representations for Self-supervised Learning [84.52554180480037]
自己教師付き学習(SSL)における直感的な現象を観察する。我々は、この現象を自己教師付きDense Degradation(SDD)と呼び、16の最先端SSLメソッドに一貫した存在を示す。本稿では,クラス関連尺度と有効次元尺度からなるDense Expression Structure Estimator (DSE)を紹介する。
論文参考訳（メタデータ） (2025-10-20T08:40:16Z)
Dynamic Loss-Based Sample Reweighting for Improved Large Language Model Pretraining [55.262510814326035]
既存のリウェイト戦略は主にグループレベルのデータの重要性に焦点を当てている。動的・インスタンスレベルのデータ再重み付けのための新しいアルゴリズムを提案する。当社のフレームワークでは,冗長データや非形式データを優先的に再重み付けする戦略を考案することが可能です。
論文参考訳（メタデータ） (2025-02-10T17:57:15Z)
Adaptive Anomaly Detection in Network Flows with Low-Rank Tensor Decompositions and Deep Unrolling [9.20186865054847]
異常検出(AD)は、将来の通信システムのレジリエンスを確保するための重要な要素として、ますます認識されている。この研究は、不完全測定を用いたネットワークフローにおけるADについて考察する。本稿では,正規化モデル適合性に基づくブロック帰属凸近似アルゴリズムを提案する。ベイズ的アプローチに触発されて、我々はモデルアーキテクチャを拡張し、フローごとのオンライン適応とステップごとの統計処理を行う。
論文参考訳（メタデータ） (2024-09-17T19:59:57Z)
Effective Restoration of Source Knowledge in Continual Test Time Adaptation [44.17577480511772]
本稿では、動的環境におけるドメインシフトを識別できる教師なし領域変更検出手法を提案する。情報源から知識を復元することにより、モデルパラメータの段階的劣化に起因する負の結果を効果的に補正する。我々は,最先端の適応手法と比較して,提案手法の優れた性能を示すために,ベンチマークデータセットの広範な実験を行った。
論文参考訳（メタデータ） (2023-11-08T19:21:48Z)
Statistically Efficient Variance Reduction with Double Policy Estimation for Off-Policy Evaluation in Sequence-Modeled Reinforcement Learning [53.97273491846883]
本稿では、オフラインシーケンスモデリングとオフライン強化学習をダブルポリシー推定と組み合わせたRLアルゴリズムDPEを提案する。 D4RLベンチマークを用いて,OpenAI Gymの複数のタスクで本手法を検証した。
論文参考訳（メタデータ） (2023-08-28T20:46:07Z)
End-to-End Meta-Bayesian Optimisation with Transformer Neural Processes [52.818579746354665]
本稿では,ニューラルネットワークを一般化し,トランスフォーマーアーキテクチャを用いて獲得関数を学習する,エンド・ツー・エンドの差別化可能な最初のメタBOフレームワークを提案する。我々は、この強化学習(RL)によるエンドツーエンドのフレームワークを、ラベル付き取得データの欠如に対処できるようにします。
論文参考訳（メタデータ） (2023-05-25T10:58:46Z)
Variational Latent Branching Model for Off-Policy Evaluation [23.073461349048834]
マルコフ決定過程(MDP)の遷移関数を学習するための変動潜在分岐モデル(VLBM)を提案する。ランダムなモデル重みに対するモデルの堅牢性を改善するために分岐アーキテクチャを導入する。 VLBM は既存の OPE 手法よりも高い性能を示す。
論文参考訳（メタデータ） (2023-01-28T02:20:03Z)
Latent Variable Representation for Reinforcement Learning [131.03944557979725]
モデルに基づく強化学習のサンプル効率を改善するために、潜在変数モデルが学習、計画、探索をいかに促進するかは理論上、実証上、不明である。状態-作用値関数に対する潜在変数モデルの表現ビューを提供する。これは、抽出可能な変分学習アルゴリズムと楽観主義/悲観主義の原理の効果的な実装の両方を可能にする。特に,潜伏変数モデルのカーネル埋め込みを組み込んだUPB探索を用いた計算効率の良い計画アルゴリズムを提案する。
論文参考訳（メタデータ） (2022-12-17T00:26:31Z)
MARS: Meta-Learning as Score Matching in the Function Space [79.73213540203389]
本稿では,一連の関連するデータセットから帰納バイアスを抽出する手法を提案する。機能的ベイズニューラルネットワーク推論を用いて、前者をプロセスとみなし、関数空間で推論を行う。本手法は,データ生成プロセスのスコア関数をメタラーニングすることにより,複雑な事前知識をシームレスに獲得し,表現することができる。
論文参考訳（メタデータ） (2022-10-24T15:14:26Z)
Invariance Learning in Deep Neural Networks with Differentiable Laplace Approximations [76.82124752950148]
我々はデータ拡張を選択するための便利な勾配法を開発した。我々はKronecker-factored Laplace近似を我々の目的とする限界確率に近似する。
論文参考訳（メタデータ） (2022-02-22T02:51:11Z)
Expert-Guided Symmetry Detection in Markov Decision Processes [0.0]
MDP力学が不変である状態-作用空間の変換の存在を検出することを目的としたパラダイムを提案する。その結果, 検出した対称性を用いて得られたデータを用いてデータセットを拡張した場合, モデル分布シフトが小さくなることがわかった。
論文参考訳（メタデータ） (2021-11-19T16:12:30Z)
Learning Neural Models for Natural Language Processing in the Face of Distributional Shift [10.990447273771592]
特定のデータセットでひとつのタスクを実行するための強力な神経予測器をトレーニングするNLPのパラダイムが、さまざまなアプリケーションで最先端のパフォーマンスを実現している。データ分布が定常である、すなわち、トレーニングとテストの時間の両方で、データは固定された分布からサンプリングされる、という仮定に基づいて構築される。この方法でのトレーニングは、人間が絶えず変化する情報の流れの中で学習し、操作できる方法と矛盾する。データ分散がモデル寿命の経過とともにシフトすることが期待される実世界のユースケースに不適応である。
論文参考訳（メタデータ） (2021-09-03T14:29:20Z)
Learning to Continuously Optimize Wireless Resource in a Dynamic Environment: A Bilevel Optimization Perspective [52.497514255040514]
この研究は、データ駆動メソッドが動的環境でリソース割り当て戦略を継続的に学び、最適化することを可能にする新しいアプローチを開発しています。学習モデルが新たなエピソードに段階的に適応できるように、連続学習の概念を無線システム設計に組み込むことを提案する。我々の設計は、異なるデータサンプルにまたがる公平性を保証する、新しい二段階最適化定式化に基づいている。
論文参考訳（メタデータ） (2021-05-03T07:23:39Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。