Fugu-MT 論文翻訳(概要): Mitigating Partial Observability in Sequential Decision Processes via the Lambda Discrepancy

論文の概要: Mitigating Partial Observability in Sequential Decision Processes via the Lambda Discrepancy

arxiv url: http://arxiv.org/abs/2407.07333v3
Date: Thu, 14 Nov 2024 22:17:25 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:34.462883
Title: Mitigating Partial Observability in Sequential Decision Processes via the Lambda Discrepancy
Title（参考訳）: 逐次決定過程におけるLambda Disrepancyによる部分観測可能性の緩和
Authors: Cameron Allen, Aaron Kirtland, Ruo Yu Tao, Sam Lobel, Daniel Scott, Nicholas Petrocelli, Omer Gottesman, Ronald Parr, Michael L. Littman, George Konidaris,
Abstract要約: 強化学習アルゴリズムは通常、環境力学と値関数がマルコフ状態表現の言葉で表現できるという仮定に依存する。基礎となる、観測不可能な状態空間へのアクセスや知識を必要とせずに、両方の目的を達成できるメトリクスを導入します。私たちは、$lambda$-discrepancyがすべてのMarkov決定プロセスで完全にゼロであり、ほぼ常に、部分的に観察可能な環境の幅広いクラスではゼロではないことを証明しています。
参考スコア（独自算出の注目度）: 23.348746791650335
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Reinforcement learning algorithms typically rely on the assumption that the environment dynamics and value function can be expressed in terms of a Markovian state representation. However, when state information is only partially observable, how can an agent learn such a state representation, and how can it detect when it has found one? We introduce a metric that can accomplish both objectives, without requiring access to -- or knowledge of -- an underlying, unobservable state space. Our metric, the $\lambda$-discrepancy, is the difference between two distinct temporal difference (TD) value estimates, each computed using TD($\lambda$) with a different value of $\lambda$. Since TD($\lambda{=}0$) makes an implicit Markov assumption and TD($\lambda{=}1$) does not, a discrepancy between these estimates is a potential indicator of a non-Markovian state representation. Indeed, we prove that the $\lambda$-discrepancy is exactly zero for all Markov decision processes and almost always non-zero for a broad class of partially observable environments. We also demonstrate empirically that, once detected, minimizing the $\lambda$-discrepancy can help with learning a memory function to mitigate the corresponding partial observability. We then train a reinforcement learning agent that simultaneously constructs two recurrent value networks with different $\lambda$ parameters and minimizes the difference between them as an auxiliary loss. The approach scales to challenging partially observable domains, where the resulting agent frequently performs significantly better (and never performs worse) than a baseline recurrent agent with only a single value network.
Abstract（参考訳）: 強化学習アルゴリズムは通常、環境力学と値関数がマルコフ状態表現の言葉で表現できるという仮定に依存する。しかし、状態情報が部分的にしか観測できない場合、エージェントはそのような状態表現をどうやって学べばいいのか。基礎となる、観測不可能な状態空間へのアクセスや知識を必要とせずに、両方の目的を達成できるメトリクスを導入します。私たちの測定値である$\lambda$-discrepancyは、2つの異なる時間差(TD)値の差であり、それぞれが$\lambda$の値を持つTD($\lambda$)を使用して計算されます。 TD($\lambda{=}0$) は暗黙的なマルコフの仮定をし、TD($\lambda{=}1$) はそうでないので、これらの推定との相違は非マルコフ状態表現の潜在的指標である。実際、$\lambda$-discrepancy はすべての Markov 決定プロセスで完全にゼロであり、部分的に観測可能な環境の広いクラスではほとんどゼロではないことを証明しています。また、一度検出されると、$\lambda$-discrepancyを最小化することは、対応する部分観測可能性を軽減するためにメモリ関数を学ぶのに役立つことを実証的に示す。次に、異なる$\lambda$パラメータを持つ2つの繰り返し値ネットワークを同時に構築する強化学習エージェントを訓練し、それらの差を補助損失として最小化する。このアプローチは部分的に観測可能なドメインにスケールし、結果のエージェントは単一の値ネットワークしか持たないベースラインリカレントエージェントよりも、大幅にパフォーマンスが向上する(かつ、悪くはならない)。

関連論文リスト

Benchmarking Partial Observability in Reinforcement Learning with a Suite of Memory-Improvable Domains [11.791215135603963]
部分観測可能性の緩和は、一般的な強化学習アルゴリズムにとって難しい課題である。部分可観測性に対処するほとんどのアルゴリズムは、単純な状態エイリアスを持つベンチマークでのみ評価される。我々は、部分的に可観測性の下での実証的な強化学習のためのベストプラクティスガイドラインと、オープンソースのライブラリPOBAXを紹介します。
論文参考訳（メタデータ） (2025-07-31T16:11:37Z)
Online Fair Division for Personalized $2$-Value Instances [51.278096593080456]
オンラインフェアディビジョン(オンラインフェアディビジョン)では,商品が一度に1つずつ到着し,定額のエージェントが配置されている。善が現れると、各エージェントの持つ値が明らかになり、エージェントの1つに即時かつ不可逆的に割り当てられなければならない。我々は、よく知られた公平性の概念に関して、最悪の場合の保証を得る方法を示す。
論文参考訳（メタデータ） (2025-05-28T09:48:16Z)
Discounted Online Convex Optimization: Uniform Regret Across a Continuous Interval [14.477697136416852]
DNP (Discounted-Normal-Predictor) と呼ばれる割引アルゴリズムが2人の専門家の判断を組み合わせられることを示す。分析の結果、DNPは2人の専門家の判断を組み合わせられることが明らかとなった。
論文参考訳（メタデータ） (2025-05-26T04:20:51Z)
Locally minimax optimal and dimension-agnostic discrete argmin inference [33.17951971728784]
この論文は基本的な推論問題に取り組む:$d$次元ベクトルから未知の平均$boldsymbolmu$を持つ$d$次元ベクトルから$n$の観測を与えられると、$boldsymbolmu$の最小成分に対応する指数に対する信頼セットを形成する必要がある。双対性により、$mu_r$が最小かどうかに関わらず、$r$の$1,ldots,d$に対して、これをテストに還元する。我々は$d$が$n$でスケールするか、$boldの任意の関係にかかわらず、妥当性を維持する「次元に依存しない」テストを提案する。
論文参考訳（メタデータ） (2025-03-27T16:06:07Z)
Deep Transfer Learning: Model Framework and Error Analysis [4.898032902660655]
本稿では,単ドメインダウンストリームタスクに対して,サンプル$n$を多用したディープトランスファー学習のためのフレームワークを提案する。我々のフレームワークは、ダウンストリームタスクに寄与するアップストリーム機能を明確に特定し、アップストリームドメインとダウンストリームタスクの間に明確な関係を確立する。誤り解析により、下流教師ありタスクにおけるリプシッツ関数の学習における収束率を大幅に向上できることが示された。
論文参考訳（メタデータ） (2024-10-12T06:24:35Z)
Extracting Dynamical Maps of Non-Markovian Open Quantum Systems [0.0]
Lambda(tau)$は、システムと1つ以上の熱浴を、弱くも強くもない強度で突然結合することによって生じることを示す。我々はChoi-Jamiolkowski同型を使い、$hatLambda(tau)$を完全に再構成することができる。スピンレスフェルミ連鎖と単一不純物アンダーソンモデルとの相互作用の数値的な例は、我々のアプローチが大きなスピードアップをもたらす状態を示す。
論文参考訳（メタデータ） (2024-09-25T16:09:03Z)
Accelerating the Global Aggregation of Local Explanations [43.787092409977724]
我々は,Anchorアルゴリズムのグローバルアグリゲーションを高速化する手法を考案した。非常に軽度な品質の損失に対して、計算を最大30$times$で高速化し、計算時間を数時間から数分に短縮できることを示す。
論文参考訳（メタデータ） (2023-12-13T09:03:01Z)
Horizon-Free and Variance-Dependent Reinforcement Learning for Latent Markov Decision Processes [62.90204655228324]
我々は,後期マルコフ決定過程(LMDP)における強化学習(RL)の文脈を考慮した後悔の最小化について検討した。我々は,モデル最適化と値最適化の両手法でインスタンス化できる,新しいモデルベースアルゴリズムフレームワークを設計する。
論文参考訳（メタデータ） (2022-10-20T21:32:01Z)
Faster Convergence of Local SGD for Over-Parameterized Models [1.5504102675587357]
現代の機械学習アーキテクチャは、しばしば非常に表現力が高い。不均一なデータ設定における過パラメータ化関数に対する局所SGD(またはFedAvg)の収束を解析する。一般凸損失関数に対しては、$O(K/T)$の誤差が成立する。非剰余関数に対しては、どちらの場合も$O(K/T)$の誤差が証明される。確立された収束率を、合理的に小さなステップサイズで一定の要因に密着した問題インスタンスを提供することで、結果を完成させる。
論文参考訳（メタデータ） (2022-01-30T04:05:56Z)
Self-Supervised Learning Disentangled Group Representation as Feature [82.07737719232972]
既存の自己監督学習(SSL)は、回転や着色などの単純な拡張機能のみを分解することを示す。反復的分割に基づく不変リスク最小化(IP-IRM)を提案する。我々は、IP-IRMが完全に不整合表現に収束し、様々なベンチマークでその効果を示すことを証明した。
論文参考訳（メタデータ） (2021-10-28T16:12:33Z)
Probabilistic semi-nonnegative matrix factorization: a Skellam-based framework [0.7310043452300736]
我々は,Skellam-SNMFと呼ばれる半負行列分解(SNMF)に対処する新しい確率モデルを提案する。先行成分,スケラム分布型隠れ変数,観測データからなる階層的生成モデルである。 2つの推論アルゴリズムが導出される: 最大エンファ後推定のための期待最大化(EM)アルゴリズムと、完全ベイズ推定のためのヴァリベイズEM(VBEM)アルゴリズム。
論文参考訳（メタデータ） (2021-07-07T15:56:22Z)
Instance-optimality in optimal value estimation: Adaptivity via variance-reduced Q-learning [99.34907092347733]
本稿では,マルコフ決定過程における最適な$Q$値関数を離散状態と動作で推定する問題を解析する。局所的なミニマックスフレームワークを用いて、この関数は任意の推定手順の精度の低い境界に現れることを示す。他方,Q$ラーニングの分散還元版を解析することにより,状態と行動空間の対数的要因まで,下位境界のシャープさを確立する。
論文参考訳（メタデータ） (2021-06-28T00:38:54Z)
Improved Sample Complexity for Incremental Autonomous Exploration in MDPs [132.88757893161699]
我々は $epsilon$-optimal 目標条件付きポリシーのセットを学び、$ L$ ステップ内で段階的に到達可能なすべての状態を達成します。 DisCoは、コストに敏感な最短経路問題に対して$epsilon/c_min$-optimalポリシーを返すことができる最初のアルゴリズムです。
論文参考訳（メタデータ） (2020-12-29T14:06:09Z)
Temporal Difference Learning as Gradient Splitting [15.321579527891457]
勾配降下の収束証明は時間差学習にほぼ冗長に適用可能であることを示す。値関数の平均を推定するTD学習における小さな変化は、1/(1-ガンマ)$1の乗算項のみを無作為に無視する収束時間を持つことを示す。
論文参考訳（メタデータ） (2020-10-27T22:50:39Z)
Improving Robustness and Generality of NLP Models Using Disentangled Representations [62.08794500431367]
スーパービジョンニューラルネットワークはまず入力$x$を単一の表現$z$にマップし、次に出力ラベル$y$にマッピングする。本研究では,非交叉表現学習の観点から,NLPモデルの堅牢性と汎用性を改善する手法を提案する。提案した基準でトレーニングしたモデルは、広範囲の教師付き学習タスクにおいて、より堅牢性とドメイン適応性を向上することを示す。
論文参考訳（メタデータ） (2020-09-21T02:48:46Z)
Model-Based Multi-Agent RL in Zero-Sum Markov Games with Near-Optimal Sample Complexity [67.02490430380415]
モデルに基づくMARLは、Nash平衡値(NE)を求めるために$tilde O(|S||B|(gamma)-3epsilon-2)$のサンプル複雑性を実現する。また、アルゴリズムが報酬に依存しない場合、そのようなサンプル境界は最小値(対数因子まで)であり、アルゴリズムは報酬知識のない遷移サンプルを問合せする。
論文参考訳（メタデータ） (2020-07-15T03:25:24Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。