Fugu-MT 論文翻訳(概要): Relaxing the Markov Requirements on Reinforcement Learning Under Weak Partial Ignorability

論文の概要: Relaxing the Markov Requirements on Reinforcement Learning Under Weak Partial Ignorability

arxiv url: http://arxiv.org/abs/2504.07722v1
Date: Thu, 10 Apr 2025 13:15:52 GMT
ステータス: 翻訳完了
システム内更新日: 2025-04-18 17:36:14.94251
Title: Relaxing the Markov Requirements on Reinforcement Learning Under Weak Partial Ignorability
Title（参考訳）: 弱部分無視下での強化学習におけるマルコフ要件の緩和
Authors: MaryLena Bleile,
Abstract要約: 我々は「部分的不確実性」の概念を導入し、適応強化学習のための新しい収束定理を確立する。この理論的結果は、従来の$Q$-ラーニングの過程におけるマルコフの仮定を緩和し、最適性を確立するためにロビンズ・モンロ近似定理の一般化形式を展開させる。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Incomplete data, confounding effects, and violations of the Markov property are interrelated problems which are ubiquitous in Reinforcement Learning applications. We introduce the concept of ``partial ignorabilty" and leverage it to establish a novel convergence theorem for adaptive Reinforcement Learning. This theoretical result relaxes the Markov assumption on the stochastic process underlying conventional $Q$-learning, deploying a generalized form of the Robbins-Monro stochastic approximation theorem to establish optimality. This result has clear downstream implications for most active subfields of Reinforcement Learning, with clear paths for extension to the field of Causal Inference.
Abstract（参考訳）: 不完全データ、境界効果、マルコフ特性の違反は、強化学習アプリケーションにおいてユビキタスな相互関係の問題である。本稿では,「部分的不確実性」の概念を導入し,適応的強化学習のための新しい収束定理を確立する。この理論的な結果は、従来の$Q$ラーニングに基づく確率過程に関するマルコフの仮定を緩和し、最適性を確立するためにロビンズ・モンロー確率近似定理の一般化形式を展開させる。この結果は、強化学習の最も活発なサブフィールドに対して、因果推論の分野に拡張するための明確な経路を持つ、明らかなダウンストリーム的意味を持つ。

関連論文リスト

Supervised Optimism Correction: Be Confident When LLMs Are Sure [91.7459076316849]
教師付き微調整とオフライン強化学習の間には,新たな理論的関係が確立されている。広く使われているビームサーチ法は、許容できない過度な最適化に悩まされていることを示す。本稿では,トークンレベル$Q$-value推定のための簡易かつ効果的な補助的損失を導入したSupervised Optimism Correctionを提案する。
論文参考訳（メタデータ） (2025-04-10T07:50:03Z)
Uncertainty quantification for Markov chains with application to temporal difference learning [63.49764856675643]
マルコフ連鎖のベクトル値および行列値関数に対する新しい高次元濃度不等式とベリー・エッシー境界を開発する。我々は、強化学習における政策評価に広く用いられているTD学習アルゴリズムを解析する。
論文参考訳（メタデータ） (2025-02-19T15:33:55Z)
Identifiability Guarantees for Causal Disentanglement from Purely Observational Data [10.482728002416348]
因果解離は、データの背後にある潜在因果関係について学ぶことを目的としている。近年の進歩は、(単一の)潜伏因子への介入が可能であると仮定して、識別可能性(identifiability)が確立されている。非線形因果モデルで同定できる潜伏因子の高精度な評価法を提案する。
論文参考訳（メタデータ） (2024-10-31T04:18:29Z)
Bounds on the Generalization Error in Active Learning [0.0]
一般化誤差に上限の族を導出することにより,能動的学習のための経験的リスク原理を確立する。我々は,多種多様な能動学習シナリオを体系的にリンクし,それらの損失関数と仮説クラスを対応する上界に関連付ける。この結果から,様々な仮説クラスの複雑性を制約するために用いられる正規化手法は,境界の妥当性を確保するのに十分な条件であることが示唆された。
論文参考訳（メタデータ） (2024-09-10T08:08:09Z)
Fine-Grained Causal Dynamics Learning with Quantization for Improving Robustness in Reinforcement Learning [26.34622544479565]
因果ダイナミクス学習は、強化学習における堅牢性を高めるための有望なアプローチである。本稿では,微粒な因果構造を推定し,それらを予測に利用する新しいモデルを提案する。
論文参考訳（メタデータ） (2024-06-05T13:13:58Z)
Learning Latent Graph Structures and their Uncertainty [63.95971478893842]
グラフニューラルネットワーク(GNN)は、モデル精度を高めるために帰納バイアスとしてリレーショナル情報を使用する。課題関連関係が不明なため,下流予測タスクを解きながら学習するためのグラフ構造学習手法が提案されている。
論文参考訳（メタデータ） (2024-05-30T10:49:22Z)
Explainability through uncertainty: Trustworthy decision-making with neural networks [1.104960878651584]
不確実性は、あらゆる機械学習モデルの主要な特徴である。ニューラルネットワークでは特に重要であり、過信されがちである。 XAIとしての不確実性は、下流の意思決定タスクにおけるモデルの信頼性を改善する。
論文参考訳（メタデータ） (2024-03-15T10:22:48Z)
Extending Complex Logical Queries on Uncertain Knowledge Graphs [50.360531130930646]
機械学習に基づく論理クエリ応答の研究は、大規模かつ不完全な知識グラフによる推論を可能にする。我々は,大規模,不完全,不確実な知識グラフ上でのソフトクエリに応答するために,前方推論と後方校正の両方を組み込んだニューラルシンボリックアプローチを提案する。
論文参考訳（メタデータ） (2024-03-03T13:13:53Z)
Consciousness-Inspired Spatio-Temporal Abstractions for Better Generalization in Reinforcement Learning [83.41487567765871]
Skipperはモデルベースの強化学習フレームワークである。これは、与えられたタスクをより小さく、より管理しやすいサブタスクに自動的に一般化する。環境の関連部分には、スパースな意思決定と集中した抽象化を可能にする。
論文参考訳（メタデータ） (2023-09-30T02:25:18Z)
Topology-aware Robust Optimization for Out-of-distribution Generalization [18.436575017126323]
アウト・オブ・ディストリビューション(OOD)の一般化は難しい機械学習問題であるが、多くの高スループットアプリケーションで非常に望ましい。本稿では,分散トポロジを原理的最適化フレームワークにシームレスに統合するトポロジ対応ロバスト最適化(TRO)を提案する。提案手法の有効性を理論的に実証し, 分類, 回帰, セマンティックセグメンテーションを含む幅広いタスクにおいて, 芸術の状態を著しく上回っていることを示す。
論文参考訳（メタデータ） (2023-07-26T03:48:37Z)
Seeing is not Believing: Robust Reinforcement Learning against Spurious Correlation [57.351098530477124]
国家の異なる部分には、保存されていない共同設立者が引き起こす相関関係が存在しない。このような役に立たないあるいは有害な相関を学習するモデルは、テストケースの共同創設者がトレーニングケースから逸脱したときに破滅的に失敗する可能性がある。したがって、単純かつ非構造的な不確実性集合を仮定する既存の頑健なアルゴリズムは、この問題に対処するには不十分である。
論文参考訳（メタデータ） (2023-07-15T23:53:37Z)
Advancing Counterfactual Inference through Nonlinear Quantile Regression [77.28323341329461]
ニューラルネットワークで実装された効率的かつ効果的な対実的推論のためのフレームワークを提案する。提案手法は、推定された反事実結果から見つからないデータまでを一般化する能力を高める。複数のデータセットで実施した実証実験の結果は、我々の理論的な主張に対する説得力のある支持を提供する。
論文参考訳（メタデータ） (2023-06-09T08:30:51Z)
Inconsistency, Instability, and Generalization Gap of Deep Neural Network Training [14.871738070617491]
不整合は、損失景観の鋭さよりも、一般化ギャップの信頼性の高い指標であることを示す。この結果は、共蒸留やアンサンブルといった既存の手法の理論的基盤も提供する。
論文参考訳（メタデータ） (2023-05-31T20:28:13Z)
Fine-grained analysis of non-parametric estimation for pairwise learning [9.676007573960383]
ペアワイズ学習における非パラメトリック推定の一般化性能について検討する。我々の結果は、ランキング、AUC、ペアワイズ回帰、メートル法、類似性学習など、幅広いペアワイズ学習問題に対処するために利用できる。
論文参考訳（メタデータ） (2023-05-31T08:13:14Z)
Robust Fitted-Q-Evaluation and Iteration under Sequentially Exogenous Unobserved Confounders [16.193776814471768]
連続的に外生的でない共同設立者が存在する場合、ロバストな政策評価と政策最適化について検討する。本研究は,敗血症治療のシミュレーションと実世界の縦断医療データの両方において,複雑性境界,洞察,有効性を示す。
論文参考訳（メタデータ） (2023-02-01T18:40:53Z)
HiURE: Hierarchical Exemplar Contrastive Learning for Unsupervised Relation Extraction [60.80849503639896]
非教師なし関係抽出は、関係範囲や分布に関する事前情報のない自然言語文からエンティティ間の関係を抽出することを目的としている。本稿では,階層間注目を用いた階層的特徴空間から階層的信号を導出する機能を持つ,HiUREという新しいコントラスト学習フレームワークを提案する。 2つの公開データセットの実験結果は、最先端モデルと比較した場合の教師なし関係抽出におけるHiUREの有効性とロバスト性を示す。
論文参考訳（メタデータ） (2022-05-04T17:56:48Z)
Pessimistic Q-Learning for Offline Reinforcement Learning: Towards Optimal Sample Complexity [51.476337785345436]
有限水平マルコフ決定過程の文脈におけるQ-ラーニングの悲観的変種について検討する。ほぼ最適サンプル複雑性を実現するために,分散再現型悲観的Q-ラーニングアルゴリズムを提案する。
論文参考訳（メタデータ） (2022-02-28T15:39:36Z)
Optimal variance-reduced stochastic approximation in Banach spaces [114.8734960258221]
可分バナッハ空間上で定義された収縮作用素の定点を推定する問題について検討する。演算子欠陥と推定誤差の両方に対して漸近的でない境界を確立する。
論文参考訳（メタデータ） (2022-01-21T02:46:57Z)
Leveraging Unlabeled Data for Entity-Relation Extraction through Probabilistic Constraint Satisfaction [54.06292969184476]
シンボリックドメイン知識の存在下でのエンティティ関係抽出の問題を研究する。本手法では,論理文の正確な意味を捉える意味的損失を用いる。低データ体制に焦点をあてて、セマンティックな損失がベースラインをはるかに上回ることを示す。
論文参考訳（メタデータ） (2021-03-20T00:16:29Z)
Disentangling Observed Causal Effects from Latent Confounders using Method of Moments [67.27068846108047]
我々は、軽度の仮定の下で、識別性と学習可能性に関する保証を提供する。我々は,線形制約付き結合テンソル分解に基づく効率的なアルゴリズムを開発し,スケーラブルで保証可能な解を得る。
論文参考訳（メタデータ） (2021-01-17T07:48:45Z)
Robust Unsupervised Learning via L-Statistic Minimization [38.49191945141759]
教師なし学習に焦点をあて、この問題に対する一般的なアプローチを提示する。重要な仮定は、摂動分布は、許容モデルの特定のクラスに対するより大きな損失によって特徴付けられることである。教師なし学習におけるいくつかのポピュラーモデルに対する提案基準に関して,一様収束境界を証明した。
論文参考訳（メタデータ） (2020-12-14T10:36:06Z)
Uncertainty as a Form of Transparency: Measuring, Communicating, and Using Uncertainty [66.17147341354577]
我々は,モデル予測に関連する不確実性を推定し,伝達することにより,相補的な透明性の形式を考えることについて議論する。モデルの不公平性を緩和し、意思決定を強化し、信頼できるシステムを構築するために不確実性がどのように使われるかを説明する。この研究は、機械学習、可視化/HCI、デザイン、意思決定、公平性にまたがる文学から引き出された学際的レビューを構成する。
論文参考訳（メタデータ） (2020-11-15T17:26:14Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。