論文の概要: Relaxing the Markov Requirements on Reinforcement Learning Under Weak Relative Ignorability
- arxiv url: http://arxiv.org/abs/2504.07722v3
- Date: Sun, 20 Apr 2025 16:06:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-30 12:28:56.104643
- Title: Relaxing the Markov Requirements on Reinforcement Learning Under Weak Relative Ignorability
- Title(参考訳): 弱相対無視下での強化学習におけるマルコフ要件の緩和
- Authors: MaryLena Bleile,
- Abstract要約: 我々は「相対的不確実性」の概念を導入し、適応強化学習のための新しい収束定理を確立する。
この理論的結果は、従来の$Q$-ラーニングの過程におけるマルコフの仮定を緩和し、最適性を確立するためにロビンズ・モンロ近似定理の一般化形式を展開させる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Incomplete data, confounding effects, and violations of the Markov property are interrelated problems which are ubiquitous in Reinforcement Learning applications. We introduce the concept of ``relative ignorabilty" and leverage it to establish a novel convergence theorem for adaptive Reinforcement Learning. This theoretical result relaxes the Markov assumption on the stochastic process underlying conventional $Q$-learning, deploying a generalized form of the Robbins-Monro stochastic approximation theorem to establish optimality. This result has clear downstream implications for most active subfields of Reinforcement Learning, with clear paths for extension to the field of Causal Inference.
- Abstract(参考訳): 不完全データ、境界効果、マルコフ特性の違反は、強化学習アプリケーションにおいてユビキタスな相互関係の問題である。
本稿では,「相対的不確実性」の概念を導入し,適応的強化学習のための新しい収束定理を確立する。
この理論的な結果は、従来の$Q$ラーニングに基づく確率過程に関するマルコフの仮定を緩和し、最適性を確立するためにロビンズ・モンロー確率近似定理の一般化形式を展開させる。
この結果は、強化学習の最も活発なサブフィールドに対して、因果推論の分野に拡張するための明確な経路を持つ、明らかなダウンストリーム的意味を持つ。
関連論文リスト
- Supervised Optimism Correction: Be Confident When LLMs Are Sure [91.7459076316849]
教師付き微調整とオフライン強化学習の間には,新たな理論的関係が確立されている。
広く使われているビームサーチ法は、許容できない過度な最適化に悩まされていることを示す。
本稿では,トークンレベル$Q$-value推定のための簡易かつ効果的な補助的損失を導入したSupervised Optimism Correctionを提案する。
論文 参考訳(メタデータ) (2025-04-10T07:50:03Z) - Uncertainty quantification for Markov chains with application to temporal difference learning [63.49764856675643]
マルコフ連鎖のベクトル値および行列値関数に対する新しい高次元濃度不等式とベリー・エッシー境界を開発する。
我々は、強化学習における政策評価に広く用いられているTD学習アルゴリズムを解析する。
論文 参考訳(メタデータ) (2025-02-19T15:33:55Z) - Bounds on the Generalization Error in Active Learning [0.0]
一般化誤差に上限の族を導出することにより,能動的学習のための経験的リスク原理を確立する。
我々は,多種多様な能動学習シナリオを体系的にリンクし,それらの損失関数と仮説クラスを対応する上界に関連付ける。
この結果から,様々な仮説クラスの複雑性を制約するために用いられる正規化手法は,境界の妥当性を確保するのに十分な条件であることが示唆された。
論文 参考訳(メタデータ) (2024-09-10T08:08:09Z) - Fine-Grained Causal Dynamics Learning with Quantization for Improving Robustness in Reinforcement Learning [26.34622544479565]
因果ダイナミクス学習は、強化学習における堅牢性を高めるための有望なアプローチである。
本稿では,微粒な因果構造を推定し,それらを予測に利用する新しいモデルを提案する。
論文 参考訳(メタデータ) (2024-06-05T13:13:58Z) - Learning Latent Graph Structures and their Uncertainty [63.95971478893842]
グラフニューラルネットワーク(GNN)は、モデル精度を高めるために帰納バイアスとしてリレーショナル情報を使用する。
課題関連関係が不明なため,下流予測タスクを解きながら学習するためのグラフ構造学習手法が提案されている。
論文 参考訳(メタデータ) (2024-05-30T10:49:22Z) - Consciousness-Inspired Spatio-Temporal Abstractions for Better Generalization in Reinforcement Learning [83.41487567765871]
Skipperはモデルベースの強化学習フレームワークである。
これは、与えられたタスクをより小さく、より管理しやすいサブタスクに自動的に一般化する。
環境の関連部分には、スパースな意思決定と集中した抽象化を可能にする。
論文 参考訳(メタデータ) (2023-09-30T02:25:18Z) - Topology-aware Robust Optimization for Out-of-distribution
Generalization [18.436575017126323]
アウト・オブ・ディストリビューション(OOD)の一般化は難しい機械学習問題であるが、多くの高スループットアプリケーションで非常に望ましい。
本稿では,分散トポロジを原理的最適化フレームワークにシームレスに統合するトポロジ対応ロバスト最適化(TRO)を提案する。
提案手法の有効性を理論的に実証し, 分類, 回帰, セマンティックセグメンテーションを含む幅広いタスクにおいて, 芸術の状態を著しく上回っていることを示す。
論文 参考訳(メタデータ) (2023-07-26T03:48:37Z) - Advancing Counterfactual Inference through Nonlinear Quantile Regression [77.28323341329461]
ニューラルネットワークで実装された効率的かつ効果的な対実的推論のためのフレームワークを提案する。
提案手法は、推定された反事実結果から見つからないデータまでを一般化する能力を高める。
複数のデータセットで実施した実証実験の結果は、我々の理論的な主張に対する説得力のある支持を提供する。
論文 参考訳(メタデータ) (2023-06-09T08:30:51Z) - Fine-grained analysis of non-parametric estimation for pairwise learning [9.676007573960383]
ペアワイズ学習における非パラメトリック推定の一般化性能について検討する。
我々の結果は、ランキング、AUC、ペアワイズ回帰、メートル法、類似性学習など、幅広いペアワイズ学習問題に対処するために利用できる。
論文 参考訳(メタデータ) (2023-05-31T08:13:14Z) - HiURE: Hierarchical Exemplar Contrastive Learning for Unsupervised
Relation Extraction [60.80849503639896]
非教師なし関係抽出は、関係範囲や分布に関する事前情報のない自然言語文からエンティティ間の関係を抽出することを目的としている。
本稿では,階層間注目を用いた階層的特徴空間から階層的信号を導出する機能を持つ,HiUREという新しいコントラスト学習フレームワークを提案する。
2つの公開データセットの実験結果は、最先端モデルと比較した場合の教師なし関係抽出におけるHiUREの有効性とロバスト性を示す。
論文 参考訳(メタデータ) (2022-05-04T17:56:48Z) - Optimal variance-reduced stochastic approximation in Banach spaces [114.8734960258221]
可分バナッハ空間上で定義された収縮作用素の定点を推定する問題について検討する。
演算子欠陥と推定誤差の両方に対して漸近的でない境界を確立する。
論文 参考訳(メタデータ) (2022-01-21T02:46:57Z) - Leveraging Unlabeled Data for Entity-Relation Extraction through
Probabilistic Constraint Satisfaction [54.06292969184476]
シンボリックドメイン知識の存在下でのエンティティ関係抽出の問題を研究する。
本手法では,論理文の正確な意味を捉える意味的損失を用いる。
低データ体制に焦点をあてて、セマンティックな損失がベースラインをはるかに上回ることを示す。
論文 参考訳(メタデータ) (2021-03-20T00:16:29Z) - Robust Unsupervised Learning via L-Statistic Minimization [38.49191945141759]
教師なし学習に焦点をあて、この問題に対する一般的なアプローチを提示する。
重要な仮定は、摂動分布は、許容モデルの特定のクラスに対するより大きな損失によって特徴付けられることである。
教師なし学習におけるいくつかのポピュラーモデルに対する提案基準に関して,一様収束境界を証明した。
論文 参考訳(メタデータ) (2020-12-14T10:36:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。