論文の概要: Sample Complexity of Distributionally Robust Off-Dynamics Reinforcement Learning with Online Interaction
- arxiv url: http://arxiv.org/abs/2511.05396v1
- Date: Fri, 07 Nov 2025 16:24:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-10 21:00:44.833611
- Title: Sample Complexity of Distributionally Robust Off-Dynamics Reinforcement Learning with Online Interaction
- Title(参考訳): オンラインインタラクションを用いた分散ロバストなオフダイナミックス強化学習のサンプル複雑性
- Authors: Yiting He, Zhishuai Liu, Weixin Wang, Pan Xu,
- Abstract要約: 強靭なマルコフ決定過程(RMDP)における学習として、オフダイナミックス強化学習(RL)を定式化することができる。
我々は、エージェントがトレーニング環境とのオンラインインタラクションに制限される、より現実的で困難な環境について研究する。
- 参考スコア(独自算出の注目度): 11.339580074756187
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Off-dynamics reinforcement learning (RL), where training and deployment transition dynamics are different, can be formulated as learning in a robust Markov decision process (RMDP) where uncertainties in transition dynamics are imposed. Existing literature mostly assumes access to generative models allowing arbitrary state-action queries or pre-collected datasets with a good state coverage of the deployment environment, bypassing the challenge of exploration. In this work, we study a more realistic and challenging setting where the agent is limited to online interaction with the training environment. To capture the intrinsic difficulty of exploration in online RMDPs, we introduce the supremal visitation ratio, a novel quantity that measures the mismatch between the training dynamics and the deployment dynamics. We show that if this ratio is unbounded, online learning becomes exponentially hard. We propose the first computationally efficient algorithm that achieves sublinear regret in online RMDPs with $f$-divergence based transition uncertainties. We also establish matching regret lower bounds, demonstrating that our algorithm achieves optimal dependence on both the supremal visitation ratio and the number of interaction episodes. Finally, we validate our theoretical results through comprehensive numerical experiments.
- Abstract(参考訳): トレーニングと展開の遷移力学が異なるオフダイナミックス強化学習(RL)は、遷移力学の不確実性が課されるロバストマルコフ決定過程(RMDP)において学習として定式化することができる。
既存の文献は、任意の状態アクションクエリや、デプロイメント環境の良好な状態カバレッジを持つ事前コンパイルデータセットを許容する生成モデルへのアクセスを前提としており、探索の課題を回避している。
本研究では,エージェントがトレーニング環境とのオンラインインタラクションに限定された,より現実的で困難な環境について検討する。
オンラインRMDPにおける本質的な探究の難しさを捉えるため,トレーニング力学とデプロイメント力学のミスマッチを計測する新たな量である最上位訪問比を導入する。
この比率が非有界である場合、オンライン学習は指数関数的に困難になる。
本稿では,オンラインRMDPにおけるサブ線形後悔を,$f$-divergenceに基づく遷移不確実性を伴う計算効率の良いアルゴリズムを提案する。
また,提案アルゴリズムが最短訪問率と対話エピソード数の両方に最適な依存度を達成できることを示す。
最後に, 総合的な数値実験により理論的結果を検証した。
関連論文リスト
- See, Think, Act: Online Shopper Behavior Simulation with VLM Agents [58.92444959954643]
本稿では,視覚情報,特にWebページスクリーンショットのVLMによる動作シミュレーションへの統合について検討する。
我々は,協調行動予測と合理化生成にSFTを用いて,相互作用の完全な文脈を条件づける。
推論能力をさらに強化するため,RLを階層的な報酬構造と統合し,難易度因子によって拡張する。
論文 参考訳(メタデータ) (2025-10-22T05:07:14Z) - Counterfactual experience augmented off-policy reinforcement learning [9.77739016575541]
CEAは効率的な推論モデルを構築し、学習データの表現性を向上する。
変分オートエンコーダを使用して状態遷移の動的パターンをモデル化する。
学習データのアウト・オブ・ディストリビューション問題を緩和するために、完全な反ファクト体験を構築する。
論文 参考訳(メタデータ) (2025-03-18T02:32:50Z) - In-Context Linear Regression Demystified: Training Dynamics and Mechanistic Interpretability of Multi-Head Softmax Attention [52.159541540613915]
本研究では,マルチヘッド型ソフトマックスアテンションモデルを用いて,線形データを用いたコンテキスト内学習を行う方法について検討する。
この結果から,学習内容の学習能力は,そのアーキテクチャと基礎となるデータ分布の集約的効果として,訓練されたトランスフォーマーから出現することが明らかとなった。
論文 参考訳(メタデータ) (2025-03-17T02:00:49Z) - Scalable Offline Reinforcement Learning for Mean Field Games [6.8267158622784745]
Off-MMDは、純粋なオフラインデータを用いて平均フィールドゲームにおける平衡ポリシーを近似する新しい平均フィールドRLアルゴリズムである。
我々のアルゴリズムは複雑な環境にスケールし、群衆探索やナビゲーションといったベンチマークタスクで強いパフォーマンスを示す。
論文 参考訳(メタデータ) (2024-10-23T14:16:34Z) - Dynamic Environment Responsive Online Meta-Learning with Fairness
Awareness [30.44174123736964]
本稿では,FairSAOMLと呼ばれる,適応フェアネスを考慮したオンラインメタ学習アルゴリズムを提案する。
動的環境下での様々な実世界のデータセットに対する実験評価により,提案アルゴリズムが一貫した代替手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-02-19T17:44:35Z) - Distributionally Robust Model-based Reinforcement Learning with Large
State Spaces [55.14361269378122]
強化学習における3つの大きな課題は、大きな状態空間を持つ複雑な力学系、コストのかかるデータ取得プロセス、トレーニング環境の展開から現実の力学を逸脱させることである。
広範に用いられているKullback-Leibler, chi-square, および全変分不確実性集合の下で, 連続状態空間を持つ分布ロバストなマルコフ決定過程について検討した。
本稿では,ガウス過程と最大分散削減アルゴリズムを用いて,多出力名目遷移力学を効率的に学習するモデルベースアプローチを提案する。
論文 参考訳(メタデータ) (2023-09-05T13:42:11Z) - Conditional Kernel Imitation Learning for Continuous State Environments [9.750698192309978]
条件付きカーネル密度推定に基づく新しい模倣学習フレームワークを提案する。
我々は、多くの最先端ILアルゴリズムよりも一貫して優れた経験的性能を示す。
論文 参考訳(メタデータ) (2023-08-24T05:26:42Z) - Smoothed Online Learning for Prediction in Piecewise Affine Systems [43.64498536409903]
本稿では,最近開発されたスムーズなオンライン学習フレームワークに基づく。
これは、断片的なアフィン系における予測とシミュレーションのための最初のアルゴリズムを提供する。
論文 参考訳(メタデータ) (2023-01-26T15:54:14Z) - Latent Variable Representation for Reinforcement Learning [131.03944557979725]
モデルに基づく強化学習のサンプル効率を改善するために、潜在変数モデルが学習、計画、探索をいかに促進するかは理論上、実証上、不明である。
状態-作用値関数に対する潜在変数モデルの表現ビューを提供する。これは、抽出可能な変分学習アルゴリズムと楽観主義/悲観主義の原理の効果的な実装の両方を可能にする。
特に,潜伏変数モデルのカーネル埋め込みを組み込んだUPB探索を用いた計算効率の良い計画アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-12-17T00:26:31Z) - Robust Inverse Reinforcement Learning under Transition Dynamics Mismatch [60.23815709215807]
本研究では,逆強化学習(IRL)問題について,専門家と学習者間の遷移力学ミスマッチの下で検討する。
本稿では,このミスマッチを支援するための基本手法として,ロバストなMCE IRLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-07-02T14:57:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。