論文の概要: Sample-Efficient Tabular Self-Play for Offline Robust Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2512.00352v1
- Date: Sat, 29 Nov 2025 06:45:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-02 19:46:34.189664
- Title: Sample-Efficient Tabular Self-Play for Offline Robust Reinforcement Learning
- Title(参考訳): オフラインロバスト強化学習のためのサンプル高能率タブラルセルフプレイ
- Authors: Na Li, Zewu Zheng, Wei Ni, Hangguan Shan, Wenjie Zhang, Xinyu Li,
- Abstract要約: オフライン設定では、ロバストな2プレイヤーゼロサムマルコフゲーム(TZMG)に焦点を当てる。
本稿では,オフラインRTZMGに対するモデルベースアルゴリズム(textitRTZ-VI-LCB)を提案する。
状態空間と動作空間の両方で最適である,我々のアルゴリズムのサンプル複雑性の厳密性を確認するために,情報理論の下界が開発された。
- 参考スコア(独自算出の注目度): 29.063170235480317
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-agent reinforcement learning (MARL), as a thriving field, explores how multiple agents independently make decisions in a shared dynamic environment. Due to environmental uncertainties, policies in MARL must remain robust to tackle the sim-to-real gap. We focus on robust two-player zero-sum Markov games (TZMGs) in offline settings, specifically on tabular robust TZMGs (RTZMGs). We propose a model-based algorithm (\textit{RTZ-VI-LCB}) for offline RTZMGs, which is optimistic robust value iteration combined with a data-driven Bernstein-style penalty term for robust value estimation. By accounting for distribution shifts in the historical dataset, the proposed algorithm establishes near-optimal sample complexity guarantees under partial coverage and environmental uncertainty. An information-theoretic lower bound is developed to confirm the tightness of our algorithm's sample complexity, which is optimal regarding both state and action spaces. To the best of our knowledge, RTZ-VI-LCB is the first to attain this optimality, sets a new benchmark for offline RTZMGs, and is validated experimentally.
- Abstract(参考訳): マルチエージェント強化学習(MARL)は、複数のエージェントが、共有動的環境において独立して意思決定を行う方法について研究している。
環境不確実性のため、MARLの政策はシム・トゥ・リアルのギャップに取り組むために頑健でなければならない。
我々は、オフライン環境での堅牢な2プレイヤーゼロサムマルコフゲーム(TZMG)、特に表型ロバストなTZMG(RTZMG)に焦点を当てる。
本稿では,オフラインRTZMGに対するモデルベースアルゴリズム(\textit{RTZ-VI-LCB})を提案する。
提案アルゴリズムは, 歴史的データセットの分布変化を考慮し, 部分的カバレッジと環境不確実性の下で, ほぼ最適サンプルの複雑性を保証する。
状態空間と動作空間の両方で最適である,我々のアルゴリズムのサンプル複雑性の厳密性を確認するために,情報理論の下界が開発された。
我々の知る限り、RTZ-VI-LCBはこの最適性を最初に達成し、オフラインRTZMGの新しいベンチマークを設定し、実験的に検証する。
関連論文リスト
- Offline Learning for Combinatorial Multi-armed Bandits [56.96242764723241]
Off-CMABはCMABの最初のオフライン学習フレームワークである。
Off-CMABは悲観的な報酬推定と解法を組み合わせる。
合成および実世界のデータセットの実験は、CLCBの優れた性能を強調している。
論文 参考訳(メタデータ) (2025-01-31T16:56:18Z) - SAM as the Guide: Mastering Pseudo-Label Refinement in Semi-Supervised Referring Expression Segmentation [66.92696817276288]
SemiRESは、RESを実行するためにラベル付きデータとラベルなしデータの組み合わせを効果的に活用する半教師付きフレームワークである。
SemiRESはSegment Anything Model (SAM) を組み込んでいる。
利用可能な候補と正確なマスクが一致しない場合、Pixel-Wise Adjustment(PWA)戦略を開発する。
論文 参考訳(メタデータ) (2024-06-03T15:42:30Z) - Provably Efficient Information-Directed Sampling Algorithms for Multi-Agent Reinforcement Learning [50.92957910121088]
本研究は,情報指向サンプリング(IDS)の原理に基づくマルチエージェント強化学習(MARL)のための新しいアルゴリズムの設計と解析を行う。
エピソディックな2プレーヤゼロサムMGに対して、ナッシュ平衡を学習するための3つのサンプル効率アルゴリズムを提案する。
我々は、Reg-MAIDSをマルチプレイヤー汎用MGに拡張し、ナッシュ平衡または粗相関平衡をサンプル効率良く学習できることを証明する。
論文 参考訳(メタデータ) (2024-04-30T06:48:56Z) - Maximize to Explore: One Objective Function Fusing Estimation, Planning,
and Exploration [87.53543137162488]
我々はtextttMEX というオンライン強化学習(オンラインRL)フレームワークを提案する。
textttMEXは、自動的に探索エクスプロイトのバランスをとりながら、見積もりと計画コンポーネントを統合する。
様々な MuJoCo 環境では,ベースラインを安定的なマージンで上回り,十分な報酬を得られる。
論文 参考訳(メタデータ) (2023-05-29T17:25:26Z) - Sample Efficient Deep Reinforcement Learning via Local Planning [21.420851589712626]
本研究は,シミュレータを用いた試料効率深部強化学習(RL)に焦点を当てる。
本稿では,この特性を利用した不確実性優先ローカルプランニング(UFLP)というアルゴリズムフレームワークを提案する。
本研究では,この簡単な手法により,難解な探索作業において,いくつかのベースラインRLアルゴリズムのサンプルコストを劇的に向上させることができることを示す。
論文 参考訳(メタデータ) (2023-01-29T23:17:26Z) - Distributionally Robust Model-Based Offline Reinforcement Learning with
Near-Optimal Sample Complexity [39.886149789339335]
オフライン強化学習は、積極的に探索することなく、履歴データから意思決定を行うことを学習することを目的としている。
環境の不確実性や変動性から,デプロイされた環境が,ヒストリデータセットの収集に使用される名目上のものから逸脱した場合でも,良好に機能するロバストなポリシーを学ぶことが重要である。
オフラインRLの分布的ロバストな定式化を考察し、有限水平および無限水平の両方でクルバック・リーブラー発散によって指定された不確実性セットを持つロバストマルコフ決定過程に着目する。
論文 参考訳(メタデータ) (2022-08-11T11:55:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。