論文の概要: Learning in Markov Decision Processes with Exogenous Dynamics
- arxiv url: http://arxiv.org/abs/2603.02862v2
- Date: Wed, 04 Mar 2026 14:42:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-05 14:47:28.977177
- Title: Learning in Markov Decision Processes with Exogenous Dynamics
- Title(参考訳): 外因性ダイナミクスを用いたマルコフ決定過程の学習
- Authors: Davide Maran, Davide Salaorni, Marcello Restelli,
- Abstract要約: エージェントの動作に依存しない状態成分を特徴とするMDPの構造クラスについて検討する。
この構造を利用すると、学習の保証が大幅に向上することを示す。
私たちは、古典的なおもちゃの設定や現実世界に触発された環境にまたがって、私たちのアプローチを実証的に検証します。
- 参考スコア(独自算出の注目度): 39.6376520918509
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning algorithms are typically designed for generic Markov Decision Processes (MDPs), where any state-action pair can lead to an arbitrary transition distribution. In many practical systems, however, only a subset of the state variables is directly influenced by the agent's actions, while the remaining components evolve according to exogenous dynamics and account for most of the stochasticity. In this work, we study a structured class of MDPs characterized by exogenous state components whose transitions are independent of the agent's actions. We show that exploiting this structure yields significantly improved learning guarantees, with only the size of the exogenous state space appearing in the leading terms of the regret bounds. We further establish a matching lower bound, showing that this dependence is information-theoretically optimal. Finally, we empirically validate our approach across classical toy settings and real-world-inspired environments, demonstrating substantial gains in sample efficiency compared to standard reinforcement learning methods.
- Abstract(参考訳): 強化学習アルゴリズムは一般に、任意の状態-作用対が任意の遷移分布につながるような一般的なマルコフ決定過程(MDP)のために設計されている。
しかし、多くの実用的なシステムでは、状態変数のサブセットのみがエージェントの行動に直接的な影響を受けており、残りのコンポーネントは外因性ダイナミクスに従って進化し、確率性の大半を占める。
本研究では, エージェントの作用に依存しない外因性状態成分を特徴とするMDPの構造クラスについて検討する。
この構造を活用すれば学習の保証が大幅に向上し、後悔境界の先頭に現れる外因性状態空間のサイズのみとなることが示される。
さらに、一致した下界を確立し、この依存が情報理論的に最適であることを示す。
最後に,古典的な玩具設定や実世界の環境に対するアプローチを実証的に検証し,標準的な強化学習法と比較してサンプル効率が著しく向上したことを示す。
関連論文リスト
- Sample Complexity of Distributionally Robust Off-Dynamics Reinforcement Learning with Online Interaction [11.339580074756187]
強靭なマルコフ決定過程(RMDP)における学習として、オフダイナミックス強化学習(RL)を定式化することができる。
我々は、エージェントがトレーニング環境とのオンラインインタラクションに制限される、より現実的で困難な環境について研究する。
論文 参考訳(メタデータ) (2025-11-07T16:24:22Z) - Unified modality separation: A vision-language framework for unsupervised domain adaptation [60.8391821117794]
教師なしドメイン適応(Unsupervised domain adapt, UDA)は、ラベル付きソースドメインでトレーニングされたモデルが新しいラベル付きドメインを扱うことを可能にする。
本稿では,モダリティ固有成分とモダリティ不変成分の両方に対応可能な統一モダリティ分離フレームワークを提案する。
提案手法は,9倍の計算効率で最大9%の性能向上を実現している。
論文 参考訳(メタデータ) (2025-08-07T02:51:10Z) - Structured Agent Distillation for Large Language Model [56.38279355868093]
本研究では,LLMをベースとした大規模エージェントを小さな学生モデルに圧縮するフレームワークであるStructured Agent Distillationを提案する。
提案手法は, [REASON] と [ACT] にトラジェクトリを分割し, 各コンポーネントを教師の行動に合わせるためにセグメント特異的な損失を適用した。
ALFWorld、HotPotQA-ReAct、WebShopの実験は、我々のアプローチがトークンレベルと模倣学習のベースラインを一貫して上回っていることを示している。
論文 参考訳(メタデータ) (2025-05-20T02:01:55Z) - FlickerFusion: Intra-trajectory Domain Generalizing Multi-Agent RL [19.236153474365747]
既存のMARLアプローチは、トレーニングと推論の間に実体の数が一定であるという制限的な仮定に依存することが多い。
本稿では、ゼロショット・アウト・オブ・ドメイン(OOD)一般化の下での軌道内動的実体合成の課題に取り組む。
本稿では,MARLのバックボーン法に普遍的に適用可能な拡張手法として機能する新しいOOD一般化手法であるFlickerFusionを提案する。
論文 参考訳(メタデータ) (2024-10-21T10:57:45Z) - STAT: Towards Generalizable Temporal Action Localization [56.634561073746056]
WTAL(Wakly-supervised temporal action Localization)は、ビデオレベルのラベルだけでアクションインスタンスを認識およびローカライズすることを目的としている。
既存の手法は、異なる分布に転送する際の重大な性能劣化に悩まされる。
本稿では,アクションローカライズ手法の一般化性向上に焦点を当てたGTALを提案する。
論文 参考訳(メタデータ) (2024-04-20T07:56:21Z) - Hierarchical Decision Making Based on Structural Information Principles [19.82391136775341]
本稿では,階層的意思決定のための構造情報原則に基づく新しいフレームワーク,すなわちSIDMを提案する。
本稿では,過去の状態-行動軌跡を処理し,状態と行動の抽象表現を構築する抽象化機構を提案する。
単エージェントシナリオのためのスキルベース学習手法と,多エージェントシナリオのためのロールベースの協調手法を開発し,そのどちらも,パフォーマンス向上のために様々な基礎アルゴリズムを柔軟に統合することができる。
論文 参考訳(メタデータ) (2024-04-15T13:02:00Z) - Distributionally Robust Model-based Reinforcement Learning with Large
State Spaces [55.14361269378122]
強化学習における3つの大きな課題は、大きな状態空間を持つ複雑な力学系、コストのかかるデータ取得プロセス、トレーニング環境の展開から現実の力学を逸脱させることである。
広範に用いられているKullback-Leibler, chi-square, および全変分不確実性集合の下で, 連続状態空間を持つ分布ロバストなマルコフ決定過程について検討した。
本稿では,ガウス過程と最大分散削減アルゴリズムを用いて,多出力名目遷移力学を効率的に学習するモデルベースアプローチを提案する。
論文 参考訳(メタデータ) (2023-09-05T13:42:11Z) - Latent Variable Representation for Reinforcement Learning [131.03944557979725]
モデルに基づく強化学習のサンプル効率を改善するために、潜在変数モデルが学習、計画、探索をいかに促進するかは理論上、実証上、不明である。
状態-作用値関数に対する潜在変数モデルの表現ビューを提供する。これは、抽出可能な変分学習アルゴリズムと楽観主義/悲観主義の原理の効果的な実装の両方を可能にする。
特に,潜伏変数モデルのカーネル埋め込みを組み込んだUPB探索を用いた計算効率の良い計画アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-12-17T00:26:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。