論文の概要: On the Role of Information Structure in Reinforcement Learning for
Partially-Observable Sequential Teams and Games
- arxiv url: http://arxiv.org/abs/2403.00993v1
- Date: Fri, 1 Mar 2024 21:28:19 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-05 15:35:24.976907
- Title: On the Role of Information Structure in Reinforcement Learning for
Partially-Observable Sequential Teams and Games
- Title(参考訳): 部分観察型シリーズチーム・ゲームにおける強化学習における情報構造の役割
- Authors: Awni Altabaa, Zhuoran Yang
- Abstract要約: 情報構造の明示的表現は、強化学習問題を解析・解決する重要な要素であると主張する。
これにより、シーケンシャルな意思決定問題のよりリッチな分析が可能となり、より適切なアルゴリズム設計が可能となる。
- 参考スコア(独自算出の注目度): 65.268245109828
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In a sequential decision-making problem, the information structure is the
description of how events in the system occurring at different points in time
affect each other. Classical models of reinforcement learning (e.g., MDPs,
POMDPs, Dec-POMDPs, and POMGs) assume a very simple and highly regular
information structure, while more general models like predictive state
representations do not explicitly model the information structure. By contrast,
real-world sequential decision-making problems typically involve a complex and
time-varying interdependence of system variables, requiring a rich and flexible
representation of information structure.
In this paper, we argue for the perspective that explicit representation of
information structures is an important component of analyzing and solving
reinforcement learning problems. We propose novel reinforcement learning models
with an explicit representation of information structure, capturing classical
models as special cases. We show that this leads to a richer analysis of
sequential decision-making problems and enables more tailored algorithm design.
In particular, we characterize the "complexity" of the observable dynamics of
any sequential decision-making problem through a graph-theoretic analysis of
the DAG representation of its information structure. The central quantity in
this analysis is the minimal set of variables that $d$-separates the past
observations from future observations. Furthermore, through constructing a
generalization of predictive state representations, we propose tailored
reinforcement learning algorithms and prove that the sample complexity is in
part determined by the information structure. This recovers known tractability
results and gives a novel perspective on reinforcement learning in general
sequential decision-making problems, providing a systematic way of identifying
new tractable classes of problems.
- Abstract(参考訳): 逐次的意思決定問題において、情報構造は、異なる時点に発生するシステム内の事象がどのように影響するかを記述するものである。
古典的な強化学習モデル(例えば、MDP、POMDP、Dec-POMDP、POMG)は、非常に単純で非常に規則的な情報構造を仮定するが、予測状態表現のようなより一般的なモデルは、情報構造を明示的にモデル化しない。
対照的に、現実世界のシーケンシャルな意思決定問題は通常、システム変数の複雑で時間のかかる相互依存を伴い、情報構造のリッチで柔軟な表現を必要とする。
本稿では,情報構造の明示的表現が,強化学習問題を解析・解決する重要な要素である,という観点から論じる。
本稿では,情報構造を明示的に表現した新しい強化学習モデルを提案する。
これにより,逐次的意思決定問題のよりリッチな解析が可能となり,アルゴリズム設計の調整が容易になる。
特に、情報構造のDAG表現のグラフ理論的解析により、シーケンシャルな意思決定問題の観測可能なダイナミクスの「複雑さ」を特徴づける。
この分析における中心的な量は、将来の観測から過去の観測を$d$-に分離する最小の変数集合である。
さらに,予測状態表現の一般化により,強化学習アルゴリズムを提案し,サンプル複雑性が情報構造によって部分的に決定されることを示す。
これにより、既知のトラクタビリティーの結果を回復し、一般的なシーケンシャルな意思決定問題における強化学習の新たな視点を与え、新たなトラクタブルな問題のクラスを特定する体系的な方法を提供する。
関連論文リスト
- Structure Learning and Parameter Estimation for Graphical Models via
Penalized Maximum Likelihood Methods [0.0]
論文では、静的なベイジアンネットワーク(BN)と、その名前が示すように時間成分を持つ連続時間ベイジアンネットワークという2つの異なるタイプのPGMについて考察する。
私たちは、PGMを学ぶための最初のステップである、真の構造を回復することに興味を持っています。
論文 参考訳(メタデータ) (2023-01-30T20:26:13Z) - Amortized Inference for Causal Structure Learning [72.84105256353801]
因果構造を学習することは、通常、スコアまたは独立テストを使用して構造を評価することを伴う探索問題を引き起こす。
本研究では,観測・干渉データから因果構造を予測するため,変分推論モデルを訓練する。
我々のモデルは、実質的な分布シフトの下で頑健な一般化能力を示す。
論文 参考訳(メタデータ) (2022-05-25T17:37:08Z) - Leveraging the structure of dynamical systems for data-driven modeling [111.45324708884813]
トレーニングセットとその構造が長期予測の品質に与える影響を考察する。
トレーニングセットのインフォームドデザインは,システムの不変性と基盤となるアトラクションの構造に基づいて,結果のモデルを大幅に改善することを示す。
論文 参考訳(メタデータ) (2021-12-15T20:09:20Z) - Stateful Offline Contextual Policy Evaluation and Learning [88.9134799076718]
我々は、シーケンシャルデータから、政治以外の評価と学習について研究する。
動的パーソナライズされた価格設定などの問題の因果構造を形式化する。
本報告では,本クラスにおけるアウト・オブ・サンプル・ポリシーの性能改善について述べる。
論文 参考訳(メタデータ) (2021-10-19T16:15:56Z) - Meta-learning using privileged information for dynamics [66.32254395574994]
Neural ODE Processモデルを拡張して、Learning Using Privileged Information設定内の追加情報を使用します。
シミュレーション動的タスクの精度とキャリブレーションを向上した実験により拡張性を検証する。
論文 参考訳(メタデータ) (2021-04-29T12:18:02Z) - Learning Structured Latent Factors from Dependent Data:A Generative
Model Framework from Information-Theoretic Perspective [18.88255368184596]
本稿では,潜在空間における様々な基盤構造を持つ生成モデル学習のための新しいフレームワークを提案する。
我々のモデルは、様々なタイプの望まれる構造を反映した意味論的に意味のある潜在因子の集合を学習するための原則化されたアプローチを提供する。
論文 参考訳(メタデータ) (2020-07-21T06:59:29Z) - Structural Landmarking and Interaction Modelling: on Resolution Dilemmas
in Graph Classification [50.83222170524406]
解法ジレンマの統一概念に基づくグラフ分類における本質的難易度の研究」
構造ランドマークと相互作用モデリングのためのインダクティブニューラルネットワークモデルSLIM'を提案する。
論文 参考訳(メタデータ) (2020-06-29T01:01:42Z) - Structure learning for CTBN's via penalized maximum likelihood methods [2.997206383342421]
我々は,より困難な課題である構造学習問題について検討し,その課題に関する既存の研究は限られている。
我々のアルゴリズムは、穏やかな規則性条件下で、高い確率でグラフの依存構造を認識することを証明している。
論文 参考訳(メタデータ) (2020-06-13T14:28:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。