論文の概要: Causal Model-Based Reinforcement Learning for Sample-Efficient IoT Channel Access
- arxiv url: http://arxiv.org/abs/2511.10291v1
- Date: Fri, 14 Nov 2025 01:44:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-14 22:53:22.799979
- Title: Causal Model-Based Reinforcement Learning for Sample-Efficient IoT Channel Access
- Title(参考訳): サンプル効率の良いIoTチャネルアクセスのための因果モデルに基づく強化学習
- Authors: Aswin Arun, Christo Kurisummoottil Thomas, Rimalpudi Sarvendranath, Walid Saad,
- Abstract要約: メディアアクセス制御(MAC)などの無線利用事例に対するマルチエージェント強化学習(MARL)は、そのサンプル非効率によって妨げられる。
本稿では、因果学習からツールを活用することで、因果モデルに基づく新しいMARLフレームワークを開発する。
提案手法は, モデルフリーベースラインに比べて環境相互作用を58%削減し, 収束を高速化する。
- 参考スコア(独自算出の注目度): 39.76683291751265
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite the advantages of multi-agent reinforcement learning (MARL) for wireless use case such as medium access control (MAC), their real-world deployment in Internet of Things (IoT) is hindered by their sample inefficiency. To alleviate this challenge, one can leverage model-based reinforcement learning (MBRL) solutions, however, conventional MBRL approaches rely on black-box models that are not interpretable and cannot reason. In contrast, in this paper, a novel causal model-based MARL framework is developed by leveraging tools from causal learn- ing. In particular, the proposed model can explicitly represent causal dependencies between network variables using structural causal models (SCMs) and attention-based inference networks. Interpretable causal models are then developed to capture how MAC control messages influence observations, how transmission actions determine outcomes, and how channel observations affect rewards. Data augmentation techniques are then used to generate synthetic rollouts using the learned causal model for policy optimization via proximal policy optimization (PPO). Analytical results demonstrate exponential sample complexity gains of causal MBRL over black-box approaches. Extensive simulations demonstrate that, on average, the proposed approach can reduce environment interactions by 58%, and yield faster convergence compared to model-free baselines. The proposed approach inherently is also shown to provide interpretable scheduling decisions via attention-based causal attribution, revealing which network conditions drive the policy. The resulting combination of sample efficiency and interpretability establishes causal MBRL as a practical approach for resource-constrained wireless systems.
- Abstract(参考訳): メディアアクセス制御(MAC)などの無線ユースケースにおけるマルチエージェント強化学習(MARL)の利点にもかかわらず、実世界のIoT(Internet of Things)への展開は、サンプルの非効率によって妨げられている。
この課題を軽減するために、モデルベース強化学習(MBRL)ソリューションを利用することができるが、従来のMBRLアプローチは解釈不可能で理にかなわないブラックボックスモデルに依存している。
一方、本研究では、因果モデルに基づく新しいMARLフレームワークを、因果学習からツールを活用することによって開発し、特に、構造因果モデル(SCM)と注目に基づく推論ネットワークを用いて、ネットワーク変数間の因果依存性を明確に表現することができる。
解釈可能な因果モデルを構築し、MAC制御メッセージが観察に与える影響、伝達動作が結果を決定する方法、チャネル観察が報酬にどのように影響するかをキャプチャする。
データ拡張技術は、近位ポリシー最適化(PPO)によるポリシー最適化のために学習された因果モデルを用いて、合成ロールアウトを生成するために使用される。
解析結果から,ブラックボックスアプローチによる因果MBRLの指数的サンプル複雑性向上が示された。
大規模なシミュレーションにより、提案手法は平均して環境相互作用を58%減らし、モデルフリーのベースラインよりも早く収束することを示した。
提案手法は本質的に,注意に基づく因果属性による解釈可能なスケジューリング決定を提供することで,どのネットワーク条件がポリシーを駆動しているかを明らかにする。
サンプル効率と解釈可能性の組み合わせにより、リソース制約のある無線システムの実践的アプローチとして因果MBRLが確立される。
関連論文リスト
- Efficient Solution and Learning of Robust Factored MDPs [57.2416302384766]
未知の環境との相互作用からr-MDPを学習することで、性能保証による堅牢なポリシーの合成が可能になる。
本稿では,因子状態表現に基づくr-MDPの解法と学習法を提案する。
論文 参考訳(メタデータ) (2025-08-01T15:23:15Z) - Towards Causal Model-Based Policy Optimization [0.24578723416255752]
因果モデルに基づく政策最適化(C-MBPO)を紹介する。
C-MBPOは、因果学習をモデルベース強化学習パイプラインに統合する新しいフレームワークである。
我々は、C-MBPOが、動的に急激で非因果関係に影響を及ぼす分布シフトのクラスに対して堅牢であることを示す。
論文 参考訳(メタデータ) (2025-03-12T18:09:02Z) - BECAUSE: Bilinear Causal Representation for Generalizable Offline Model-based Reinforcement Learning [39.090104460303415]
オフラインモデルベース強化学習(MBRL)は、事前コンパイルされたデータセットを使用してモデルとポリシーを学ぶことにより、データ効率を向上させる。
本稿は、このミスマッチの主な原因を、オフラインデータに存在する根底にある共同設立者から特定する。
両状態の因果表現をキャプチャするアルゴリズムである textbfBilintextbfEar textbfCAUSal rtextbfEpresentation (BECAUSE) を導入する。
論文 参考訳(メタデータ) (2024-07-15T17:59:23Z) - A Neuromorphic Architecture for Reinforcement Learning from Real-Valued
Observations [0.34410212782758043]
強化学習(RL)は複雑な環境における意思決定のための強力なフレームワークを提供する。
本稿では,実測値を用いてRL問題を解くための新しいスパイキングニューラルネットワーク(SNN)アーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-07-06T12:33:34Z) - Causal Disentangled Variational Auto-Encoder for Preference
Understanding in Recommendation [50.93536377097659]
本稿では,コメンテータシステムにおける対話データから因果不整合表現を学習するためのCaD-VAE(Causal Disentangled Variational Auto-Encoder)を提案する。
この手法は構造因果モデルを用いて、潜在因子間の因果関係を記述する因果表現を生成する。
論文 参考訳(メタデータ) (2023-04-17T00:10:56Z) - When to Update Your Model: Constrained Model-based Reinforcement
Learning [50.74369835934703]
モデルベースRL(MBRL)の非遅延性能保証のための新規で一般的な理論スキームを提案する。
続いて導いた境界は、モデルシフトとパフォーマンス改善の関係を明らかにします。
さらなる例では、動的に変化する探索からの学習モデルが、最終的なリターンの恩恵をもたらすことが示されている。
論文 参考訳(メタデータ) (2022-10-15T17:57:43Z) - Exploiting Temporal Structures of Cyclostationary Signals for
Data-Driven Single-Channel Source Separation [98.95383921866096]
単一チャネルソース分離(SCSS)の問題点について検討する。
我々は、様々なアプリケーション領域に特に適するサイクロ定常信号に焦点を当てる。
本稿では,最小MSE推定器と競合するU-Netアーキテクチャを用いたディープラーニング手法を提案する。
論文 参考訳(メタデータ) (2022-08-22T14:04:56Z) - DEALIO: Data-Efficient Adversarial Learning for Imitation from
Observation [57.358212277226315]
観察ifoからの模倣学習において、学習エージェントは、実演者の生成した制御信号にアクセスせずに、実演行動の観察のみを用いて実演エージェントを模倣しようとする。
近年、逆模倣学習に基づく手法は、ifO問題に対する最先端のパフォーマンスをもたらすが、データ非効率でモデルなしの強化学習アルゴリズムに依存するため、サンプルの複雑さに悩まされることが多い。
この問題は、サンプルの収集が時間、エネルギー、およびリスクの面で高いコストを被る可能性がある現実世界の設定に展開することは非現実的です。
よりデータ効率の高いifOアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-31T23:46:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。