論文の概要: Causality Meets Locality: Provably Generalizable and Scalable Policy Learning for Networked Systems
- arxiv url: http://arxiv.org/abs/2510.21427v1
- Date: Fri, 24 Oct 2025 13:06:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 06:57:23.422442
- Title: Causality Meets Locality: Provably Generalizable and Scalable Policy Learning for Networked Systems
- Title(参考訳): ローカル性との因果性 - ネットワークシステムのための多分一般化可能でスケーラブルなポリシー学習
- Authors: Hao Liang, Shuqing Shi, Yudi Zhang, Biwei Huang, Yali Du,
- Abstract要約: トラフィック、電力、無線グリッドなどの大規模ネットワークシステムでは、スケールと環境の両方のシフトで強化学習エージェントに挑戦する。
本稿では,因果表現学習とメタアクタ批判学習を組み合わせ,拡張性とドメインの一般化を両立させるフレームワークGSACを提案する。
GSACの適応は,スクラッチや従来の適応ベースラインよりも速く,はるかに優れていた。
- 参考スコア(独自算出の注目度): 26.67939638191807
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large-scale networked systems, such as traffic, power, and wireless grids, challenge reinforcement-learning agents with both scale and environment shifts. To address these challenges, we propose GSAC (Generalizable and Scalable Actor-Critic), a framework that couples causal representation learning with meta actor-critic learning to achieve both scalability and domain generalization. Each agent first learns a sparse local causal mask that provably identifies the minimal neighborhood variables influencing its dynamics, yielding exponentially tight approximately compact representations (ACRs) of state and domain factors. These ACRs bound the error of truncating value functions to $\kappa$-hop neighborhoods, enabling efficient learning on graphs. A meta actor-critic then trains a shared policy across multiple source domains while conditioning on the compact domain factors; at test time, a few trajectories suffice to estimate the new domain factor and deploy the adapted policy. We establish finite-sample guarantees on causal recovery, actor-critic convergence, and adaptation gap, and show that GSAC adapts rapidly and significantly outperforms learning-from-scratch and conventional adaptation baselines.
- Abstract(参考訳): トラフィック、電力、無線グリッドなどの大規模ネットワークシステムでは、スケールと環境の両方のシフトで強化学習エージェントに挑戦する。
これらの課題に対処するため,GSAC (Generalizable and Scalable Actor-Critic) を提案する。
各エージェントはまずスパースな局所因果マスクを学習し、そのダイナミクスに影響を与える最小の近傍変数を確実に識別し、状態因子と領域因子の指数関数的に密な近似コンパクト表現(ACR)を生成する。
これらのACRは、truncating値関数の誤差を$\kappa$-hop地区に縛り付けて、グラフの効率的な学習を可能にした。
メタアクタクリティカルは、コンパクトなドメインファクタを条件付けながら、複数のソースドメインをまたいだ共有ポリシをトレーニングする。テスト時には、いくつかのトラジェクトリが、新しいドメインファクタを見積もって、適合したポリシーをデプロイするのに十分である。
我々は、因果回復、アクター・クリティック・コンバージェンス、適応ギャップに対する有限サンプル保証を確立し、GSACが急速に適応し、スクラッチや従来の適応ベースラインより著しく優れていることを示す。
関連論文リスト
- Constrained Adversarial Perturbation [16.05659740749269]
UAP(Universal Adversarial Perturbations)は、ストレステストモデルロバストネスとスケーラブルな対向トレーニングの両方のための強力なツールとして登場した。
本稿では、勾配に基づく交互最適化手法を用いて、この問題を解決する効率的なアルゴリズムである Constrained Adversarial Perturbation (CAP) を提案する。
論文 参考訳(メタデータ) (2025-10-17T14:44:20Z) - DISCO Balances the Scales: Adaptive Domain- and Difficulty-Aware Reinforcement Learning on Imbalanced Data [65.09939942413651]
本稿では,グループ間不均衡と2つの重要なイノベーションに対処するGRPOの原理的拡張を提案する。
ドメイン対応報酬スケーリングは、ドメインの頻度に基づいて最適化を再重み付けすることで周波数バイアスに対処する。
難解な報酬のスケーリングは、学習価値を提供する不確実なプロンプトを特定し、優先順位付けするために、プロンプトレベルの自己整合性を活用する。
論文 参考訳(メタデータ) (2025-05-21T03:43:29Z) - Hierarchical Local-Global Feature Learning for Few-shot Malicious Traffic Detection [6.118242543398087]
悪意あるネットワーク攻撃は、ますます頻繁で洗練されたものになりつつある。
ルールベースや機械学習ベースのアプローチを含む従来の検出方法は、出現する脅威を正確に識別するのに苦労する。
我々は,新しい階層的な数ショットの悪意のあるトラフィック検出フレームワークであるHLoGを提案する。
論文 参考訳(メタデータ) (2025-04-01T14:56:44Z) - Towards Generalizable Reinforcement Learning via Causality-Guided Self-Adaptive Representations [22.6449779859417]
汎用インテリジェンスには、タスク間の迅速な適応が必要です。
本稿では,分布だけでなく,環境空間も変化するシナリオを幅広く検討する。
我々はCSRと呼ばれる因果性誘導型自己適応表現に基づく手法を導入し、エージェントを効果的に一般化させる。
論文 参考訳(メタデータ) (2024-07-30T08:48:49Z) - Cross-Domain Continual Learning via CLAMP [10.553456651003055]
CLAMPは、すべての実験で確立されたベースラインアルゴリズムを少なくとも10%のマージンで大幅に上回っている。
ベースモデルの学習プロセスをナビゲートするために、評価者誘導学習プロセスがフォワードされる。
論文 参考訳(メタデータ) (2024-05-12T02:41:31Z) - Deep face recognition with clustering based domain adaptation [57.29464116557734]
そこで本研究では,ターゲットドメインとソースがクラスを共有しない顔認識タスクを対象とした,クラスタリングに基づく新しいドメイン適応手法を提案する。
本手法は,特徴領域をグローバルに整列させ,その一方で,対象クラスタを局所的に識別することで,識別対象特徴を効果的に学習する。
論文 参考訳(メタデータ) (2022-05-27T12:29:11Z) - Semi-supervised Domain Adaptive Structure Learning [72.01544419893628]
半教師付きドメイン適応 (SSDA) は,1) アノテーションの低いデータに過度に適合する手法と,2) ドメイン間の分散シフトの両方を克服しなければならない課題である。
SSLとDAの協調を正規化するための適応型構造学習手法を提案する。
論文 参考訳(メタデータ) (2021-12-12T06:11:16Z) - Locality Matters: A Scalable Value Decomposition Approach for
Cooperative Multi-Agent Reinforcement Learning [52.7873574425376]
協調型マルチエージェント強化学習(MARL)は,エージェント数で指数関数的に大きい状態空間と動作空間により,スケーラビリティの問題に直面する。
本稿では,学習分散実行パラダイムに局所報酬を組み込んだ,新しい価値に基づくマルチエージェントアルゴリズム LOMAQ を提案する。
論文 参考訳(メタデータ) (2021-09-22T10:08:15Z) - Coarse to Fine: Domain Adaptive Crowd Counting via Adversarial Scoring
Network [58.05473757538834]
本稿では,ドメイン間のギャップを粗い粒度から細かな粒度に埋める新しい逆スコアリングネットワーク (ASNet) を提案する。
3組のマイグレーション実験により,提案手法が最先端のカウント性能を実現することを示す。
論文 参考訳(メタデータ) (2021-07-27T14:47:24Z) - Unsupervised Domain Adaptation in Person re-ID via k-Reciprocal
Clustering and Large-Scale Heterogeneous Environment Synthesis [76.46004354572956]
個人再識別のための教師なし領域適応手法を提案する。
実験結果から,ktCUDA法とSHRED法は,再同定性能において,+5.7 mAPの平均的改善を実現することがわかった。
論文 参考訳(メタデータ) (2020-01-14T17:43:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。