論文の概要: Causal Coordinated Concurrent Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2401.18012v1
- Date: Wed, 31 Jan 2024 17:20:28 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-01 13:56:23.176422
- Title: Causal Coordinated Concurrent Reinforcement Learning
- Title(参考訳): 因果コーディネート・コンカレント強化学習
- Authors: Tim Tse, Isaac Chan, Zhitang Chen
- Abstract要約: 本稿では,データ共有と協調探索のための新しいアルゴリズムフレームワークを提案する。
本アルゴリズムは,独立規制による個人差分制御モデルパラメータの抽出において,付加雑音モデル-混合モデル(ANM-MM)という形で因果推論アルゴリズムを利用する。
抽出したモデルパラメータの類似度に基づく新しいデータ共有方式を提案し, 自己回帰, 振り子, カートポールのスイングアップタスクのセットにおいて, 優れた学習速度を示す。
- 参考スコア(独自算出の注目度): 8.654978787096807
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we propose a novel algorithmic framework for data sharing and
coordinated exploration for the purpose of learning more data-efficient and
better performing policies under a concurrent reinforcement learning (CRL)
setting. In contrast to other work which make the assumption that all agents
act under identical environments, we relax this restriction and instead
consider the formulation where each agent acts within an environment which
shares a global structure but also exhibits individual variations. Our
algorithm leverages a causal inference algorithm in the form of Additive Noise
Model - Mixture Model (ANM-MM) in extracting model parameters governing
individual differentials via independence enforcement. We propose a new data
sharing scheme based on a similarity measure of the extracted model parameters
and demonstrate superior learning speeds on a set of autoregressive, pendulum
and cart-pole swing-up tasks and finally, we show the effectiveness of diverse
action selection between common agents under a sparse reward setting. To the
best of our knowledge, this is the first work in considering non-identical
environments in CRL and one of the few works which seek to integrate causal
inference with reinforcement learning (RL).
- Abstract(参考訳): 本研究では,並行強化学習(crl)環境下で,よりデータ効率良く,より優れた実行ポリシーを学習することを目的とした,データ共有と協調探索のための新しいアルゴリズムフレームワークを提案する。
すべてのエージェントが同一の環境下で振る舞うと仮定する他の作業とは対照的に、我々はこの制限を緩和し、代わりに各エージェントがグローバル構造を共有しながら個々のバリエーションを示す環境内で振舞う定式化を考える。
本アルゴリズムは,独立規制による個人差分制御モデルパラメータの抽出において,付加雑音モデル-混合モデル(ANM-MM)という形で因果推論アルゴリズムを利用する。
抽出したモデルパラメータの類似度に基づく新しいデータ共有方式を提案し, 自己回帰, 振り子, カートポールの振り上げタスクのセットにおいて, 優れた学習速度を示すとともに, スパース報酬設定下での共通エージェント間の多様な行動選択の有効性を示す。
我々の知る限りでは、CRLの非同一性環境を考える最初の研究であり、強化学習(RL)と因果推論を統合するための数少ない研究の1つである。
関連論文リスト
- Task Groupings Regularization: Data-Free Meta-Learning with Heterogeneous Pre-trained Models [83.02797560769285]
Data-Free Meta-Learning (DFML)は、トレーニング済みモデルのコレクションから、元のデータにアクセスせずに知識を抽出することを目的としている。
現在の手法は、事前訓練されたモデル間の不均一性を見落とし、タスクの衝突による性能低下につながることが多い。
課題群規則化(Task Groupings Regularization)は、矛盾するタスクをグループ化し整合させることにより、モデルの不均一性から恩恵を受ける新しいアプローチである。
論文 参考訳(メタデータ) (2024-05-26T13:11:55Z) - Distributed Continual Learning [12.18012293738896]
本稿では,分散連続学習の本質的側面を捉える数学的枠組みを提案する。
データインスタンス、完全なモデルパラメータ、モジュール化された(部分的な)モデルパラメータです。
タスクが複雑になるにつれて、データを共有するよりも、パラメータを共有する方が効率的です。
論文 参考訳(メタデータ) (2024-05-23T21:24:26Z) - LoRA-Ensemble: Efficient Uncertainty Modelling for Self-attention Networks [52.46420522934253]
本稿では,自己注意ネットワークのためのパラメータ効率の高いディープアンサンブル手法であるLoRA-Ensembleを紹介する。
全メンバー間で重みを共有できる1つの事前学習型自己注意ネットワークを利用することで、注意投影のために、メンバー固有の低ランク行列を訓練する。
提案手法は明示的なアンサンブルよりも優れたキャリブレーションを示し,様々な予測タスクやデータセットに対して類似あるいは良好な精度を実現する。
論文 参考訳(メタデータ) (2024-05-23T11:10:32Z) - Enhancing Interaction Modeling with Agent Selection and Physical Coefficient for Trajectory Prediction [1.6954753390775528]
本稿では,インタラクションエージェントを手動で選択し,アテンションスコアの代わりに相関関係を計算するASPILinを提案する。
興味深いことに、InterACTION、HighD、CitySimデータセットで実施された実験は、我々の手法が効率的かつ簡単であることを実証している。
論文 参考訳(メタデータ) (2024-05-21T18:45:18Z) - Distributed Personalized Empirical Risk Minimization [19.087524494290676]
本稿では、異種データからの学習を容易にするために、新たなパラダイムであるPersonalized Empirical Risk Minimization(PERM)を提案する。
本稿では,標準モデル平均化をモデルシャッフルに置き換えた分散アルゴリズムを提案し,すべてのデバイスに対してPERM目標を同時に最適化する。
論文 参考訳(メタデータ) (2023-10-26T20:07:33Z) - Federated Learning for Heterogeneous Bandits with Unobserved Contexts [0.0]
我々は、未知のコンテキストを持つ多腕コンテキスト包帯のフェデレーション問題について検討する。
線形パラメタライズされた報酬関数に対して,除去に基づくアルゴリズムを提案し,後悔の束縛を証明した。
論文 参考訳(メタデータ) (2023-03-29T22:06:24Z) - Federated Learning Aggregation: New Robust Algorithms with Guarantees [63.96013144017572]
エッジでの分散モデルトレーニングのために、フェデレートラーニングが最近提案されている。
本稿では,連合学習フレームワークにおける集約戦略を評価するために,完全な数学的収束解析を提案する。
損失の値に応じてクライアントのコントリビューションを差別化することで、モデルアーキテクチャを変更できる新しい集約アルゴリズムを導出する。
論文 参考訳(メタデータ) (2022-05-22T16:37:53Z) - DRFLM: Distributionally Robust Federated Learning with Inter-client
Noise via Local Mixup [58.894901088797376]
連合学習は、生データをリークすることなく、複数の組織のデータを使用してグローバルモデルをトレーニングするための有望なアプローチとして登場した。
上記の2つの課題を同時に解決するための一般的な枠組みを提案する。
我々は、ロバストネス解析、収束解析、一般化能力を含む包括的理論的解析を提供する。
論文 参考訳(メタデータ) (2022-04-16T08:08:29Z) - Task-Feature Collaborative Learning with Application to Personalized
Attribute Prediction [166.87111665908333]
本稿では,TFCL(Task-Feature Collaborative Learning)と呼ばれる新しいマルチタスク学習手法を提案する。
具体的には、まず、特徴とタスクの協調的なグループ化を活用するために、不均一なブロック対角構造正規化器を用いたベースモデルを提案する。
実際の拡張として,重なり合う機能と難易度を区別することで,基本モデルを拡張します。
論文 参考訳(メタデータ) (2020-04-29T02:32:04Z) - Dynamic Federated Learning [57.14673504239551]
フェデレートラーニング(Federated Learning)は、マルチエージェント環境における集中的なコーディネーション戦略の包括的用語として登場した。
我々は、各イテレーションにおいて、利用可能なエージェントのランダムなサブセットがそのデータに基づいてローカル更新を実行する、フェデレートされた学習モデルを考える。
集約最適化問題に対する真の最小化器上の非定常ランダムウォークモデルの下で、アーキテクチャの性能は、各エージェントにおけるデータ変動率、各エージェントにおけるモデル変動率、アルゴリズムの学習率に逆比例する追跡項の3つの要因によって決定されることを示す。
論文 参考訳(メタデータ) (2020-02-20T15:00:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。