論文の概要: Towards a practical measure of interference for reinforcement learning
- arxiv url: http://arxiv.org/abs/2007.03807v1
- Date: Tue, 7 Jul 2020 22:02:00 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-12 18:20:31.237930
- Title: Towards a practical measure of interference for reinforcement learning
- Title(参考訳): 強化学習のための実践的干渉対策に向けて
- Authors: Vincent Liu, Adam White, Hengshuai Yao, Martha White
- Abstract要約: 破滅的な干渉は、多くのネットワークベースの学習システムで一般的である。
強化学習における制御のための干渉の定義を提供する。
我々の新しい干渉対策は、一般的に使われているディープラーニングアーキテクチャについて、新しい科学的疑問を提起することを可能にする。
- 参考スコア(独自算出の注目度): 37.1734757628306
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Catastrophic interference is common in many network-based learning systems,
and many proposals exist for mitigating it. But, before we overcome
interference we must understand it better. In this work, we provide a
definition of interference for control in reinforcement learning. We
systematically evaluate our new measures, by assessing correlation with several
measures of learning performance, including stability, sample efficiency, and
online and offline control performance across a variety of learning
architectures. Our new interference measure allows us to ask novel scientific
questions about commonly used deep learning architectures. In particular we
show that target network frequency is a dominating factor for interference, and
that updates on the last layer result in significantly higher interference than
updates internal to the network. This new measure can be expensive to compute;
we conclude with motivation for an efficient proxy measure and empirically
demonstrate it is correlated with our definition of interference.
- Abstract(参考訳): 多くのネットワークベースの学習システムでは破滅的干渉が一般的であり、それを緩和するための提案が多数存在する。
しかし、干渉を克服する前には、もっと理解しなければなりません。
本研究では,強化学習における制御に対する干渉の定義を提供する。
各種学習アーキテクチャにおける安定性,サンプル効率,オンラインおよびオフライン制御性能など,学習性能のいくつかの尺度との相関性を評価することで,新たな尺度を体系的に評価する。
我々の新しい干渉対策により、一般的に使われているディープラーニングアーキテクチャについて、新しい科学的質問をすることができる。
特に,対象のネットワーク周波数が干渉の主要因であり,最終層の更新がネットワーク内部への更新よりも著しく高い干渉を生じさせることを示す。
この新たな測度は計算に費用がかかり、効率的なプロキシ測度へのモチベーションを結論付け、それが干渉の定義と相関していることを実証的に実証する。
関連論文リスト
- Doubly Robust Causal Effect Estimation under Networked Interference via Targeted Learning [24.63284452991301]
ネットワーク干渉下での2つの頑健な因果効果推定器を提案する。
具体的には,対象とする学習手法をネットワーク干渉設定に一般化する。
我々は、同定された理論条件を目標損失に変換することによって、エンドツーエンドの因果効果推定器を考案する。
論文 参考訳(メタデータ) (2024-05-06T10:49:51Z) - Graph Machine Learning based Doubly Robust Estimator for Network Causal Effects [17.44202934049009]
本稿では,グラフ機械学習アプローチとダブル機械学習フレームワークを組み合わせた新しい手法を提案する。
提案手法は,広範囲なシミュレーション研究を通じて,正確で堅牢でスケーラブルであることを示す。
論文 参考訳(メタデータ) (2024-03-17T20:23:42Z) - Measuring and Mitigating Interference in Reinforcement Learning [30.38857177546063]
破滅的な干渉は、多くのネットワークベースの学習システムで一般的である。
価値に基づく強化学習のための干渉の定義と新しい尺度を提供する。
論文 参考訳(メタデータ) (2023-07-10T20:20:20Z) - Deep Reinforcement Learning for Interference Management in UAV-based 3D
Networks: Potentials and Challenges [137.47736805685457]
チャネル情報を知らなくても干渉を効果的に軽減できることを示す。
干渉を利用することにより、提案された解決策は民間UAVの継続的な成長を可能にする。
論文 参考訳(メタデータ) (2023-05-11T18:06:46Z) - Detecting Irregular Network Activity with Adversarial Learning and
Expert Feedback [14.188603782159372]
CAADは、無線ネットワークにおける正常な動作と異常な動作の効果的な表現を学習するために、対向的な設定で対照的な学習を採用する。
我々はCAADの厳密な性能比較をいくつかの最先端異常検出技術と比較し、CAADが92.84%の平均性能改善をもたらすことを検証した。
論文 参考訳(メタデータ) (2022-10-01T20:44:14Z) - Disentangling Transfer and Interference in Multi-Domain Learning [53.34444188552444]
マルチドメイン学習において,干渉や知識伝達が発生する状況について検討する。
干渉と転送を分離する新しいメトリクスを提案し、実験プロトコルをセットアップする。
我々は、CIFAR-100、MiniPlaces、Tiny-ImageNetデータセットでこの結果を示す。
論文 参考訳(メタデータ) (2021-07-02T01:30:36Z) - Vulnerability Under Adversarial Machine Learning: Bias or Variance? [77.30759061082085]
本研究では,機械学習が訓練された深層ニューラルネットワークのバイアスと分散に与える影響について検討する。
我々の分析は、ディープニューラルネットワークが対向的摂動下で性能が劣っている理由に光を当てている。
本稿では,計算処理の複雑さをよく知られた機械学習手法よりも低く抑えた,新しい逆機械学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-08-01T00:58:54Z) - Interference and Generalization in Temporal Difference Learning [86.31598155056035]
時間差学習における一般化と干渉の関係について検討する。
教師付き学習ではTDが容易に低干渉,低一般化パラメータにつながり,その効果は逆のように見える。
論文 参考訳(メタデータ) (2020-03-13T15:49:58Z) - On Catastrophic Interference in Atari 2600 Games [104.61596014400892]
干渉が高原にパフォーマンスをもたらすことを示す。
アーキテクチャ、学習アルゴリズム、環境にまたがるパフォーマンス向上を実証します。
より洗練された分析によって、あるゲームの一部を学ぶことは、しばしば他の場所で予測エラーを増加させることを示している。
論文 参考訳(メタデータ) (2020-02-28T00:55:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。