論文の概要: Doubly Inhomogeneous Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2211.03983v1
- Date: Tue, 8 Nov 2022 03:41:14 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-09 15:08:56.876997
- Title: Doubly Inhomogeneous Reinforcement Learning
- Title(参考訳): 二重不均質強化学習
- Authors: Liyuan Hu and Mengbing Li and Chengchun Shi and Zhenke Wu and Piotr
Fryzlewicz
- Abstract要約: 我々は、ポリシー学習のために、時間とともに個人間で類似したダイナミクスを表示する「最良のデータチャンクを決定するためのオリジナルアルゴリズム」を提案する。
提案手法は汎用的であり,クラスタリングおよび変更点検出アルゴリズムの幅広い範囲で動作する。
- 参考スコア(独自算出の注目度): 4.334006170547247
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper studies reinforcement learning (RL) in doubly inhomogeneous
environments under temporal non-stationarity and subject heterogeneity. In a
number of applications, it is commonplace to encounter datasets generated by
system dynamics that may change over time and population, challenging
high-quality sequential decision making. Nonetheless, most existing RL
solutions require either temporal stationarity or subject homogeneity, which
would result in sub-optimal policies if both assumptions were violated. To
address both challenges simultaneously, we propose an original algorithm to
determine the ``best data chunks" that display similar dynamics over time and
across individuals for policy learning, which alternates between most recent
change point detection and cluster identification. Our method is general, and
works with a wide range of clustering and change point detection algorithms. It
is multiply robust in the sense that it takes multiple initial estimators as
input and only requires one of them to be consistent. Moreover, by borrowing
information over time and population, it allows us to detect weaker signals and
has better convergence properties when compared to applying the clustering
algorithm per time or the change point detection algorithm per subject.
Empirically, we demonstrate the usefulness of our method through extensive
simulations and a real data application.
- Abstract(参考訳): 本稿では,時間的非定常性と対象の不均質性下での2重不均質環境における強化学習(rl)について検討する。
多くのアプリケーションでは、時間や人口によって変化する可能性のあるシステムのダイナミクスによって生成されたデータセットに遭遇し、高品質なシーケンシャルな意思決定に挑戦することが一般的である。
それでも、既存のRL解のほとんどは時間的定常性または主観的均一性を必要とし、両方の仮定が破られた場合、準最適ポリシーをもたらす。
両課題を同時に解決するために,最近の変更点検出とクラスタ識別を交互に行うポリシ学習において,時間とともに個人間で類似したダイナミクスを表示する,‘best data chunks’を決定するアルゴリズムを提案する。
提案手法は汎用的であり,クラスタリングおよび変更点検出アルゴリズムの幅広い範囲で動作する。
インプットとして複数の初期推定器を必要とするという意味では、乗算的に堅牢であり、そのうちの1つが一貫性を持つ必要がある。
さらに, 時間と個体数で情報を借りることで, より弱い信号の検出が可能となり, 時間ごとのクラスタリングアルゴリズムや被検者ごとの変化点検出アルゴリズムに比べ, 収束特性が向上した。
実験により,本手法の有用性を大規模シミュレーションと実データ応用により実証する。
関連論文リスト
- Detection of Anomalies in Multivariate Time Series Using Ensemble
Techniques [3.2422067155309806]
最終的な決定に向けて,複数の基本モデルを組み合わせたアンサンブル手法を提案する。
また,ロジスティック回帰器を用いて基本モデルの出力を結合する半教師付き手法を提案する。
異常検出精度の点での性能改善は、教師なしモデルでは2%、半教師なしモデルでは少なくとも10%に達する。
論文 参考訳(メタデータ) (2023-08-06T17:51:22Z) - Implicit neural representation for change detection [15.741202788959075]
点雲の変化を検出する最も一般的なアプローチは、教師付き手法に基づいている。
Inlicit Neural Representation (INR) for continuous shape reconstruction と Gaussian Mixture Model for categorising change の2つのコンポーネントからなる教師なしアプローチを提案する。
本手法を都市スプロールのためのシミュレーションLiDAR点雲からなるベンチマークデータセットに適用する。
論文 参考訳(メタデータ) (2023-07-28T09:26:00Z) - Large-scale Fully-Unsupervised Re-Identification [78.47108158030213]
大規模未ラベルデータから学ぶための2つの戦略を提案する。
第1の戦略は、近傍関係に違反することなく、それぞれのデータセットサイズを減らすために、局所的な近傍サンプリングを行う。
第2の戦略は、低時間上限の複雑さを持ち、メモリの複雑さを O(n2) から O(kn) に k n で還元する新しい再帰的手法を利用する。
論文 参考訳(メタデータ) (2023-07-26T16:19:19Z) - Robust Detection of Lead-Lag Relationships in Lagged Multi-Factor Models [61.10851158749843]
データ固有のリード-ラグ関係を発見することで、重要な洞察を得ることができる。
階層化多要素モデルにおけるリードラグ関係のロバスト検出のためのクラスタリング駆動手法を開発した。
論文 参考訳(メタデータ) (2023-05-11T10:30:35Z) - Learning to Bound Counterfactual Inference in Structural Causal Models
from Observational and Randomised Data [64.96984404868411]
我々は、従来のEMベースのアルゴリズムを拡張するための全体的なデータの特徴付けを導出する。
新しいアルゴリズムは、そのような混合データソースからモデルパラメータの(不特定性)領域を近似することを学ぶ。
反実的な結果に間隔近似を与え、それが特定可能な場合の点に崩壊する。
論文 参考訳(メタデータ) (2022-12-06T12:42:11Z) - Granger Causality Based Hierarchical Time Series Clustering for State
Estimation [8.384689499720515]
大量のラベルのないデータを扱う場合、クラスタリングは便利です。
シンボリックな動的フィルタリングとGranger因果関係に基づく階層型時系列クラスタリング手法を提案する。
Granger因果関係に基づく新しい距離メトリックが提案され、時系列クラスタリングに使用され、経験的なデータセットで検証される。
論文 参考訳(メタデータ) (2021-04-09T06:14:54Z) - Conjugate Mixture Models for Clustering Multimodal Data [24.640116037967985]
マルチモーダルクラスタリングの問題は、データが物理的に異なるセンサーで収集されるたびに発生する。
マルチモーダルクラスタリングは,新しいフレームワーク,すなわち共役混合モデル内で対処できることを示す。
論文 参考訳(メタデータ) (2020-12-09T10:13:22Z) - From Time Series to Euclidean Spaces: On Spatial Transformations for
Temporal Clustering [5.220940151628734]
従来のクラスタリング手法,時系列特異性,あるいは深層学習に基づく代替手法は,入力データに様々なサンプリングレートと高次元性が存在する場合によく一般化しないことを示す。
本稿では,入力時系列を距離ベース投影表現に変換する時間クラスタリング手法を提案する。
論文 参考訳(メタデータ) (2020-10-02T09:08:16Z) - TadGAN: Time Series Anomaly Detection Using Generative Adversarial
Networks [73.01104041298031]
TadGANは、GAN(Generative Adversarial Networks)上に構築された教師なしの異常検出手法である。
時系列の時間相関を捉えるために,ジェネレータと批評家のベースモデルとしてLSTMリカレントニューラルネットワークを用いる。
提案手法の性能と一般化性を示すため,いくつかの異常スコアリング手法を検証し,最も適した手法を報告する。
論文 参考訳(メタデータ) (2020-09-16T15:52:04Z) - FedPD: A Federated Learning Framework with Optimal Rates and Adaptivity
to Non-IID Data [59.50904660420082]
フェデレートラーニング(FL)は、分散データから学ぶための一般的なパラダイムになっています。
クラウドに移行することなく、さまざまなデバイスのデータを効果的に活用するために、Federated Averaging(FedAvg)などのアルゴリズムでは、"Computation then aggregate"(CTA)モデルを採用している。
論文 参考訳(メタデータ) (2020-05-22T23:07:42Z) - Unsupervised Domain Adaptation in Person re-ID via k-Reciprocal
Clustering and Large-Scale Heterogeneous Environment Synthesis [76.46004354572956]
個人再識別のための教師なし領域適応手法を提案する。
実験結果から,ktCUDA法とSHRED法は,再同定性能において,+5.7 mAPの平均的改善を実現することがわかった。
論文 参考訳(メタデータ) (2020-01-14T17:43:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。