論文の概要: Mixture of Online and Offline Experts for Non-stationary Time Series
- arxiv url: http://arxiv.org/abs/2202.05996v3
- Date: Fri, 13 Dec 2024 03:38:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-16 11:42:48.215245
- Title: Mixture of Online and Offline Experts for Non-stationary Time Series
- Title(参考訳): 非定常時間におけるオンラインとオフラインのエキスパートの混在
- Authors: Zhilin Zhao, Longbing Cao, Yuanyu Wan,
- Abstract要約: 非定常時系列に対するMOOE(Mixture of Online and Offline Experts)を提案する。
MOOEはオフライン間隔から静的オフラインの専門家を学び、現在のオンライン間隔で動的オンラインエキスパートを維持する。
具体的には、アルゴリズムの有効性を証明するために、理論解析、パラメータ収束の導出、後悔境界、一般化誤差境界に焦点をあてる。
- 参考スコア(独自算出の注目度): 39.443584213787
- License:
- Abstract: We consider a general and realistic scenario involving non-stationary time series, consisting of several offline intervals with different distributions within a fixed offline time horizon, and an online interval that continuously receives new samples. For non-stationary time series, the data distribution in the current online interval may have appeared in previous offline intervals. We theoretically explore the feasibility of applying knowledge from offline intervals to the current online interval. To this end, we propose the Mixture of Online and Offline Experts (MOOE). MOOE learns static offline experts from offline intervals and maintains a dynamic online expert for the current online interval. It then adaptively combines the offline and online experts using a meta expert to make predictions for the samples received in the online interval. Specifically, we focus on theoretical analysis, deriving parameter convergence, regret bounds, and generalization error bounds to prove the effectiveness of the algorithm.
- Abstract(参考訳): 我々は、固定されたオフライン時間水平線内で異なる分布を持つ複数のオフライン区間と、新しいサンプルを継続的に受信するオンライン区間からなる、静止しない時系列を包含する一般的な現実的なシナリオを考える。
静止しない時系列の場合、現在のオンライン区間のデータ分布は以前のオフライン区間に現れた可能性がある。
オフライン区間から現在のオンライン区間への知識適用の可能性について理論的に検討する。
そこで我々はMOOE(Mixture of Online and Offline Experts)を提案する。
MOOEはオフライン間隔から静的オフラインの専門家を学び、現在のオンライン間隔で動的オンラインエキスパートを維持する。
そして、オフラインとオンラインの専門家をメタエキスパートを使って適応的に組み合わせ、オンラインインターバルで受信したサンプルの予測を行う。
具体的には、アルゴリズムの有効性を証明するために、理論解析、パラメータ収束の導出、後悔境界、一般化誤差境界に焦点をあてる。
関連論文リスト
- ATraDiff: Accelerating Online Reinforcement Learning with Imaginary Trajectories [27.5648276335047]
報酬の少ない自律エージェントの訓練は、オンライン強化学習(RL)における長年の問題である
本稿では、オフラインデータを利用した適応軌道微分器(ATraDiff)と呼ばれる生成拡散モデル学習手法を提案する。
ATraDiffは、様々な環境における最先端のパフォーマンスを一貫して達成しており、特に複雑な設定の改善が顕著である。
論文 参考訳(メタデータ) (2024-06-06T17:58:15Z) - Pessimistic Value Iteration for Multi-Task Data Sharing in Offline Reinforcement Learning [116.87367592920171]
オフライン強化学習(RL)は、固定データセットからタスク固有のポリシーを学ぶ上で有望な結果を示している。
特定のタスクのデータセットが制限されているシナリオでは、他のタスクからのデータセットでオフラインのRLを改善することが自然なアプローチである。
データ選択なしでデータセット全体を共有する不確実性に基づくマルチタスクデータ共有(MTDS)手法を提案する。
論文 参考訳(メタデータ) (2024-04-30T08:16:52Z) - Online Tensor Inference [0.0]
従来のオフライン学習は、各計算繰り返しにおける全てのデータの保存と利用を伴い、高次元テンソルデータには実用的ではない。
既存の低ランクテンソル法は、オンラインの方法での統計的推論能力に欠ける。
本手法では,広範囲なメモリ要求を伴わずに効率的なリアルタイムデータ処理を実現するため,グラディエント・Descent (SGD) を用いる。
論文 参考訳(メタデータ) (2023-12-28T16:37:48Z) - Bridging Distributionally Robust Learning and Offline RL: An Approach to
Mitigate Distribution Shift and Partial Data Coverage [32.578787778183546]
オフライン強化学習(RL)アルゴリズムは、過去の(オフライン)データを用いて最適な警察を学習する。
オフラインRLの主な課題の1つは、分散シフトである。
分散ロバスト学習(DRL)フレームワークを用いた2つのオフラインRLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-10-27T19:19:30Z) - Reward-agnostic Fine-tuning: Provable Statistical Benefits of Hybrid
Reinforcement Learning [66.43003402281659]
オンラインデータ収集を効率的に活用してオフラインデータセットを強化し補完する方法に、中心的な疑問が浮かび上がっている。
我々は、純粋なオフラインRLと純粋なオンラインRLという、両方の世界のベストを打ち負かす3段階のハイブリッドRLアルゴリズムを設計する。
提案アルゴリズムは,データ収集時に報酬情報を必要としない。
論文 参考訳(メタデータ) (2023-05-17T15:17:23Z) - On the challenges to learn from Natural Data Streams [6.602973237811197]
実世界のコンテキストでは、時にデータはNatural Data Streamsの形で利用することができる。
このデータ組織は、従来の機械学習アルゴリズムとディープラーニングアルゴリズムの両方にとって興味深い、かつ難しいシナリオである。
本稿では,自然データストリームの学習入力として受信する各種アルゴリズムの分類性能について検討する。
論文 参考訳(メタデータ) (2023-01-09T16:32:02Z) - Wild-Time: A Benchmark of in-the-Wild Distribution Shift over Time [69.77704012415845]
時間的シフトは、現実世界にデプロイされた機械学習モデルのパフォーマンスを著しく低下させる可能性がある。
ドメイン一般化、連続学習、自己教師付き学習、アンサンブル学習の手法を含む13の先行手法をベンチマークする。
いずれの評価方略も,分布外データから分布外データへの平均的な性能低下を観察する。
論文 参考訳(メタデータ) (2022-11-25T17:07:53Z) - Model-based Offline Imitation Learning with Non-expert Data [7.615595533111191]
本稿では,最適条件と最適条件の両方で収集されたデータセットを活用する,スケーラブルなモデルベースオフライン模倣学習アルゴリズムフレームワークを提案する。
提案手法は, シミュレーションされた連続制御領域上での低データ構造における振舞いクローンよりも優れることを示す。
論文 参考訳(メタデータ) (2022-06-11T13:08:08Z) - On Covariate Shift of Latent Confounders in Imitation and Reinforcement
Learning [69.48387059607387]
模擬・強化学習において,未観測の共同設立者と専門家データを併用することの問題点を考察する。
我々は、外部報酬を伴わずに、確立した専門家データから学ぶことの限界を分析する。
我々は,支援医療とレコメンデーションシステムシミュレーションの課題に挑戦する上で,我々の主張を実証的に検証する。
論文 参考訳(メタデータ) (2021-10-13T07:31:31Z) - An Online Learning Approach to Interpolation and Extrapolation in Domain
Generalization [53.592597682854944]
リスクを最小化するプレイヤーと新しいテストを示す敵の間のオンラインゲームとしてサブグループの一般化を再放送する。
両課題に対してERMは極小最適であることを示す。
論文 参考訳(メタデータ) (2021-02-25T19:06:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。