論文の概要: Coupling Online-Offline Learning for Multi-distributional Data Streams
- arxiv url: http://arxiv.org/abs/2202.05996v1
- Date: Sat, 12 Feb 2022 06:04:13 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-15 17:14:52.523681
- Title: Coupling Online-Offline Learning for Multi-distributional Data Streams
- Title(参考訳): 複数分散データストリームのためのオンラインオフライン学習の結合
- Authors: Zhilin Zhao and Longbing Cao and Yuanyu Wan
- Abstract要約: 本研究は,結合オンラインオフライン学習(CO$)という新しい最適化手法を導入する。
CO$はオフラインの専門家をオフライン間隔ごとに訓練して知識を抽出し、オンライン間隔でオフザシェルフのオンライン最適化方法によってオンライン専門家を更新する。
出力仮説の一般化性能を検討するために,損失関数特性,仮説クラス,データ分布,後悔に関連する余剰リスクを解析する一般理論を提案する。
- 参考スコア(独自算出の注目度): 46.71037954353128
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The distributions of real-life data streams are usually nonstationary, where
one exciting setting is that a stream can be decomposed into several offline
intervals with a fixed time horizon but different distributions and an
out-of-distribution online interval. We call such data multi-distributional
data streams, on which learning an on-the-fly expert for unseen samples with a
desirable generalization is demanding yet highly challenging owing to the
multi-distributional streaming nature, particularly when initially limited data
is available for the online interval. To address these challenges, this work
introduces a novel optimization method named coupling online-offline learning
(CO$_2$) with theoretical guarantees about the knowledge transfer, the regret,
and the generalization error. CO$_2$ extracts knowledge by training an offline
expert for each offline interval and update an online expert by an
off-the-shelf online optimization method in the online interval. CO$_2$ outputs
a hypothesis for each sample by adaptively coupling both the offline experts
and the underlying online expert through an expert-tracking strategy to adapt
to the dynamic environment. To study the generalization performance of the
output hypothesis, we propose a general theory to analyze its excess risk bound
related to the loss function properties, the hypothesis class, the data
distribution, and the regret.
- Abstract(参考訳): 実際のデータストリームの分布は通常、非定常であり、あるエキサイティングな設定は、ストリームが一定の時間軸を持つ複数のオフライン間隔に分解できるが、異なる分布と分散のオンライン間隔に分解できるということである。
このようなデータをマルチディストリビューションデータストリームと呼び、未確認サンプルのオンザフライの専門家を望ましい一般化で学習することは、マルチディストリビューションストリーミングの性質のため、特にオンラインインターバルでデータに制限がある場合、非常に困難である。
これらの課題に対処するため,本研究では,知識伝達,後悔,一般化誤差に関する理論的保証を伴うオンラインオフライン学習(co$_2$)のカップリングという新しい最適化手法を提案する。
CO$_2$は、オフラインの専門家をオフラインインターバルごとに訓練して知識を抽出し、オンラインインターバルで市販のオンライン最適化方法によってオンライン専門家を更新する。
co$_2$は、オフラインの専門家と基盤となるオンラインエキスパートの両方を、ダイナミックな環境に適応するための専門家追跡戦略を通じて適応的に結合することで、各サンプルの仮説を出力する。
アウトプット仮説の一般化性能を検討するために,損失関数特性,仮説クラス,データ分布,後悔に関連する過大リスクを解析するための一般理論を提案する。
関連論文リスト
- Mixture of Efficient Diffusion Experts Through Automatic Interval and Sub-Network Selection [63.96018203905272]
本稿では, 事前学習した拡散モデルを用いて, 効率の良い専門家の混入を図り, サンプリングコストを削減することを提案する。
提案手法であるDiffPruningの有効性を,複数のデータセットで示す。
論文 参考訳(メタデータ) (2024-09-23T21:27:26Z) - Generalization bounds for mixing processes via delayed online-to-PAC conversions [9.763215134790478]
統計的学習アルゴリズムの一般化誤差を非i.d.設定で検討する。
我々は,遅延フィードバックによるオンライン学習の削減に基づく,このシナリオの分析フレームワークを開発した。
論文 参考訳(メタデータ) (2024-06-18T13:31:15Z) - A note on continuous-time online learning [13.796981813494199]
オンライン学習では、データは逐次順序で提供され、学習者の目標は、全体的な後悔を最小限に抑えるためにオンライン決定を行うことである。
このノートは、オンライン線形最適化、逆線形バンドイット、逆線形バンドイットといった、オンライン学習問題に対する連続時間モデルとアルゴリズムに関するものである。
論文 参考訳(メタデータ) (2024-05-16T18:58:19Z) - ENOTO: Improving Offline-to-Online Reinforcement Learning with Q-Ensembles [52.34951901588738]
我々はENsemble-based Offline-To-Online (ENOTO) RLという新しいフレームワークを提案する。
Q-networksの数を増やすことで、オフラインの事前トレーニングとオンラインの微調整を、パフォーマンスを低下させることなくシームレスに橋渡しします。
実験により,ENOTOは既存のオフラインRL手法のトレーニング安定性,学習効率,最終性能を大幅に向上できることが示された。
論文 参考訳(メタデータ) (2023-06-12T05:10:10Z) - Reward-agnostic Fine-tuning: Provable Statistical Benefits of Hybrid
Reinforcement Learning [66.43003402281659]
オンラインデータ収集を効率的に活用してオフラインデータセットを強化し補完する方法に、中心的な疑問が浮かび上がっている。
我々は、純粋なオフラインRLと純粋なオンラインRLという、両方の世界のベストを打ち負かす3段階のハイブリッドRLアルゴリズムを設計する。
提案アルゴリズムは,データ収集時に報酬情報を必要としない。
論文 参考訳(メタデータ) (2023-05-17T15:17:23Z) - Improved Online Conformal Prediction via Strongly Adaptive Online
Learning [86.4346936885507]
我々は、強い適応的後悔を最小限に抑える新しいオンライン共形予測手法を開発した。
提案手法は,すべての区間において,ほぼ最適に適応的な後悔を同時に達成できることを実証する。
実験により,本手法は実世界のタスクにおける既存の手法よりも,より優れたカバレッジと予測セットが得られることがわかった。
論文 参考訳(メタデータ) (2023-02-15T18:59:30Z) - Continuous Prediction with Experts' Advice [10.98975673892221]
専門家のアドバイスによる予測は、オンライン学習における最も基本的な問題の1つである。
近年の研究では、微分方程式のレンズと連続時間解析によるオンライン学習が研究されている。
論文 参考訳(メタデータ) (2022-06-01T05:09:20Z) - Anomaly Detection on IT Operation Series via Online Matrix Profile [2.0539994999823334]
時系列における異常検出は、ITシステムのキーパフォーマンス指標(KPI)を監視するための基本的なタスクである。
本稿では,トレーニングを必要としないオンライン行列プロファイルを提案し,この問題に対処する。
異常は、現在に最も近い過去のサブシーケンスを参照することによって検出される。
論文 参考訳(メタデータ) (2021-08-27T02:40:37Z) - OPAL: Offline Primitive Discovery for Accelerating Offline Reinforcement
Learning [107.6943868812716]
エージェントは大量のオフライン体験データにアクセスでき、オンライン環境へのアクセスは極めて限られている。
我々の主な洞察は、様々な行動からなるオフラインデータを提示すると、このデータを活用する効果的な方法は、反復的かつ時間的に拡張された原始的行動の連続的な空間を抽出することである。
オフラインポリシ最適化のメリットに加えて,このようなオフラインプリミティブ学習の実施も,数発の模倣学習の改善に有効であることを示す。
論文 参考訳(メタデータ) (2020-10-26T14:31:08Z) - Centralized and distributed online learning for sparse time-varying
optimization [2.7006549420999937]
時間変化システムを追跡するオンラインアルゴリズムの開発は、ここ数年で多くの注目を集めている。
本稿では,特定のモデルを採用しないオンライン学習手法を提案する。
具体的には、集中型および分散型アルゴリズムを開発し、動的後悔の観点から理論的に解析する。
論文 参考訳(メタデータ) (2020-01-31T16:29:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。