論文の概要: Revisiting Clustering of Neural Bandits: Selective Reinitialization for Mitigating Loss of Plasticity
- arxiv url: http://arxiv.org/abs/2506.12389v1
- Date: Sat, 14 Jun 2025 07:58:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-17 17:28:46.085691
- Title: Revisiting Clustering of Neural Bandits: Selective Reinitialization for Mitigating Loss of Plasticity
- Title(参考訳): 神経バンドのクラスタリング再考:塑性損失の緩和のための選択的再初期化
- Authors: Zhiyuan Su, Sunhao Dai, Xiao Zhang,
- Abstract要約: Selective Reinitialization (SeRe)は、進化する環境におけるCNBアルゴリズムの適応性を動的に保存する新しいバンディット学習フレームワークである。
我々は,SeReが断片的な定常環境におけるサブ線形累積後悔を可能にすることを証明した。
6つの実世界のレコメンデーションデータセットの実験では、SeReで強化されたCNBアルゴリズムが、後悔の少ないプラスチックの損失を効果的に軽減できることを示した。
- 参考スコア(独自算出の注目度): 3.4382101138780206
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Clustering of Bandits (CB) methods enhance sequential decision-making by grouping bandits into clusters based on similarity and incorporating cluster-level contextual information, demonstrating effectiveness and adaptability in applications like personalized streaming recommendations. However, when extending CB algorithms to their neural version (commonly referred to as Clustering of Neural Bandits, or CNB), they suffer from loss of plasticity, where neural network parameters become rigid and less adaptable over time, limiting their ability to adapt to non-stationary environments (e.g., dynamic user preferences in recommendation). To address this challenge, we propose Selective Reinitialization (SeRe), a novel bandit learning framework that dynamically preserves the adaptability of CNB algorithms in evolving environments. SeRe leverages a contribution utility metric to identify and selectively reset underutilized units, mitigating loss of plasticity while maintaining stable knowledge retention. Furthermore, when combining SeRe with CNB algorithms, the adaptive change detection mechanism adjusts the reinitialization frequency according to the degree of non-stationarity, ensuring effective adaptation without unnecessary resets. Theoretically, we prove that SeRe enables sublinear cumulative regret in piecewise-stationary environments, outperforming traditional CNB approaches in long-term performances. Extensive experiments on six real-world recommendation datasets demonstrate that SeRe-enhanced CNB algorithms can effectively mitigate the loss of plasticity with lower regrets, improving adaptability and robustness in dynamic settings.
- Abstract(参考訳): Bandits(CB)メソッドのクラスタリングは、類似性に基づいて帯域幅をクラスタにグループ化し、クラスタレベルのコンテキスト情報を統合することで、パーソナライズされたストリーミングレコメンデーションのようなアプリケーションにおける有効性と適応性を示すことによって、シーケンシャルな意思決定を促進する。
しかしながら、CBアルゴリズムをニューラルネットワークバージョン(一般的にはClustering of Neural Bandits(CNB)と呼ばれる)に拡張する場合、それらは可塑性の喪失に悩まされる。
この課題に対処するために,CNBアルゴリズムの適応性を動的に保存する新しい帯域幅学習フレームワークであるSelective Reinitialization (SeRe)を提案する。
SeReはコントリビューションユーティリティメトリックを利用して、未使用単位を特定し、選択的にリセットし、安定した知識保持を維持しながら可塑性の損失を軽減する。
さらに、SeReとCNBアルゴリズムを組み合わせると、適応変化検出機構は非定常度度に応じて再初期化周波数を調整し、不要なリセットなしに効果的な適応を確保する。
理論的には、SeReは断片的な定常環境においてサブ線形累積後悔を可能にし、長期的性能において従来のCNBアプローチよりも優れていることを示す。
6つの実世界のレコメンデーションデータセットに関する大規模な実験は、SeReで強化されたCNBアルゴリズムが、少ない後悔で可塑性の損失を効果的に軽減し、動的設定における適応性と堅牢性を改善することを実証している。
関連論文リスト
- EKPC: Elastic Knowledge Preservation and Compensation for Class-Incremental Learning [53.88000987041739]
クラスインクリメンタルラーニング(Class-Incremental Learning, CIL)は、AIモデルを、時間とともに異なるクラスのシーケンシャルに到着したデータから継続的に学習可能にすることを目的としている。
本稿では, 重要度を考慮した重要度正規化 (IPR) と CIL のためのトレーニング可能なセマンティックドリフト補償 (TSDC) を統合したElastic Knowledge Preservation and Compensation (EKPC) 法を提案する。
論文 参考訳(メタデータ) (2025-06-14T05:19:58Z) - Towards Continual Learning Desiderata via HSIC-Bottleneck
Orthogonalization and Equiangular Embedding [55.107555305760954]
本稿では,レイヤワイドパラメータのオーバーライトや決定境界の歪みに起因する,概念的にシンプルで効果的な手法を提案する。
提案手法は,ゼロの指数バッファと1.02倍の差が絶対的に優れていても,競争精度が向上する。
論文 参考訳(メタデータ) (2024-01-17T09:01:29Z) - Achieving Constraints in Neural Networks: A Stochastic Augmented
Lagrangian Approach [49.1574468325115]
DNN(Deep Neural Networks)の正規化は、一般化性の向上とオーバーフィッティングの防止に不可欠である。
制約付き最適化問題としてトレーニングプロセスのフレーミングによるDNN正規化に対する新しいアプローチを提案する。
我々はAugmented Lagrangian (SAL) 法を用いて、より柔軟で効率的な正規化機構を実現する。
論文 参考訳(メタデータ) (2023-10-25T13:55:35Z) - Domain Generalization Guided by Gradient Signal to Noise Ratio of
Parameters [69.24377241408851]
ソースドメインへのオーバーフィッティングは、ディープニューラルネットワークの勾配に基づくトレーニングにおいて一般的な問題である。
本稿では,ネットワークパラメータの勾配-信号-雑音比(GSNR)を選択することを提案する。
論文 参考訳(メタデータ) (2023-10-11T10:21:34Z) - Keep Moving: identifying task-relevant subspaces to maximise plasticity for newly learned tasks [0.22499166814992438]
継続学習アルゴリズムは、事前情報を保持しながら、新しい知識を獲得しようとする。
これらのアルゴリズムは、しばしば安定性を強調し、新しいタスクを学習する際のネットワーク更新を制限する。
しかし、すべては有害か?
本稿では,ニューラルネットワークの活性化空間を2つの部分空間に分解できることを提案する。
論文 参考訳(メタデータ) (2023-10-07T08:54:43Z) - RECOMBINER: Robust and Enhanced Compression with Bayesian Implicit
Neural Representations [8.417694229876371]
COMBINERは量子化を回避し、レート歪み性能の直接最適化を可能にする。
我々は,COMBINERの限界を克服するために,Robust and Enhanced COMBINER (RECOMBINER)を提案する。
我々は,RECOMBINERがINRベースの最良の手法と競合し,低解像度画像上でのオートエンコーダベースのコーデックよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-09-29T12:27:15Z) - Edge Rewiring Goes Neural: Boosting Network Resilience via Policy
Gradient [62.660451283548724]
ResiNetは、さまざまな災害や攻撃に対する回復力のあるネットワークトポロジを発見するための強化学習フレームワークである。
ResiNetは複数のグラフに対してほぼ最適のレジリエンス向上を実現し,ユーティリティのバランスを保ちながら,既存のアプローチに比べて大きなマージンを持つことを示す。
論文 参考訳(メタデータ) (2021-10-18T06:14:28Z) - Non-stationary Online Learning with Memory and Non-stochastic Control [71.14503310914799]
我々は,過去の決定に依拠する損失関数を許容するメモリを用いたオンライン凸最適化(OCO)の問題について検討する。
本稿では,非定常環境に対してロバストなアルゴリズムを設計するための性能指標として,動的ポリシーの後悔を紹介する。
我々は,時間的地平線,非定常度,メモリ長といった面で,最適な動的ポリシーの後悔を確実に享受するメモリ付きOCOの新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-02-07T09:45:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。