論文の概要: Revisiting Clustering of Neural Bandits: Selective Reinitialization for Mitigating Loss of Plasticity
- arxiv url: http://arxiv.org/abs/2506.12389v1
- Date: Sat, 14 Jun 2025 07:58:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-17 17:28:46.085691
- Title: Revisiting Clustering of Neural Bandits: Selective Reinitialization for Mitigating Loss of Plasticity
- Title(参考訳): 神経バンドのクラスタリング再考:塑性損失の緩和のための選択的再初期化
- Authors: Zhiyuan Su, Sunhao Dai, Xiao Zhang,
- Abstract要約: Selective Reinitialization (SeRe)は、進化する環境におけるCNBアルゴリズムの適応性を動的に保存する新しいバンディット学習フレームワークである。
我々は,SeReが断片的な定常環境におけるサブ線形累積後悔を可能にすることを証明した。
6つの実世界のレコメンデーションデータセットの実験では、SeReで強化されたCNBアルゴリズムが、後悔の少ないプラスチックの損失を効果的に軽減できることを示した。
- 参考スコア(独自算出の注目度): 3.4382101138780206
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Clustering of Bandits (CB) methods enhance sequential decision-making by grouping bandits into clusters based on similarity and incorporating cluster-level contextual information, demonstrating effectiveness and adaptability in applications like personalized streaming recommendations. However, when extending CB algorithms to their neural version (commonly referred to as Clustering of Neural Bandits, or CNB), they suffer from loss of plasticity, where neural network parameters become rigid and less adaptable over time, limiting their ability to adapt to non-stationary environments (e.g., dynamic user preferences in recommendation). To address this challenge, we propose Selective Reinitialization (SeRe), a novel bandit learning framework that dynamically preserves the adaptability of CNB algorithms in evolving environments. SeRe leverages a contribution utility metric to identify and selectively reset underutilized units, mitigating loss of plasticity while maintaining stable knowledge retention. Furthermore, when combining SeRe with CNB algorithms, the adaptive change detection mechanism adjusts the reinitialization frequency according to the degree of non-stationarity, ensuring effective adaptation without unnecessary resets. Theoretically, we prove that SeRe enables sublinear cumulative regret in piecewise-stationary environments, outperforming traditional CNB approaches in long-term performances. Extensive experiments on six real-world recommendation datasets demonstrate that SeRe-enhanced CNB algorithms can effectively mitigate the loss of plasticity with lower regrets, improving adaptability and robustness in dynamic settings.
- Abstract(参考訳): Bandits(CB)メソッドのクラスタリングは、類似性に基づいて帯域幅をクラスタにグループ化し、クラスタレベルのコンテキスト情報を統合することで、パーソナライズされたストリーミングレコメンデーションのようなアプリケーションにおける有効性と適応性を示すことによって、シーケンシャルな意思決定を促進する。
しかしながら、CBアルゴリズムをニューラルネットワークバージョン(一般的にはClustering of Neural Bandits(CNB)と呼ばれる)に拡張する場合、それらは可塑性の喪失に悩まされる。
この課題に対処するために,CNBアルゴリズムの適応性を動的に保存する新しい帯域幅学習フレームワークであるSelective Reinitialization (SeRe)を提案する。
SeReはコントリビューションユーティリティメトリックを利用して、未使用単位を特定し、選択的にリセットし、安定した知識保持を維持しながら可塑性の損失を軽減する。
さらに、SeReとCNBアルゴリズムを組み合わせると、適応変化検出機構は非定常度度に応じて再初期化周波数を調整し、不要なリセットなしに効果的な適応を確保する。
理論的には、SeReは断片的な定常環境においてサブ線形累積後悔を可能にし、長期的性能において従来のCNBアプローチよりも優れていることを示す。
6つの実世界のレコメンデーションデータセットに関する大規模な実験は、SeReで強化されたCNBアルゴリズムが、少ない後悔で可塑性の損失を効果的に軽減し、動的設定における適応性と堅牢性を改善することを実証している。
関連論文リスト
- EKPC: Elastic Knowledge Preservation and Compensation for Class-Incremental Learning [53.88000987041739]
クラスインクリメンタルラーニング(Class-Incremental Learning, CIL)は、AIモデルを、時間とともに異なるクラスのシーケンシャルに到着したデータから継続的に学習可能にすることを目的としている。
本稿では, 重要度を考慮した重要度正規化 (IPR) と CIL のためのトレーニング可能なセマンティックドリフト補償 (TSDC) を統合したElastic Knowledge Preservation and Compensation (EKPC) 法を提案する。
論文 参考訳(メタデータ) (2025-06-14T05:19:58Z) - Meta Clustering of Neural Bandits [45.77505279698894]
ニューラルバンドのクラスタリング(Clustering of Neural Bandits)という新しい問題を,任意の報酬関数に拡張することで研究する。
本稿では,メタラーナーを用いて動的クラスタを高速に表現・適応する,M-CNBという新しいアルゴリズムを提案する。
M-CNBはレコメンデーションとオンラインの分類シナリオの両方で広範な実験を行い、SOTAベースラインを上回ります。
論文 参考訳(メタデータ) (2024-08-10T16:09:51Z) - Towards Continual Learning Desiderata via HSIC-Bottleneck
Orthogonalization and Equiangular Embedding [55.107555305760954]
本稿では,レイヤワイドパラメータのオーバーライトや決定境界の歪みに起因する,概念的にシンプルで効果的な手法を提案する。
提案手法は,ゼロの指数バッファと1.02倍の差が絶対的に優れていても,競争精度が向上する。
論文 参考訳(メタデータ) (2024-01-17T09:01:29Z) - Achieving Constraints in Neural Networks: A Stochastic Augmented
Lagrangian Approach [49.1574468325115]
DNN(Deep Neural Networks)の正規化は、一般化性の向上とオーバーフィッティングの防止に不可欠である。
制約付き最適化問題としてトレーニングプロセスのフレーミングによるDNN正規化に対する新しいアプローチを提案する。
我々はAugmented Lagrangian (SAL) 法を用いて、より柔軟で効率的な正規化機構を実現する。
論文 参考訳(メタデータ) (2023-10-25T13:55:35Z) - Domain Generalization Guided by Gradient Signal to Noise Ratio of
Parameters [69.24377241408851]
ソースドメインへのオーバーフィッティングは、ディープニューラルネットワークの勾配に基づくトレーニングにおいて一般的な問題である。
本稿では,ネットワークパラメータの勾配-信号-雑音比(GSNR)を選択することを提案する。
論文 参考訳(メタデータ) (2023-10-11T10:21:34Z) - Keep Moving: identifying task-relevant subspaces to maximise plasticity for newly learned tasks [0.22499166814992438]
継続学習アルゴリズムは、事前情報を保持しながら、新しい知識を獲得しようとする。
これらのアルゴリズムは、しばしば安定性を強調し、新しいタスクを学習する際のネットワーク更新を制限する。
しかし、すべては有害か?
本稿では,ニューラルネットワークの活性化空間を2つの部分空間に分解できることを提案する。
論文 参考訳(メタデータ) (2023-10-07T08:54:43Z) - AURO: Reinforcement Learning for Adaptive User Retention Optimization in Recommender Systems [25.18963930580529]
強化学習(Reinforcement Learning, RL)は、レコメンデーションシステムにおけるユーザ保持の最適化能力に注目が集まっている。
本稿では,この課題に対処するため,textbfAdaptive textbfUser textbfRetention textbfOptimization (AURO) という新しいアプローチを提案する。
論文 参考訳(メタデータ) (2023-10-06T02:45:21Z) - RECOMBINER: Robust and Enhanced Compression with Bayesian Implicit
Neural Representations [8.417694229876371]
COMBINERは量子化を回避し、レート歪み性能の直接最適化を可能にする。
我々は,COMBINERの限界を克服するために,Robust and Enhanced COMBINER (RECOMBINER)を提案する。
我々は,RECOMBINERがINRベースの最良の手法と競合し,低解像度画像上でのオートエンコーダベースのコーデックよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-09-29T12:27:15Z) - End-to-end Differentiable Clustering with Associative Memories [23.618514621460694]
クラスタリングは、集中的な離散最適化問題を含む、広く使われている教師なし学習手法である。
本稿では,離散クラスタリング問題の非拘束的連続緩和を提案し,ClAMと呼ばれるAMによるエンドツーエンドの微分可能なクラスタリングを実現する。
各種データセットに対する評価では、ClAMは自己スーパービジョンの恩恵を受けており、従来のロイドのk平均アルゴリズムと、より最近の連続的なクラスタリング緩和(シルエット係数の60%まで)の両方で大幅に改善されていることが示されている。
論文 参考訳(メタデータ) (2023-06-05T19:34:36Z) - Evolving Constrained Reinforcement Learning Policy [5.4444944707433525]
本稿では,報酬と制約違反とを適応的にバランスする,進化的制約付き強化学習アルゴリズムを提案する。
ロボット制御ベンチマーク実験により、ECRLは最先端のアルゴリズムと比較して優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2023-04-19T03:54:31Z) - Edge Rewiring Goes Neural: Boosting Network Resilience via Policy
Gradient [62.660451283548724]
ResiNetは、さまざまな災害や攻撃に対する回復力のあるネットワークトポロジを発見するための強化学習フレームワークである。
ResiNetは複数のグラフに対してほぼ最適のレジリエンス向上を実現し,ユーティリティのバランスを保ちながら,既存のアプローチに比べて大きなマージンを持つことを示す。
論文 参考訳(メタデータ) (2021-10-18T06:14:28Z) - Adaptive Clustering-based Reduced-Order Modeling Framework: Fast and
accurate modeling of localized history-dependent phenomena [0.0]
本稿では,適応クラスタリングに基づくリダクション・オーダー・モデリング(ACROM)フレームワークを提案し,最近のクラスタリングに基づくリダクション・オーダー・モデル(CROM)のファミリーを大幅に改善し拡張する。
これにより、クラスタリングベースのドメイン分解は問題解全体を通して動的に進化し、関連するフィールドがより急勾配を示す領域における最適な洗練が保証される。
これは、高度に局所的な塑性と損傷現象を含む歴史に依存しない非線形問題の高速かつ正確な物質モデリングへの新たな経路を提供する。
論文 参考訳(メタデータ) (2021-09-24T11:36:58Z) - Non-stationary Online Learning with Memory and Non-stochastic Control [71.14503310914799]
我々は,過去の決定に依拠する損失関数を許容するメモリを用いたオンライン凸最適化(OCO)の問題について検討する。
本稿では,非定常環境に対してロバストなアルゴリズムを設計するための性能指標として,動的ポリシーの後悔を紹介する。
我々は,時間的地平線,非定常度,メモリ長といった面で,最適な動的ポリシーの後悔を確実に享受するメモリ付きOCOの新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-02-07T09:45:15Z) - Dynamic Regret of Policy Optimization in Non-stationary Environments [120.01408308460095]
我々は,POWERとPOWER++の2つのモデルフリーポリシー最適化アルゴリズムを提案し,その動的後悔の保証を確立する。
我々はPOWER++が動的後悔の第2の構成要素であるPOWERよりも優れており、予測によって非定常性に積極的に適応していることを示す。
我々の知識を最大限に活用するために、我々の研究は、非定常環境におけるモデルフリーなRLアルゴリズムの、最初の動的後悔分析である。
論文 参考訳(メタデータ) (2020-06-30T23:34:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。