論文の概要: Offline Clustering of Linear Bandits: Unlocking the Power of Clusters in Data-Limited Environments
- arxiv url: http://arxiv.org/abs/2505.19043v1
- Date: Sun, 25 May 2025 08:43:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:42.857124
- Title: Offline Clustering of Linear Bandits: Unlocking the Power of Clusters in Data-Limited Environments
- Title(参考訳): 線形帯域のオフラインクラスタリング:データ制限環境におけるクラスタのパワーの解放
- Authors: Jingyuan Liu, Zeyu Zhang, Xuchuang Wang, Xutong Liu, John C. S. Lui, Mohammad Hajiesmaili, Carlee Joe-Wong,
- Abstract要約: オフラインデータセットを使用してクラスタプロパティを学習し、複数のユーザ間の意思決定を改善する方法について検討する。
Off-ClusBandの主な課題は、ユーザのデータ不足だ。
任意の量のユーザデータに対して良好に動作するOff-C$2$LUBと、制限されたデータにバイアスがかかるOff-CLUBの2つのアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 39.92799383936439
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Contextual linear multi-armed bandits are a learning framework for making a sequence of decisions, e.g., advertising recommendations for a sequence of arriving users. Recent works have shown that clustering these users based on the similarity of their learned preferences can significantly accelerate the learning. However, prior work has primarily focused on the online setting, which requires continually collecting user data, ignoring the offline data widely available in many applications. To tackle these limitations, we study the offline clustering of bandits (Off-ClusBand) problem, which studies how to use the offline dataset to learn cluster properties and improve decision-making across multiple users. The key challenge in Off-ClusBand arises from data insufficiency for users: unlike the online case, in the offline case, we have a fixed, limited dataset to work from and thus must determine whether we have enough data to confidently cluster users together. To address this challenge, we propose two algorithms: Off-C$^2$LUB, which we analytically show performs well for arbitrary amounts of user data, and Off-CLUB, which is prone to bias when data is limited but, given sufficient data, matches a theoretical lower bound that we derive for the offline clustered MAB problem. We experimentally validate these results on both real and synthetic datasets.
- Abstract(参考訳): コンテキスト・リニア・マルチアーム・バンディット(Contextual linear multi-armed bandits)は、一連の決定を行うための学習フレームワークである。
近年の研究では、学習嗜好の類似性に基づいてこれらのユーザをクラスタリングすることで、学習を著しく加速させることができることが示されている。
しかし、以前の作業は主にオンライン設定に焦点を当てており、多くのアプリケーションで利用可能なオフラインデータを無視して、継続的にユーザーデータを収集する必要がある。
これらの制限に対処するために、オフラインデータセットを使用してクラスタ特性を学習し、複数のユーザ間の意思決定を改善する方法を研究する、帯域幅(Off-ClusBand)問題のオフラインクラスタリングについて検討する。
Off-ClusBandの主な課題は、ユーザのデータ不足から生じます。オンラインケースとは異なり、オフラインケースでは、処理すべき固定された制限されたデータセットがあり、したがって、ユーザを確実にクラスタ化するのに十分なデータを持っているかどうかを判断する必要があります。
この課題に対処するために、任意の量のユーザデータに対して解析的によく動作するOff-C$^2$LUBと、データに制限がある場合にバイアスが発生しやすいOff-CLUBの2つのアルゴリズムを提案する。
実データと合成データの両方を用いて,これらの結果を実験的に検証した。
関連論文リスト
- Hard Regularization to Prevent Deep Online Clustering Collapse without
Data Augmentation [65.268245109828]
オンラインディープクラスタリング(オンラインディープクラスタリング)とは、機能抽出ネットワークとクラスタリングモデルを組み合わせて、クラスタラベルを処理された各新しいデータポイントまたはバッチに割り当てることである。
オフラインメソッドよりも高速で汎用性が高いが、オンラインクラスタリングは、エンコーダがすべての入力を同じポイントにマッピングし、すべてを単一のクラスタに配置する、崩壊したソリューションに容易に到達することができる。
本稿では,データ拡張を必要としない手法を提案する。
論文 参考訳(メタデータ) (2023-03-29T08:23:26Z) - Efficient Online Reinforcement Learning with Offline Data [78.92501185886569]
オンライン学習時にオフラインデータを活用するために、既存のオフライン手法を単純に適用できることを示します。
私たちはこれらの設計選択を広範囲に改善し、パフォーマンスに最も影響を与える重要な要因を示します。
これらのシンプルなレコメンデーションの正しい適用によって、既存のアプローチよりも$mathbf2.5times$の改善が得られます。
論文 参考訳(メタデータ) (2023-02-06T17:30:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。