論文の概要: Offline Clustering of Linear Bandits: The Power of Clusters under Limited Data
- arxiv url: http://arxiv.org/abs/2505.19043v2
- Date: Sat, 25 Oct 2025 08:29:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 19:54:32.342289
- Title: Offline Clustering of Linear Bandits: The Power of Clusters under Limited Data
- Title(参考訳): 線形帯域のオフラインクラスタリング:限られたデータの下でのクラスタのパワー
- Authors: Jingyuan Liu, Zeyu Zhang, Xuchuang Wang, Xutong Liu, John C. S. Lui, Mohammad Hajiesmaili, Carlee Joe-Wong,
- Abstract要約: 我々は、オフラインデータセットを用いてクラスタ特性を学習し、意思決定を改善する方法を研究する、帯域幅(Off-ClusBand)問題のオフラインクラスタリングについて検討する。
提案するアルゴリズムは2つある: Off-C2LUB は、限られたオフラインユーザデータの下で既存の手法を解析的かつ実験的に上回る性能を示し、Off-CLUB は、データがスパースであるときにバイアスが発生するが、データが十分であれば、その下限にほぼ一致する。
- 参考スコア(独自算出の注目度): 60.91600085523719
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Contextual multi-armed bandit is a fundamental learning framework for making a sequence of decisions, e.g., advertising recommendations for a sequence of arriving users. Recent works have shown that clustering these users based on the similarity of their learned preferences can accelerate the learning. However, prior work has primarily focused on the online setting, which requires continually collecting user data, ignoring the offline data widely available in many applications. To tackle these limitations, we study the offline clustering of bandits (Off-ClusBand) problem, which studies how to use the offline dataset to learn cluster properties and improve decision-making. The key challenge in Off-ClusBand arises from data insufficiency for users: unlike the online case where we continually learn from online data, in the offline case, we have a fixed, limited dataset to work from and thus must determine whether we have enough data to confidently cluster users together. To address this challenge, we propose two algorithms: Off-C2LUB, which we show analytically and experimentally outperforms existing methods under limited offline user data, and Off-CLUB, which may incur bias when data is sparse but performs well and nearly matches the lower bound when data is sufficient. We experimentally validate these results on both real and synthetic datasets.
- Abstract(参考訳): コンテキスト的マルチアームバンディット(Contextual multi-armed bandit)は、例えば、到着したユーザのシーケンスに対する広告レコメンデーションなどの一連の決定を行うための、基本的な学習フレームワークである。
近年の研究では、学習嗜好の類似性に基づいてこれらのユーザをクラスタリングすることで、学習を加速できることが示されている。
しかし、以前の作業は主にオンライン設定に焦点を当てており、多くのアプリケーションで利用可能なオフラインデータを無視して、継続的にユーザーデータを収集する必要がある。
これらの制約に対処するために、オフラインデータセットを使用してクラスタ特性を学習し、意思決定を改善する方法を研究する、帯域幅(Off-ClusBand)問題のオフラインクラスタリングについて検討する。
オンラインデータから継続的に学習するオンラインケースとは異なり、オフラインの場合、作業するための固定された限られたデータセットがあり、ユーザを確実にクラスタ化するのに十分なデータを持っているかどうかを判断する必要があります。
この課題に対処するため,本研究では,オフラインユーザデータに制限された既存手法を解析的かつ実験的に上回るOff-C2LUBと,データがスパースである場合にバイアスが発生する可能性のあるOff-CLUBの2つのアルゴリズムを提案する。
実データと合成データの両方を用いて,これらの結果を実験的に検証した。
関連論文リスト
- Sparse-Reg: Improving Sample Complexity in Offline Reinforcement Learning using Sparsity [40.998188469865184]
スパース・レグ(Sparse-Reg)は、オフライン強化学習における過度適合を軽減するために、スパースをベースとした正規化手法である。
オフラインのRLアルゴリズムは、小さなデータセットに過度に適合し、結果として性能が低下することを示す。
論文 参考訳(メタデータ) (2025-06-20T16:57:59Z) - Offline Learning for Combinatorial Multi-armed Bandits [56.96242764723241]
Off-CMABはCMABの最初のオフライン学習フレームワークである。
Off-CMABは悲観的な報酬推定と解法を組み合わせる。
合成および実世界のデータセットの実験は、CLCBの優れた性能を強調している。
論文 参考訳(メタデータ) (2025-01-31T16:56:18Z) - Pessimistic Value Iteration for Multi-Task Data Sharing in Offline Reinforcement Learning [116.87367592920171]
オフライン強化学習(RL)は、固定データセットからタスク固有のポリシーを学ぶ上で有望な結果を示している。
特定のタスクのデータセットが制限されているシナリオでは、他のタスクからのデータセットでオフラインのRLを改善することが自然なアプローチである。
データ選択なしでデータセット全体を共有する不確実性に基づくマルチタスクデータ共有(MTDS)手法を提案する。
論文 参考訳(メタデータ) (2024-04-30T08:16:52Z) - Hard Regularization to Prevent Deep Online Clustering Collapse without
Data Augmentation [65.268245109828]
オンラインディープクラスタリング(オンラインディープクラスタリング)とは、機能抽出ネットワークとクラスタリングモデルを組み合わせて、クラスタラベルを処理された各新しいデータポイントまたはバッチに割り当てることである。
オフラインメソッドよりも高速で汎用性が高いが、オンラインクラスタリングは、エンコーダがすべての入力を同じポイントにマッピングし、すべてを単一のクラスタに配置する、崩壊したソリューションに容易に到達することができる。
本稿では,データ拡張を必要としない手法を提案する。
論文 参考訳(メタデータ) (2023-03-29T08:23:26Z) - CADIS: Handling Cluster-skewed Non-IID Data in Federated Learning with
Clustered Aggregation and Knowledge DIStilled Regularization [3.3711670942444014]
フェデレーション学習は、エッジデバイスがデータを公開することなく、グローバルモデルを協調的にトレーニングすることを可能にする。
我々は、実際のデータセットで発見されたクラスタスキュード非IIDと呼ばれる新しいタイプの非IIDデータに取り組む。
本稿では,クラスタ間の平等を保証するアグリゲーション方式を提案する。
論文 参考訳(メタデータ) (2023-02-21T02:53:37Z) - Efficient Online Reinforcement Learning with Offline Data [78.92501185886569]
オンライン学習時にオフラインデータを活用するために、既存のオフライン手法を単純に適用できることを示します。
私たちはこれらの設計選択を広範囲に改善し、パフォーマンスに最も影響を与える重要な要因を示します。
これらのシンプルなレコメンデーションの正しい適用によって、既存のアプローチよりも$mathbf2.5times$の改善が得られます。
論文 参考訳(メタデータ) (2023-02-06T17:30:22Z) - When Should We Prefer Offline Reinforcement Learning Over Behavioral
Cloning? [86.43517734716606]
オフライン強化学習(RL)アルゴリズムは、オンラインインタラクションなしで、以前に収集した経験を生かして効果的なポリシーを得ることができる。
行動クローニング(BC)アルゴリズムは、教師付き学習を通じてデータセットのサブセットを模倣する。
十分にノイズの多い準最適データに基づいて訓練されたポリシーは、専門家データを持つBCアルゴリズムよりも優れた性能が得られることを示す。
論文 参考訳(メタデータ) (2022-04-12T08:25:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。