Fugu-MT 論文翻訳(概要): Offline Clustering of Linear Bandits: Unlocking the Power of Clusters in Data-Limited Environments

論文の概要: Offline Clustering of Linear Bandits: Unlocking the Power of Clusters in Data-Limited Environments

arxiv url: http://arxiv.org/abs/2505.19043v1
Date: Sun, 25 May 2025 08:43:40 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-27 16:58:42.857124
Title: Offline Clustering of Linear Bandits: Unlocking the Power of Clusters in Data-Limited Environments
Title（参考訳）: 線形帯域のオフラインクラスタリング:データ制限環境におけるクラスタのパワーの解放
Authors: Jingyuan Liu, Zeyu Zhang, Xuchuang Wang, Xutong Liu, John C. S. Lui, Mohammad Hajiesmaili, Carlee Joe-Wong,
Abstract要約: オフラインデータセットを使用してクラスタプロパティを学習し、複数のユーザ間の意思決定を改善する方法について検討する。 Off-ClusBandの主な課題は、ユーザのデータ不足だ。任意の量のユーザデータに対して良好に動作するOff-C$2$LUBと、制限されたデータにバイアスがかかるOff-CLUBの2つのアルゴリズムを提案する。
参考スコア（独自算出の注目度）: 39.92799383936439
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Contextual linear multi-armed bandits are a learning framework for making a sequence of decisions, e.g., advertising recommendations for a sequence of arriving users. Recent works have shown that clustering these users based on the similarity of their learned preferences can significantly accelerate the learning. However, prior work has primarily focused on the online setting, which requires continually collecting user data, ignoring the offline data widely available in many applications. To tackle these limitations, we study the offline clustering of bandits (Off-ClusBand) problem, which studies how to use the offline dataset to learn cluster properties and improve decision-making across multiple users. The key challenge in Off-ClusBand arises from data insufficiency for users: unlike the online case, in the offline case, we have a fixed, limited dataset to work from and thus must determine whether we have enough data to confidently cluster users together. To address this challenge, we propose two algorithms: Off-C$^2$LUB, which we analytically show performs well for arbitrary amounts of user data, and Off-CLUB, which is prone to bias when data is limited but, given sufficient data, matches a theoretical lower bound that we derive for the offline clustered MAB problem. We experimentally validate these results on both real and synthetic datasets.
Abstract（参考訳）: コンテキスト・リニア・マルチアーム・バンディット(Contextual linear multi-armed bandits)は、一連の決定を行うための学習フレームワークである。近年の研究では、学習嗜好の類似性に基づいてこれらのユーザをクラスタリングすることで、学習を著しく加速させることができることが示されている。しかし、以前の作業は主にオンライン設定に焦点を当てており、多くのアプリケーションで利用可能なオフラインデータを無視して、継続的にユーザーデータを収集する必要がある。これらの制限に対処するために、オフラインデータセットを使用してクラスタ特性を学習し、複数のユーザ間の意思決定を改善する方法を研究する、帯域幅(Off-ClusBand)問題のオフラインクラスタリングについて検討する。 Off-ClusBandの主な課題は、ユーザのデータ不足から生じます。オンラインケースとは異なり、オフラインケースでは、処理すべき固定された制限されたデータセットがあり、したがって、ユーザを確実にクラスタ化するのに十分なデータを持っているかどうかを判断する必要があります。この課題に対処するために、任意の量のユーザデータに対して解析的によく動作するOff-C$^2$LUBと、データに制限がある場合にバイアスが発生しやすいOff-CLUBの2つのアルゴリズムを提案する。実データと合成データの両方を用いて,これらの結果を実験的に検証した。

関連論文リスト

Sparse-Reg: Improving Sample Complexity in Offline Reinforcement Learning using Sparsity [40.998188469865184]
スパース・レグ(Sparse-Reg)は、オフライン強化学習における過度適合を軽減するために、スパースをベースとした正規化手法である。オフラインのRLアルゴリズムは、小さなデータセットに過度に適合し、結果として性能が低下することを示す。
論文参考訳（メタデータ） (2025-06-20T16:57:59Z)
Offline Learning for Combinatorial Multi-armed Bandits [56.96242764723241]
Off-CMABはCMABの最初のオフライン学習フレームワークである。 Off-CMABは悲観的な報酬推定と解法を組み合わせる。合成および実世界のデータセットの実験は、CLCBの優れた性能を強調している。
論文参考訳（メタデータ） (2025-01-31T16:56:18Z)
Pessimistic Value Iteration for Multi-Task Data Sharing in Offline Reinforcement Learning [116.87367592920171]
オフライン強化学習(RL)は、固定データセットからタスク固有のポリシーを学ぶ上で有望な結果を示している。特定のタスクのデータセットが制限されているシナリオでは、他のタスクからのデータセットでオフラインのRLを改善することが自然なアプローチである。データ選択なしでデータセット全体を共有する不確実性に基づくマルチタスクデータ共有(MTDS)手法を提案する。
論文参考訳（メタデータ） (2024-04-30T08:16:52Z)
Hard Regularization to Prevent Deep Online Clustering Collapse without Data Augmentation [65.268245109828]
オンラインディープクラスタリング(オンラインディープクラスタリング)とは、機能抽出ネットワークとクラスタリングモデルを組み合わせて、クラスタラベルを処理された各新しいデータポイントまたはバッチに割り当てることである。オフラインメソッドよりも高速で汎用性が高いが、オンラインクラスタリングは、エンコーダがすべての入力を同じポイントにマッピングし、すべてを単一のクラスタに配置する、崩壊したソリューションに容易に到達することができる。本稿では,データ拡張を必要としない手法を提案する。
論文参考訳（メタデータ） (2023-03-29T08:23:26Z)
CADIS: Handling Cluster-skewed Non-IID Data in Federated Learning with Clustered Aggregation and Knowledge DIStilled Regularization [3.3711670942444014]
フェデレーション学習は、エッジデバイスがデータを公開することなく、グローバルモデルを協調的にトレーニングすることを可能にする。我々は、実際のデータセットで発見されたクラスタスキュード非IIDと呼ばれる新しいタイプの非IIDデータに取り組む。本稿では,クラスタ間の平等を保証するアグリゲーション方式を提案する。
論文参考訳（メタデータ） (2023-02-21T02:53:37Z)
Efficient Online Reinforcement Learning with Offline Data [78.92501185886569]
オンライン学習時にオフラインデータを活用するために、既存のオフライン手法を単純に適用できることを示します。私たちはこれらの設計選択を広範囲に改善し、パフォーマンスに最も影響を与える重要な要因を示します。これらのシンプルなレコメンデーションの正しい適用によって、既存のアプローチよりも$mathbf2.5times$の改善が得られます。
論文参考訳（メタデータ） (2023-02-06T17:30:22Z)
When Should We Prefer Offline Reinforcement Learning Over Behavioral Cloning? [86.43517734716606]
オフライン強化学習(RL)アルゴリズムは、オンラインインタラクションなしで、以前に収集した経験を生かして効果的なポリシーを得ることができる。行動クローニング(BC)アルゴリズムは、教師付き学習を通じてデータセットのサブセットを模倣する。十分にノイズの多い準最適データに基づいて訓練されたポリシーは、専門家データを持つBCアルゴリズムよりも優れた性能が得られることを示す。
論文参考訳（メタデータ） (2022-04-12T08:25:34Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。