論文の概要: Offline Learning for Combinatorial Multi-armed Bandits
- arxiv url: http://arxiv.org/abs/2501.19300v1
- Date: Fri, 31 Jan 2025 16:56:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-03 14:01:05.857403
- Title: Offline Learning for Combinatorial Multi-armed Bandits
- Title(参考訳): 組合せ型マルチアームバンドのオフライン学習
- Authors: Xutong Liu, Xiangxiang Dai, Jinhang Zuo, Siwei Wang, Carlee-Joe Wong, John C. S. Lui, Wei Chen,
- Abstract要約: Off-CMABはCMABの最初のオフライン学習フレームワークである。
Off-CMABは悲観的な報酬推定と解法を組み合わせる。
合成および実世界のデータセットの実験は、CLCBの優れた性能を強調している。
- 参考スコア(独自算出の注目度): 56.96242764723241
- License:
- Abstract: The combinatorial multi-armed bandit (CMAB) is a fundamental sequential decision-making framework, extensively studied over the past decade. However, existing work primarily focuses on the online setting, overlooking the substantial costs of online interactions and the readily available offline datasets. To overcome these limitations, we introduce Off-CMAB, the first offline learning framework for CMAB. Central to our framework is the combinatorial lower confidence bound (CLCB) algorithm, which combines pessimistic reward estimations with combinatorial solvers. To characterize the quality of offline datasets, we propose two novel data coverage conditions and prove that, under these conditions, CLCB achieves a near-optimal suboptimality gap, matching the theoretical lower bound up to a logarithmic factor. We validate Off-CMAB through practical applications, including learning to rank, large language model (LLM) caching, and social influence maximization, showing its ability to handle nonlinear reward functions, general feedback models, and out-of-distribution action samples that excludes optimal or even feasible actions. Extensive experiments on synthetic and real-world datasets further highlight the superior performance of CLCB.
- Abstract(参考訳): CMAB(Multiar Multi-armed bandit)は、過去10年間に広く研究されてきた、基本的なシーケンシャルな意思決定フレームワークである。
しかし、既存の作業は主にオンライン設定に焦点を当てており、オンラインインタラクションの相当なコストと、簡単に利用できるオフラインデータセットを見越している。
これらの制限を克服するため、CMABの最初のオフライン学習フレームワークであるOff-CMABを紹介します。
我々のフレームワークの中心は、悲観的な報酬推定と組み合わせた組合せ的低信頼境界(CLCB)アルゴリズムである。
オフラインデータセットの品質を特徴付けるために、2つの新しいデータカバレッジ条件を提案し、これらの条件下では、CLCBは、理論的な下限を対数係数に合わせることにより、ほぼ最適の準最適差を達成できることを示す。
我々は,OFF-CMABを,ランク付け学習,大規模言語モデル(LLM)キャッシング,社会的影響の最大化などの実践的応用を通じて検証し,非線形報酬関数や一般フィードバックモデル,最適あるいは実行可能なアクションを除外したアウト・オブ・ディストリビューション行動サンプルの処理能力を示す。
合成および実世界のデータセットに関する大規模な実験は、CLCBの優れた性能をさらに強調する。
関連論文リスト
- Online Clustering of Dueling Bandits [59.09590979404303]
本稿では、優先フィードバックに基づく協調的な意思決定を可能にするために、最初の「デュエルバンディットアルゴリズムのクラスタリング」を導入する。
本稿では,(1)ユーザ報酬関数をコンテキストベクトルの線形関数としてモデル化する線形デューリング帯域のクラスタリング(COLDB)と,(2)ニューラルネットワークを用いて複雑な非線形ユーザ報酬関数をモデル化するニューラルデューリング帯域のクラスタリング(CONDB)の2つの新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-02-04T07:55:41Z) - Preference-Based Multi-Agent Reinforcement Learning: Data Coverage and Algorithmic Techniques [65.55451717632317]
PbMARL(Preference-based Multi-Agent Reinforcement Learning)について検討する。
一般ゲームにおける嗜好のみのオフラインデータセットからナッシュ平衡を同定する。
以上の結果から,PbMARLの多面的アプローチが示唆された。
論文 参考訳(メタデータ) (2024-09-01T13:14:41Z) - Coordination Failure in Cooperative Offline MARL [3.623224034411137]
オフラインデータを用いた多エージェント政策勾配における協調的障害と協調行動の役割について検討する。
解析ツールとして2プレイヤーゲームを用いることで、BRUDアルゴリズムの単純な失敗モードを実演する。
本稿では,共同動作の類似性に基づくデータセットからのサンプルの優先順位付けにより,そのような障害を緩和する手法を提案する。
論文 参考訳(メタデータ) (2024-07-01T14:51:29Z) - Preference Elicitation for Offline Reinforcement Learning [59.136381500967744]
オフラインの嗜好に基づく強化学習アルゴリズムであるSim-OPRLを提案する。
本アルゴリズムは,配当外データに対する悲観的アプローチと,最適方針に関する情報的嗜好を得るための楽観的アプローチを用いる。
論文 参考訳(メタデータ) (2024-06-26T15:59:13Z) - Combinatorial Multivariant Multi-Armed Bandits with Applications to Episodic Reinforcement Learning and Beyond [58.39457881271146]
CMAB(Multi-armed bandits)の多変量および確率的トリガーアーム(CMAB-MT)を用いた新しい枠組みを導入する。
CMAB-MTは既存のCMABと比べ、モデリング能力を高めるだけでなく、多変量確率変数の異なる統計特性を活用することで結果を改善することができる。
本フレームワークは, エピソード強化学習(RL)や商品分布の確率的最大カバレッジなど, 応用として多くの重要な問題を含むことができる。
論文 参考訳(メタデータ) (2024-06-03T14:48:53Z) - LOLA: LLM-Assisted Online Learning Algorithm for Content Experiments [2.2021543101231167]
現代のメディア企業は、ユーザーにとって最も魅力的で魅力的なコンテンツを特定するために、自動化され効率的な方法を必要としている。
本稿ではまず,3つの純LLM手法を用いて,最もキャッチラインを識別する能力について検討する。
LLM-Assisted Online Learning Algorithm (LOLA) は,Large Language Models (LLM) と適応実験を統合し,コンテンツ配信を最適化する新しいフレームワークである。
論文 参考訳(メタデータ) (2024-06-03T07:56:58Z) - Low-Latency Federated Learning over Wireless Channels with Differential
Privacy [142.5983499872664]
フェデレートラーニング(FL)では、モデルトレーニングはクライアントに分散し、ローカルモデルは中央サーバによって集約される。
本稿では,各クライアントの差分プライバシ(DP)要件だけでなく,全体としてのトレーニング性能に制約された無線チャネル上でのFLトレーニング遅延を最小限に抑えることを目的とする。
論文 参考訳(メタデータ) (2021-06-20T13:51:18Z) - Bridging Offline Reinforcement Learning and Imitation Learning: A Tale
of Pessimism [26.11003309805633]
オフライン強化学習(RL)アルゴリズムは、アクティブなデータ収集なしに、固定データセットから最適なポリシーを学習しようとする。
オフラインデータセットの構成に基づいて、模倣学習とバニラオフラインRLの2つの主要なカテゴリが使用される。
データ合成の2つの極端をスムーズに補間する新しいオフラインRLフレームワークを提案する。
論文 参考訳(メタデータ) (2021-03-22T17:27:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。