論文の概要: Hybrid Combinatorial Multi-armed Bandits with Probabilistically Triggered Arms
- arxiv url: http://arxiv.org/abs/2512.21925v1
- Date: Fri, 26 Dec 2025 08:42:12 GMT
- ステータス: 情報取得中
- システム内更新日: 2025-12-29 11:57:41.644059
- Title: Hybrid Combinatorial Multi-armed Bandits with Probabilistically Triggered Arms
- Title(参考訳): 確率的トリガーアームを用いたハイブリッドコンビニアルマルチアームバンド
- Authors: Kongchang Zhou, Tingyu Zhang, Wei Chen, Fang Kong,
- Abstract要約: 我々は,オフラインデータとオンラインインタラクションを原則的に統合する新しいフレームワークであるCMAB-Tを提案する。
提案するハイブリッドCUCBアルゴリズムは,オフラインデータを利用して探索をガイドし,収束を加速する。
我々はアルゴリズムの後悔を理論的に保証し、ハイブリッドCUCBが純粋にオンラインアプローチを著しく上回っていることを示す。
- 参考スコア(独自算出の注目度): 10.146314852311638
- License:
- Abstract: The problem of combinatorial multi-armed bandits with probabilistically triggered arms (CMAB-T) has been extensively studied. Prior work primarily focuses on either the online setting where an agent learns about the unknown environment through iterative interactions, or the offline setting where a policy is learned solely from logged data. However, each of these paradigms has inherent limitations: online algorithms suffer from high interaction costs and slow adaptation, while offline methods are constrained by dataset quality and lack of exploration capabilities. To address these complementary weaknesses, we propose hybrid CMAB-T, a new framework that integrates offline data with online interaction in a principled manner. Our proposed hybrid CUCB algorithm leverages offline data to guide exploration and accelerate convergence, while strategically incorporating online interactions to mitigate the insufficient coverage or distributional bias of the offline dataset. We provide theoretical guarantees on the algorithm's regret, demonstrating that hybrid CUCB significantly outperforms purely online approaches when high-quality offline data is available, and effectively corrects the bias inherent in offline-only methods when the data is limited or misaligned. Empirical results further demonstrate the consistent advantage of our algorithm.
- Abstract(参考訳): 確率的に誘発される腕(CMAB-T)を用いた複合型多腕包帯の問題点は広く研究されている。
これまでの作業は、エージェントが反復的なインタラクションを通じて未知の環境について学習するオンライン設定や、ログデータのみからポリシーを学習するオフライン設定に重点を置いていた。
しかし、これらのパラダイムには固有の制限がある。オンラインアルゴリズムは高いインタラクションコストと遅い適応に悩まされ、オフラインメソッドはデータセットの品質と探索能力の欠如によって制約される。
これらの相補的弱点に対処するため,本研究では,オフラインデータとオンラインインタラクションを原則的に統合する新しいフレームワークであるCMAB-Tを提案する。
提案するハイブリッドCUCBアルゴリズムは,オフラインデータの探索と収束の促進にオフラインデータを活用するとともに,オンラインインタラクションを戦略的に取り入れ,オフラインデータセットのカバレッジや分布バイアスを緩和する。
提案アルゴリズムは,高品質なオフラインデータが利用可能である場合,ハイブリッドCUCBが純粋にオンラインアプローチよりも優れており,データに制限や不一致がある場合,オフラインのみに固有のバイアスを効果的に補正することを示した。
実験結果は、我々のアルゴリズムの一貫性のある利点をさらに示している。
関連論文リスト
- Best Arm Identification with Possibly Biased Offline Data [56.965938201853625]
固定された信頼度設定において、潜在的にバイアスのあるオフラインデータを用いた最適な腕識別問題について検討する。
補助バイアス補正を組み込んだLUCB-Hアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-05-29T06:58:49Z) - Evaluation-Time Policy Switching for Offline Reinforcement Learning [5.052293146674794]
オフライン強化学習(RL)では、環境からのインタラクションのデータセットを固定してタスクを最適に解決する方法を学ぶ。
オンライン学習のための多くの非政治アルゴリズムは、オフライン環境において、行動の分布の振る舞いを過大評価する傾向にある。
既存のオフラインRLアルゴリズムは、ポリシの制約やバリュー関数の変更といったテクニックを採用して、個々のデータセットのパフォーマンス向上を実現している。
我々は、行動改善のための純粋な非政治的RLエージェントの挙動を動的に結合するポリシー切替技術と、近くにとどまる行動的クローニング(BC)エージェントを導入する。
論文 参考訳(メタデータ) (2025-03-15T18:12:16Z) - Offline Learning for Combinatorial Multi-armed Bandits [56.96242764723241]
Off-CMABはCMABの最初のオフライン学習フレームワークである。
Off-CMABは悲観的な報酬推定と解法を組み合わせる。
合成および実世界のデータセットの実験は、CLCBの優れた性能を強調している。
論文 参考訳(メタデータ) (2025-01-31T16:56:18Z) - Understanding the performance gap between online and offline alignment algorithms [63.137832242488926]
オフラインのアルゴリズムは、ペアの分類が得意になるようにポリシーを訓練し、オンラインのアルゴリズムは世代ごとに良いことを示しています。
このことは、識別能力と生成能力の間のユニークな相互作用を示唆しており、これはサンプリングプロセスに大きく影響している。
我々の研究は、AIアライメントにおけるオンラインサンプリングの重要な役割に光を当て、オフラインアライメントアルゴリズムのある種の根本的な課題を示唆している。
論文 参考訳(メタデータ) (2024-05-14T09:12:30Z) - Reward-agnostic Fine-tuning: Provable Statistical Benefits of Hybrid
Reinforcement Learning [66.43003402281659]
オンラインデータ収集を効率的に活用してオフラインデータセットを強化し補完する方法に、中心的な疑問が浮かび上がっている。
我々は、純粋なオフラインRLと純粋なオンラインRLという、両方の世界のベストを打ち負かす3段階のハイブリッドRLアルゴリズムを設計する。
提案アルゴリズムは,データ収集時に報酬情報を必要としない。
論文 参考訳(メタデータ) (2023-05-17T15:17:23Z) - Adaptive Policy Learning for Offline-to-Online Reinforcement Learning [27.80266207283246]
我々は、エージェントがオフラインデータセットから最初に学習され、オンラインにトレーニングされたオフライン-オンライン設定について検討する。
オフラインおよびオンラインデータを効果的に活用するためのAdaptive Policy Learningというフレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-14T08:13:21Z) - Federated Offline Reinforcement Learning [55.326673977320574]
マルチサイトマルコフ決定プロセスモデルを提案する。
我々は,オフラインRLを対象とした最初のフェデレーション最適化アルゴリズムを設計する。
提案アルゴリズムでは,学習ポリシーの準最適性は,データが分散していないような速度に匹敵する,理論的保証を与える。
論文 参考訳(メタデータ) (2022-06-11T18:03:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。