論文の概要: Latent Order Bandits
- arxiv url: http://arxiv.org/abs/2605.07304v1
- Date: Fri, 08 May 2026 06:15:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-11 19:43:38.847308
- Title: Latent Order Bandits
- Title(参考訳): 遅延順序帯域
- Authors: Emil Carlsson, Newton Mwai, Fredrik D. Johansson,
- Abstract要約: Banditアルゴリズムは、様々なシーケンシャルな意思決定問題を解決するが、多くの場合、オフスクラッチのパーソナライゼーションにはサンプル非効率である。
本稿では,各状態における行動選好の部分的順序に関する事前知識のみを必要とするため,潜在順序選好(LOB)を提案する。
LOBは、アクションの部分的な順序が共有されている限り、同じ状態のインスタンスを報酬分布で変更することができる。
- 参考スコア(独自算出の注目度): 11.231384213521489
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Bandit algorithms solve diverse sequential decision-making problems, but are often too sample-inefficient for from-scratch personalization. To substantially reduce exploration times, latent bandit algorithms exploit cross-instance structure implied by discrete latent states, provided that the posterior distribution of rewards and latent states is known and accurate. However, obtaining an accurate model of this structure is difficult, and a small number of latent states may be insufficient to characterize the reward distributions in all problem instances. We propose latent order bandits (LOB), relaxing the assumptions of latent bandits to require only prior knowledge of a partial order of action preferences in each state. This allows instances of the same state to vary in reward distributions, as long as the partial order of actions is shared. For example, groups of users on a streaming service may agree on which movie genres are the best but rate experiences on different scales. We give an upper-confidence bound procedure for the LOB problem, applicable to both total and partial latent orders, and give an upper bound on its regret. To improve empirical performance, we propose a posterior-sampling algorithm and show, in a suite of experiments, that both are competitive with full-prior latent bandits when same-state instances share reward parameters, and preferable to them when reward scales differ between instances with the same latent state.
- Abstract(参考訳): Banditアルゴリズムは、様々なシーケンシャルな意思決定問題を解決するが、多くの場合、オフスクラッチのパーソナライゼーションにはサンプル非効率である。
探索時間を大幅に短縮するために、遅延バンディットアルゴリズムは離散潜在状態によって印加されるクロスインスタンス構造を利用して、報酬と潜伏状態の後方分布が知られ、正確であることを仮定する。
しかし、この構造の正確なモデルを得ることは困難であり、全ての問題における報酬分布を特徴づけるには少数の潜在状態が不十分である可能性がある。
本稿では,各状態における行動選好の部分的順序に関する事前知識のみを必要とするため,潜在順序選好(LOB)を提案する。
これにより、アクションの部分的な順序が共有される限り、同じ状態のインスタンスは報酬分布で変化する。
例えば、ストリーミングサービスのユーザーグループは、どのジャンルがどの映画が最も良いかに同意するかもしれないが、異なるスケールでの視聴率を評価できる。
我々はLOB問題に対して,全順序と部分順序の両方に適用可能な上限付き手続きを与え,その後悔に上限を与える。
実験性能を向上させるために, 実験の組において, 同一状態のインスタンスが報酬パラメータを共有する場合, 最大遅延帯域と競合し, 同一遅延状態のインスタンス間で報酬スケールが異なる場合, それらに好適であることを示す, 後サンプリングアルゴリズムを提案する。
関連論文リスト
- A single algorithm for both restless and rested rotting bandits [65.63283411693489]
本稿では,ロッティング・アダプティブ・ウインドウUCBというアルゴリズムを導入し,ロッティング・レストとレスト・バンディットの両面において,ほぼ最適の後悔を実現する。
これは、報酬が増加するとアルゴリズムが同様の結果を得ることができないことを示す以前の否定的な結果とは対照的である。
論文 参考訳(メタデータ) (2026-04-23T08:48:52Z) - Latent Preference Bandits [7.731569068280131]
Banditアルゴリズムは、さまざまなシーケンシャルな意思決定問題を解決することが保証されている。
潜伏帯は、潜伏状態の合同分布と行動の報奨が知られ、正確であることを考えると、そのような問題に対する探査時間を著しく短縮する。
実際には、そのようなモデルを見つけることは自明ではなく、全ての個人の反応を説明する少数の潜在状態は存在しないかもしれない。
論文 参考訳(メタデータ) (2025-08-07T13:13:28Z) - The Batch Complexity of Bandit Pure Exploration [10.036727981085223]
マルチアームバンディットにおける純粋な探索問題では、アルゴリズムは武器を反復的にサンプリングし、できるだけ早く停止し、武器分布に関する質問に対する正しい答えを返すべきである。
私たちは、バッチ化メソッドに興味を持ち、サンプルの振る舞いを数回だけ、観察のバッチ間で変更します。
純粋な探索タスクに対して,任意のサンプル効率アルゴリズムが使用するバッチ数に対して,インスタンス依存の低いバウンダリを与える。
論文 参考訳(メタデータ) (2025-02-03T15:03:45Z) - From Optimality to Robustness: Dirichlet Sampling Strategies in
Stochastic Bandits [0.0]
本研究では、腕の観察を再サンプリングした経験的指標のペア比較に基づいて、ジェネリックディリクレサンプリング(DS)アルゴリズムについて検討する。
この戦略の異なる変種は、分布が有界であるときに証明可能な最適後悔保証と、半有界分布に対して軽度量子状態の対数後悔を実現することを示す。
論文 参考訳(メタデータ) (2021-11-18T14:34:21Z) - Break your Bandit Routine with LSD Rewards: a Last Switch Dependent
Analysis of Satiation and Seasonality [6.146046338698175]
そこで本研究では,腕が最後に動作を切り替えて以降の時間経過によって,腕の期待される報酬が完全に決定される,新たな非定常バンディット問題を導入する。
我々のモデルは、遅延依存報酬の概念を一般化し、報酬関数に関するほとんどの仮定を緩和する。
我々はアルゴリズムを証明し、最適な非定常ポリシーに関してその後悔を証明した。
論文 参考訳(メタデータ) (2021-10-22T14:53:13Z) - Batched Neural Bandits [107.5072688105936]
BatchNeuralUCBはニューラルネットワークと楽観性を組み合わせ、探索と探索のトレードオフに対処する。
BatchNeuralUCBは、完全なシーケンシャルバージョンと同じ後悔を達成しつつ、ポリシー更新の数を大幅に減らしています。
論文 参考訳(メタデータ) (2021-02-25T17:36:44Z) - Adaptive Algorithms for Multi-armed Bandit with Composite and Anonymous
Feedback [32.62857394584907]
複合および匿名フィードバックによるマルチアームバンディット(MAB)問題を研究する。
本稿では,逆の場合と非逆の場合の適応アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-12-13T12:25:41Z) - Adaptive Discretization against an Adversary: Lipschitz bandits, Dynamic Pricing, and Auction Tuning [56.23358327635815]
リプシッツ・バンディット(Lipschitz bandits)は、大規模で構造化された行動空間を研究する多腕バンディットの顕著なバージョンである。
ここでの中心的なテーマは、アクション空間の適応的な離散化であり、より有望な領域で徐々にズームインする'である。
逆バージョンにおける適応的な離散化のための最初のアルゴリズムを提供し、インスタンス依存の後悔境界を導出する。
論文 参考訳(メタデータ) (2020-06-22T16:06:25Z) - Latent Bandits Revisited [55.88616813182679]
潜伏盗賊問題は、学習エージェントが未知の離散潜伏状態に条件付けられた腕の報酬分布を知知する問題である。
本稿では, 上位信頼境界(UCB)とトンプソンサンプリング(Thompson sample)の両方に基づいて, この設定のための一般的なアルゴリズムを提案する。
我々はアルゴリズムの統一的な理論的解析を行い、遅延状態の数がアクションよりも小さい場合、古典的なバンディットポリシーよりも後悔度が低い。
論文 参考訳(メタデータ) (2020-06-15T19:24:02Z) - The Price of Incentivizing Exploration: A Characterization via Thompson
Sampling and Sample Complexity [83.81297078039836]
インセンティブ付き探索(Incentivized Exploring)は、武器の選択を自給自足エージェントによって制御するマルチアーム・バンディットのバージョンである。
我々は、インセンティブの価格に焦点を合わせ、インセンティブの適合性のために、広く解釈された、パフォーマンスの喪失が引き起こされる。
論文 参考訳(メタデータ) (2020-02-03T04:58:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。