論文の概要: Latent Preference Bandits
- arxiv url: http://arxiv.org/abs/2508.05367v1
- Date: Thu, 07 Aug 2025 13:13:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-08 18:59:39.870479
- Title: Latent Preference Bandits
- Title(参考訳): latent‐preference bandit
- Authors: Newton Mwai, Emil Carlsson, Fredrik D. Johansson,
- Abstract要約: Banditアルゴリズムは、さまざまなシーケンシャルな意思決定問題を解決することが保証されている。
潜伏帯は、潜伏状態の合同分布と行動の報奨が知られ、正確であることを考えると、そのような問題に対する探査時間を著しく短縮する。
実際には、そのようなモデルを見つけることは自明ではなく、全ての個人の反応を説明する少数の潜在状態は存在しないかもしれない。
- 参考スコア(独自算出の注目度): 7.731569068280131
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Bandit algorithms are guaranteed to solve diverse sequential decision-making problems, provided that a sufficient exploration budget is available. However, learning from scratch is often too costly for personalization tasks where a single individual faces only a small number of decision points. Latent bandits offer substantially reduced exploration times for such problems, given that the joint distribution of a latent state and the rewards of actions is known and accurate. In practice, finding such a model is non-trivial, and there may not exist a small number of latent states that explain the responses of all individuals. For example, patients with similar latent conditions may have the same preference in treatments but rate their symptoms on different scales. With this in mind, we propose relaxing the assumptions of latent bandits to require only a model of the \emph{preference ordering} of actions in each latent state. This allows problem instances with the same latent state to vary in their reward distributions, as long as their preference orderings are equal. We give a posterior-sampling algorithm for this problem and demonstrate that its empirical performance is competitive with latent bandits that have full knowledge of the reward distribution when this is well-specified, and outperforms them when reward scales differ between instances with the same latent state.
- Abstract(参考訳): バンドアルゴリズムは、十分な調査予算が得られれば、多様なシーケンシャルな意思決定問題を解決することが保証される。
しかし、スクラッチから学ぶことは、個々の個人が少数の意思決定ポイントに直面するパーソナライズタスクにとって、しばしばコストがかかりすぎる。
潜伏帯は、潜伏状態の合同分布と行動の報奨が知られ、正確であることを考えると、そのような問題に対する探査時間を著しく短縮する。
実際には、そのようなモデルを見つけることは自明ではなく、全ての個人の反応を説明する少数の潜在状態は存在しないかもしれない。
例えば、同様の潜伏状態の患者は治療において同じ好みを持つが、症状を異なる尺度で評価する。
このことを念頭に置いて、各潜伏状態における行動の 'emph{preference ordering} のモデルのみを必要とするように、潜伏包帯の仮定を緩和することを提案する。
これにより、同じ潜伏状態の問題インスタンスは、好みの順序が等しい限り、報酬分布が異なる。
この問題に対する後部サンプリングアルゴリズムを提案し、その経験的性能が、それが適切に特定された場合の報酬分布について十分な知識を持つ潜伏包帯と競合することを示し、同じ潜伏状態のインスタンス間で報酬スケールが異なる場合、それらを上回る性能を示す。
関連論文リスト
- Counterfactual Realizability [52.85109506684737]
本稿では, 正規化可能性の定義, 分布からサンプルを抽出する能力を導入し, 任意の反事実分布が実現可能であるかどうかを判定する完全アルゴリズムを開発する。
本稿では、因果的公正さと因果的強化学習のモチベーション例を用いて、この新たな反ファクト的データ収集フレームワークの意義を説明する。
論文 参考訳(メタデータ) (2025-03-14T20:54:27Z) - The Minimal Search Space for Conditional Causal Bandits [0.18124328823188351]
因果知識は意思決定問題を支援するのに使える。
本稿では、最適条件介入を含むことが保証される最小限のノードのグラフィカルな特徴について述べる。
次に、この最小のノード群を特定するために、O(|V| + |E|)$の時間複雑性を持つ効率的なアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-02-10T15:45:18Z) - Identifying General Mechanism Shifts in Linear Causal Representations [58.6238439611389]
我々は,未知の潜在因子の線形混合を観測する線形因果表現学習環境について考察する。
近年の研究では、潜伏要因の復元や、それに基づく構造因果モデルの構築が可能であることが示されている。
非常に穏やかな標準仮定の下では、シフトしたノードの集合を識別することが可能である。
論文 参考訳(メタデータ) (2024-10-31T15:56:50Z) - Best Arm Identification with Fixed Budget: A Large Deviation Perspective [54.305323903582845]
我々は、様々な武器の報酬間の経験的ギャップに基づいて、あらゆるラウンドで腕を拒絶できる真に適応的なアルゴリズムであるsredを提示する。
特に、様々な武器の報酬の間の経験的ギャップに基づいて、あらゆるラウンドで腕を拒絶できる真に適応的なアルゴリズムであるsredを提示する。
論文 参考訳(メタデータ) (2023-12-19T13:17:43Z) - Holistic Approach to Measure Sample-level Adversarial Vulnerability and
its Utility in Building Trustworthy Systems [17.707594255626216]
敵対的攻撃は、知覚不能な雑音を伴うイメージを摂動させ、誤ったモデル予測をもたらす。
本稿では,異なる視点を組み合わせることで,サンプルの敵対的脆弱性を定量化するための総合的アプローチを提案する。
サンプルレベルで確実に敵の脆弱性を推定することにより、信頼できるシステムを開発できることを実証する。
論文 参考訳(メタデータ) (2022-05-05T12:36:17Z) - From Optimality to Robustness: Dirichlet Sampling Strategies in
Stochastic Bandits [0.0]
本研究では、腕の観察を再サンプリングした経験的指標のペア比較に基づいて、ジェネリックディリクレサンプリング(DS)アルゴリズムについて検討する。
この戦略の異なる変種は、分布が有界であるときに証明可能な最適後悔保証と、半有界分布に対して軽度量子状態の対数後悔を実現することを示す。
論文 参考訳(メタデータ) (2021-11-18T14:34:21Z) - Efficient Inference Without Trading-off Regret in Bandits: An Allocation
Probability Test for Thompson Sampling [1.6114012813668934]
適応ランダム化実験を行うのにバンドアルゴリズムを用いると、後悔を最小限に抑えることができるが、統計的推測には大きな課題が生じる。
これらの課題に対処しようとする最近の試みは、典型的には、保証を保証するために、B bandit$-$trading off regret$-$-$ 大きなサンプルサイズを必要とする。
バンディットアルゴリズムの割り当て確率に一意的に基づく新しい仮説テストを導入し,その利用性を制限したり,最小限の実験サイズを必要としない。
我々は、我々のアプローチ、特に小さなサンプルにおいて、広範囲なシミュレーションと実際のメンタルヘルスに関する実験の両方において、後悔と推論の利点を実証する。
論文 参考訳(メタデータ) (2021-10-30T01:47:14Z) - Latent Bandits Revisited [55.88616813182679]
潜伏盗賊問題は、学習エージェントが未知の離散潜伏状態に条件付けられた腕の報酬分布を知知する問題である。
本稿では, 上位信頼境界(UCB)とトンプソンサンプリング(Thompson sample)の両方に基づいて, この設定のための一般的なアルゴリズムを提案する。
我々はアルゴリズムの統一的な理論的解析を行い、遅延状態の数がアクションよりも小さい場合、古典的なバンディットポリシーよりも後悔度が低い。
論文 参考訳(メタデータ) (2020-06-15T19:24:02Z) - Robustness Guarantees for Mode Estimation with an Application to Bandits [131.21717367564963]
平均ではなく報酬分布のモードを値とするマルチアームバンディットの理論を導入する。
我々は,我々のアルゴリズムが逆雑音列による腕の摂動に頑健であることを示すシミュレーションで示す。
論文 参考訳(メタデータ) (2020-03-05T21:29:27Z) - The Price of Incentivizing Exploration: A Characterization via Thompson
Sampling and Sample Complexity [83.81297078039836]
インセンティブ付き探索(Incentivized Exploring)は、武器の選択を自給自足エージェントによって制御するマルチアーム・バンディットのバージョンである。
我々は、インセンティブの価格に焦点を合わせ、インセンティブの適合性のために、広く解釈された、パフォーマンスの喪失が引き起こされる。
論文 参考訳(メタデータ) (2020-02-03T04:58:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。