論文の概要: Preference-centric Bandits: Optimality of Mixtures and Regret-efficient Algorithms
- arxiv url: http://arxiv.org/abs/2504.20877v2
- Date: Wed, 30 Apr 2025 13:59:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:54.971249
- Title: Preference-centric Bandits: Optimality of Mixtures and Regret-efficient Algorithms
- Title(参考訳): 優先中心帯域:混合と回帰効率アルゴリズムの最適性
- Authors: Meltem Tatlı, Arpan Mukherjee, Prashanth L. A., Karthikeyan Shanmugam, Ali Tajer,
- Abstract要約: 本稿では、予測に基づく評価から、選好基準(PM)と呼ばれる代替報酬の定式化へ移行するためのフレームワークを提案する。
PMは、異なる報酬の実現に望ましい重点を置くことができ、リスク回避、堅牢性、あるいは不確実性に対するその他の望ましい態度を含む、よりリッチな好みのモデリングを符号化することができる。
本稿ではPM中心のフレームワークを定式化し、2つのアルゴリズムクラスでミキシングを学習・追跡する。
- 参考スコア(独自算出の注目度): 34.876652087068734
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The objective of canonical multi-armed bandits is to identify and repeatedly select an arm with the largest reward, often in the form of the expected value of the arm's probability distribution. Such a utilitarian perspective and focus on the probability models' first moments, however, is agnostic to the distributions' tail behavior and their implications for variability and risks in decision-making. This paper introduces a principled framework for shifting from expectation-based evaluation to an alternative reward formulation, termed a preference metric (PM). The PMs can place the desired emphasis on different reward realization and can encode a richer modeling of preferences that incorporate risk aversion, robustness, or other desired attitudes toward uncertainty. A fundamentally distinct observation in such a PM-centric perspective is that designing bandit algorithms will have a significantly different principle: as opposed to the reward-based models in which the optimal sampling policy converges to repeatedly sampling from the single best arm, in the PM-centric framework the optimal policy converges to selecting a mix of arms based on specific mixing weights. Designing such mixture policies departs from the principles for designing bandit algorithms in significant ways, primarily because of uncountable mixture possibilities. The paper formalizes the PM-centric framework and presents two algorithm classes (horizon-dependent and anytime) that learn and track mixtures in a regret-efficient fashion. These algorithms have two distinctions from their canonical counterparts: (i) they involve an estimation routine to form reliable estimates of optimal mixtures, and (ii) they are equipped with tracking mechanisms to navigate arm selection fractions to track the optimal mixtures. These algorithms' regret guarantees are investigated under various algebraic forms of the PMs.
- Abstract(参考訳): 正統的な多腕包帯の目的は、しばしば腕の確率分布の期待値の形で、最大の報酬を持つ腕を識別し、繰り返し選択することである。
しかし、そのような実用的視点と確率モデルの第一の瞬間に焦点をあてることは、分布の尾の振舞いと、その変数性と意思決定におけるリスクへの影響に無関係である。
本稿では、予測に基づく評価から、選好基準(PM)と呼ばれる代替報酬の定式化に移行するための原則的枠組みを提案する。
PMは、異なる報酬の実現に望ましい重点を置くことができ、リスク回避、堅牢性、あるいは不確実性に対するその他の望ましい態度を含む、よりリッチな好みのモデリングを符号化することができる。
PM中心のフレームワークでは、最適サンプリングポリシーが単一ベストアームからの繰り返しサンプリングに収束する報酬ベースモデルとは対照的に、最適ポリシーは特定の混合重量に基づいてアームの混合を選択することに収束する。
このような混合ポリシーを設計することは、主に非可算混合可能性のために、バンドレートアルゴリズムを重要な方法で設計する原則から逸脱する。
本論文はPM中心のフレームワークを定式化し, 後悔効率のよい方法で混合物を学習・追跡する2つのアルゴリズムクラス(水平依存クラスと随時クラス)を提示する。
これらのアルゴリズムは、標準的なアルゴリズムとは2つの区別がある。
一 最適混合物の信頼性評価を成すための推定ルーチンを伴い、
(II)最適な混合を追跡するために、アーム選択分画をナビゲートするトラッキング機構を備えている。
これらのアルゴリズムの後悔の保証は、PMの様々な代数形式の下で研究される。
関連論文リスト
- Contextual Preference Collaborative Measure Framework Based on Belief System [15.67367955162946]
本稿では、更新された信条システムに基づく嗜好協調測度フレームワークを提案する。
また、選好測度アルゴリズムの精度と効率を向上させることができる。
論文 参考訳(メタデータ) (2025-03-31T17:17:45Z) - Risk-sensitive Bandits: Arm Mixture Optimality and Regret-efficient Algorithms [34.876652087068734]
本稿では,リスクに敏感なバンドイットに対する一般的な枠組みを紹介し,リスクに敏感な目標の概念を,ゆがみリスクメトリクスの豊富なクラスを採用することによって統合する。
重要かつ不明瞭な観察は、幅広いリスク測定において、最適な盗賊政策は武器の混合を選択することである。
論文 参考訳(メタデータ) (2025-03-11T21:18:54Z) - Semi-Parametric Batched Global Multi-Armed Bandits with Covariates [0.48342038441006807]
マルチアームバンディット(MAB)フレームワークは、シーケンシャルな意思決定に広く使われているアプローチである。
本稿では,コパラメトリックと腕間の共有パラメータを持つバッチバンドの半パラメトリックフレームワークを提案する。
Batched Single-Index Dynamic binning and Successive arm elimination (BIDS) というアルゴリズムでは、バッチ化された逐次アームの除去戦略を採用している。
論文 参考訳(メタデータ) (2025-03-01T17:23:55Z) - Provably Mitigating Overoptimization in RLHF: Your SFT Loss is Implicitly an Adversarial Regularizer [52.09480867526656]
人間の嗜好を学習する際の分布変化と不確実性の一形態として,不一致の原因を同定する。
過度な最適化を緩和するために、まず、逆選択された報酬モデルに最適なポリシーを選択する理論アルゴリズムを提案する。
報奨モデルとそれに対応する最適ポリシーの等価性を用いて、優先最適化損失と教師付き学習損失を組み合わせた単純な目的を特徴とする。
論文 参考訳(メタデータ) (2024-05-26T05:38:50Z) - Best Arm Identification with Fixed Budget: A Large Deviation Perspective [54.305323903582845]
我々は、様々な武器の報酬間の経験的ギャップに基づいて、あらゆるラウンドで腕を拒絶できる真に適応的なアルゴリズムであるsredを提示する。
特に、様々な武器の報酬の間の経験的ギャップに基づいて、あらゆるラウンドで腕を拒絶できる真に適応的なアルゴリズムであるsredを提示する。
論文 参考訳(メタデータ) (2023-12-19T13:17:43Z) - Likelihood Ratio Confidence Sets for Sequential Decision Making [51.66638486226482]
確率に基づく推論の原理を再検討し、確率比を用いて妥当な信頼シーケンスを構築することを提案する。
本手法は, 精度の高い問題に特に適している。
提案手法は,オンライン凸最適化への接続に光を当てることにより,推定器の最適シーケンスを確実に選択する方法を示す。
論文 参考訳(メタデータ) (2023-11-08T00:10:21Z) - Composed Image Retrieval with Text Feedback via Multi-grained
Uncertainty Regularization [73.04187954213471]
粗い検索ときめ細かい検索を同時にモデル化する統合学習手法を提案する。
提案手法は、強いベースラインに対して+4.03%、+3.38%、+2.40%のRecall@50精度を達成した。
論文 参考訳(メタデータ) (2022-11-14T14:25:40Z) - Collaborative Uncertainty Benefits Multi-Agent Multi-Modal Trajectory Forecasting [61.02295959343446]
この研究はまず、相互作用モジュールから生じる不確実性をモデル化する新しい概念であるコラボレーティブ不確実性(CU)を提案する。
我々は、回帰と不確実性推定の両方を行うために、元の置換同変不確かさ推定器を備えた一般的なCU対応回帰フレームワークを構築した。
提案するフレームワークを,プラグインモジュールとして現在のSOTAマルチエージェント軌道予測システムに適用する。
論文 参考訳(メタデータ) (2022-07-11T21:17:41Z) - Statistically Robust, Risk-Averse Best Arm Identification in Multi-Armed
Bandits [4.760079434948198]
このようなパラメトリック情報を利用する特殊なアルゴリズムは、パラメータが誤って特定された場合、不整合学習性能が高いことを示す。
主な貢献は, (i) 固定予算純探索条件下で統計的に堅牢なMABアルゴリズムの基本的な性能限界を確立すること, (ii) 二つの近似アルゴリズムのクラスを提案することである。
論文 参考訳(メタデータ) (2020-08-28T13:43:12Z) - Providing reliability in Recommender Systems through Bernoulli Matrix
Factorization [63.732639864601914]
本稿では,予測値と信頼性値の両方を提供するためにBernoulli Matrix Factorization (BeMF)を提案する。
BeMFはメモリベースのフィルタリングではなく、モデルベースの協調フィルタリングに作用する。
予測の信頼性が高ければ高いほど、それが間違っているという責任は少なくなる。
論文 参考訳(メタデータ) (2020-06-05T14:24:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。