論文の概要: When are Bandits Robust to Misspecification?
- arxiv url: http://arxiv.org/abs/2310.09358v1
- Date: Fri, 13 Oct 2023 18:53:30 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-17 22:24:47.639704
- Title: When are Bandits Robust to Misspecification?
- Title(参考訳): Banditsはいつミス種別にロバストなのか?
- Authors: Debangshu Banerjee and Aditya Gopalan
- Abstract要約: 私たちは、真の報酬が(潜在的にかなり)モデルクラスに関して誤って特定される状況に興味を持っています。
パラメータ化された帯域幅と文脈的帯域幅について、問題インスタンスとモデルクラスに依存して十分な条件を同定する。
これは、時間とともに直線的にスケールする後悔境界を示す不特定な包帯に対する既存の最悪の結果とは対照的である。
- 参考スコア(独自算出の注目度): 16.777565006843012
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Parametric feature-based reward models are widely employed by algorithms for
decision making settings such as bandits and contextual bandits. The typical
assumption under which they are analysed is realizability, i.e., that the true
rewards of actions are perfectly explained by some parametric model in the
class. We are, however, interested in the situation where the true rewards are
(potentially significantly) misspecified with respect to the model class. For
parameterized bandits and contextual bandits, we identify sufficient
conditions, depending on the problem instance and model class, under which
classic algorithms such as $\epsilon$-greedy and LinUCB enjoy sublinear (in the
time horizon) regret guarantees under even grossly misspecified rewards. This
is in contrast to existing worst-case results for misspecified bandits which
show regret bounds that scale linearly with time, and shows that there can be a
nontrivially large set of bandit instances that are robust to misspecification.
- Abstract(参考訳): パラメトリック特徴に基づく報酬モデルは、バンディットやコンテキストバンディットなどの意思決定設定にアルゴリズムによって広く使われている。
それらが分析される典型的な仮定は実現可能性であり、すなわち、アクションの真の報酬はクラス内のパラメトリックモデルによって完全に説明される。
しかし、真の報酬がモデルクラスに関して(潜在的に重要な)不特定化されている状況に興味があります。
パラメータ化されたバンディットや文脈のバンディットについては、問題インスタンスやモデルクラスに応じて十分な条件を特定し、そこでは$\epsilon$-greedy や linucb のような古典的なアルゴリズムは、非常に不特定の報酬の下での後悔の保証を(時間軸において)享受する。
これは、時とともに線形にスケールする後悔の境界を示す不特定のバンディットに対する既存の最悪の結果とは対照的であり、誤った特定にロバストなバンディットインスタンスの非自明で大きな集合が存在することを示している。
関連論文リスト
- Cycles of Thought: Measuring LLM Confidence through Stable Explanations [53.15438489398938]
大規模言語モデル(LLM)は、様々なベンチマークで人間レベルの精度に到達し、さらに超えることができるが、不正確な応答における過度な自信は、依然として十分に文書化された障害モードである。
本稿では,LLMの不確実性を測定するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-05T16:35:30Z) - Likelihood Ratio Confidence Sets for Sequential Decision Making [51.66638486226482]
確率に基づく推論の原理を再検討し、確率比を用いて妥当な信頼シーケンスを構築することを提案する。
本手法は, 精度の高い問題に特に適している。
提案手法は,オンライン凸最適化への接続に光を当てることにより,推定器の最適シーケンスを確実に選択する方法を示す。
論文 参考訳(メタデータ) (2023-11-08T00:10:21Z) - Online Clustering of Bandits with Misspecified User Models [42.56440072468658]
コンテキスト線形バンディット(Contextual linear bandit)は、与えられた腕の特徴を学習エージェントが各ラウンドで選択し、長期の累積報酬を最大化するオンライン学習問題である。
バンディットのクラスタリング(CB)と呼ばれる一連の研究は、ユーザの好みに対する協調効果を利用しており、古典的な線形バンディットアルゴリズムよりも大幅に改善されている。
本稿では,不特定ユーザモデル (CBMUM) による盗賊のクラスタリングに関する重要な問題を初めて提示する。
モデル誤特定による不正確なユーザの選好推定と誤クラスタリングを両立できる頑健なCBアルゴリズムRCLUMBとRCLUMBを考案した。
論文 参考訳(メタデータ) (2023-10-04T10:40:50Z) - Oracle Inequalities for Model Selection in Offline Reinforcement
Learning [105.74139523696284]
本稿では,値関数近似を用いたオフラインRLにおけるモデル選択の問題について検討する。
対数係数まで最小値の速度-最適不等式を実現するオフラインRLの最初のモデル選択アルゴリズムを提案する。
そこで本研究では,優れたモデルクラスを確実に選択できることを示す数値シミュレーションを行った。
論文 参考訳(メタデータ) (2022-11-03T17:32:34Z) - Sample Complexity of Robust Reinforcement Learning with a Generative
Model [0.0]
本稿では,モデルに基づく強化学習(RL)アルゴリズムを提案する。
我々は,全変動距離,カイ二乗発散,KL発散の3種類の不確実性集合を考察した。
この結果に加えて,ロバストポリシの利点に関する公式な分析的議論も提示する。
論文 参考訳(メタデータ) (2021-12-02T18:55:51Z) - Adversarial Robustness Verification and Attack Synthesis in Stochastic
Systems [8.833548357664606]
我々は、離散時間マルコフ連鎖(DTMC)として定義されるシステムにおける対向的堅牢性のための公式な枠組みを開発する。
我々は、元の遷移確率の周囲に$varepsilon$ボールで制約された、敵がシステム遷移を摂動できる脅威モデルのクラスを概説する。
論文 参考訳(メタデータ) (2021-10-05T15:52:47Z) - Model Selection for Generic Contextual Bandits [20.207989166682832]
適応文脈帯域(tt Family ACB)と呼ばれる改良型アルゴリズムを提案する。
我々は、このアルゴリズムが適応的であること、すなわち、リットレートが任意の証明可能な文脈帯域幅アルゴリズムと整合していることを証明する。
また,真のモデルクラスを知らないにもかかわらず,ETCスタイルのアルゴリズムでも同様の後悔境界が得られることを示す。
論文 参考訳(メタデータ) (2021-07-07T19:35:31Z) - Instance-optimality in optimal value estimation: Adaptivity via
variance-reduced Q-learning [99.34907092347733]
本稿では,マルコフ決定過程における最適な$Q$値関数を離散状態と動作で推定する問題を解析する。
局所的なミニマックスフレームワークを用いて、この関数は任意の推定手順の精度の低い境界に現れることを示す。
他方,Q$ラーニングの分散還元版を解析することにより,状態と行動空間の対数的要因まで,下位境界のシャープさを確立する。
論文 参考訳(メタデータ) (2021-06-28T00:38:54Z) - Towards Costless Model Selection in Contextual Bandits: A Bias-Variance
Perspective [7.318831153179727]
文脈的包帯設定における累積的後悔最小化のための同様の保証の実現可能性について検討した。
提案アルゴリズムは, 新たな不特定性テストに基づいており, モデル選択による報酬推定の利点を実証する。
論文 参考訳(メタデータ) (2021-06-11T16:08:03Z) - Characterizing Fairness Over the Set of Good Models Under Selective
Labels [69.64662540443162]
同様の性能を実現するモデルセットに対して,予測公正性を特徴付けるフレームワークを開発する。
到達可能なグループレベルの予測格差の範囲を計算するためのトラクタブルアルゴリズムを提供します。
選択ラベル付きデータの実証的な課題に対処するために、我々のフレームワークを拡張します。
論文 参考訳(メタデータ) (2021-01-02T02:11:37Z) - Offline Contextual Bandits with Overparameterized Models [52.788628474552276]
オフラインの文脈的盗賊にも同じ現象が起こるかどうかを問う。
この相違は, 目的の強調安定性によるものであることを示す。
大規模なニューラルネットワークを用いた実験では、アクション安定な値ベース目標と不安定なポリシベース目標とのギャップは、大きなパフォーマンス差をもたらす。
論文 参考訳(メタデータ) (2020-06-27T13:52:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。