論文の概要: Regret Bounds for Robust Online Decision Making
- arxiv url: http://arxiv.org/abs/2504.06820v1
- Date: Wed, 09 Apr 2025 12:25:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-10 13:05:42.657684
- Title: Regret Bounds for Robust Online Decision Making
- Title(参考訳): オンライン意思決定のロバスト化のためのレグレト境界
- Authors: Alexander Appel, Vanessa Kosoy,
- Abstract要約: 構造化された観察による意思決定」を一般化する枠組みを提案する。
この枠組みでは、各モデルは各決定を結果に対する確率分布の凸集合と関連付ける。
次に、この枠組みに対する後悔の束縛の理論を導出します。
- 参考スコア(独自算出の注目度): 49.1574468325115
- License:
- Abstract: We propose a framework which generalizes "decision making with structured observations" by allowing robust (i.e. multivalued) models. In this framework, each model associates each decision with a convex set of probability distributions over outcomes. Nature can choose distributions out of this set in an arbitrary (adversarial) manner, that can be nonoblivious and depend on past history. The resulting framework offers much greater generality than classical bandits and reinforcement learning, since the realizability assumption becomes much weaker and more realistic. We then derive a theory of regret bounds for this framework. Although our lower and upper bounds are not tight, they are sufficient to fully characterize power-law learnability. We demonstrate this theory in two special cases: robust linear bandits and tabular robust online reinforcement learning. In both cases, we derive regret bounds that improve state-of-the-art (except that we do not address computational efficiency).
- Abstract(参考訳): 本稿では、ロバストな(すなわち、多値な)モデルを可能にすることにより、「構造化された観察による意思決定」を一般化するフレームワークを提案する。
この枠組みでは、各モデルは各決定を結果に対する確率分布の凸集合と関連付ける。
自然は、この集合から任意の(逆)方法で分布を選択できる。
結果として得られる枠組みは、実現可能性の仮定がより弱く現実的になるため、古典的な包帯や強化学習よりもはるかに一般的なものである。
次に、この枠組みに対する後悔の束縛の理論を導出します。
我々の下限と上限は厳密ではないが、パワー・ローの学習性を完全に特徴づけるには十分である。
我々はこの理論を2つの特別なケースで実証する: 頑健な線形包帯と表型頑健なオンライン強化学習。
どちらの場合も、(計算効率に対処しない以外は)最先端を改善する後悔境界を導出します。
関連論文リスト
- Gentle Local Robustness implies Generalization [1.2630732866686982]
モデルに依存し、既存のロバスト性に基づくものよりも確実に厳密な、新しい境界のクラスを提示する。
以前のものとは異なり、我々の境界はサンプルの数が増えるにつれて最良の分類器の真の誤差に収束することが保証される。
我々はさらに広範な実験を行い、ImageNetから事前訓練された大規模なディープニューラルネットワークでは、2つの境界がしばしば空白でないことを発見した。
論文 参考訳(メタデータ) (2024-12-09T10:59:39Z) - Causal Bandits: The Pareto Optimal Frontier of Adaptivity, a Reduction to Linear Bandits, and Limitations around Unknown Marginals [28.94461817548213]
条件付き良性環境と任意の環境下での学習性能におけるトレードオフの可能性について,上界と下界の整合性を証明した。
この問題を線形バンディット設定に還元することで、最初に因果バンディットのインスタンス依存境界を求める。
論文 参考訳(メタデータ) (2024-07-01T04:12:15Z) - Tight Guarantees for Interactive Decision Making with the
Decision-Estimation Coefficient [51.37720227675476]
我々は、決定推定係数の新たな変種を導入し、それを用いて、3つの面における事前の作業を改善する新しい下界を導出する。
我々は同じ量でスケールした後悔について上界を与え、フォスター等における上界と下界の間のギャップの1つを除いて全てを閉じる。
この結果は、後悔のフレームワークとPACフレームワークの両方に適用され、我々が期待するいくつかの新しい分析とアルゴリズム設計技術を利用して、より広範な利用が期待できる。
論文 参考訳(メタデータ) (2023-01-19T18:24:08Z) - Robustness Implies Generalization via Data-Dependent Generalization
Bounds [24.413499775513145]
本稿では、ロバスト性はデータ依存の一般化境界による一般化を意味することを示す。
本稿では,LassoとDeep Learningのいくつかの例を紹介する。
論文 参考訳(メタデータ) (2022-06-27T17:58:06Z) - On Kernelized Multi-Armed Bandits with Constraints [16.102401271318012]
一般に未知の報酬関数と一般未知の制約関数を併用した帯域幅問題について検討する。
本稿では,アルゴリズムの性能解析のための一般的なフレームワークを提案する。
本稿では,数値実験により提案アルゴリズムの優れた性能を示す。
論文 参考訳(メタデータ) (2022-03-29T14:02:03Z) - Adversarial Robustness with Semi-Infinite Constrained Learning [177.42714838799924]
入力に対する深い学習は、安全クリティカルなドメインでの使用に関して深刻な疑問を提起している。
本稿では,この問題を緩和するために,Langevin Monte Carlo のハイブリッドトレーニング手法を提案する。
当社のアプローチは、最先端のパフォーマンスと堅牢性の間のトレードオフを軽減することができることを示す。
論文 参考訳(メタデータ) (2021-10-29T13:30:42Z) - Provable Model-based Nonlinear Bandit and Reinforcement Learning: Shelve
Optimism, Embrace Virtual Curvature [61.22680308681648]
決定論的報酬を有する1層ニューラルネットバンディットにおいても,グローバル収束は統計的に難解であることを示す。
非線形バンディットとRLの両方に対して,オンラインモデル学習者による仮想アセンジ(Virtual Ascent with Online Model Learner)というモデルベースアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-02-08T12:41:56Z) - Online and Distribution-Free Robustness: Regression and Contextual
Bandits with Huber Contamination [29.85468294601847]
線形回帰と文脈的帯域幅という2つの古典的高次元オンライン学習問題を再考する。
従来の手法が失敗した場合にアルゴリズムが成功することを示す。
論文 参考訳(メタデータ) (2020-10-08T17:59:05Z) - Latent Bandits Revisited [55.88616813182679]
潜伏盗賊問題は、学習エージェントが未知の離散潜伏状態に条件付けられた腕の報酬分布を知知する問題である。
本稿では, 上位信頼境界(UCB)とトンプソンサンプリング(Thompson sample)の両方に基づいて, この設定のための一般的なアルゴリズムを提案する。
我々はアルゴリズムの統一的な理論的解析を行い、遅延状態の数がアクションよりも小さい場合、古典的なバンディットポリシーよりも後悔度が低い。
論文 参考訳(メタデータ) (2020-06-15T19:24:02Z) - A Novel Confidence-Based Algorithm for Structured Bandits [129.30402124516507]
両腕の報酬が他の腕の報酬と相関する可能性のある有限腕包帯について検討した。
本稿では、与えられた構造を利用して、真のバンディット問題のパラメータに対する信頼セットを構築する新しい位相アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-05-23T19:52:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。