論文の概要: Randomized Confidence Bounds for Stochastic Partial Monitoring
- arxiv url: http://arxiv.org/abs/2402.05002v1
- Date: Wed, 7 Feb 2024 16:18:59 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-08 14:25:45.259528
- Title: Randomized Confidence Bounds for Stochastic Partial Monitoring
- Title(参考訳): 確率的部分監視のためのランダム信頼境界
- Authors: Maxime Heuillet, Ola Ahmad, Audrey Durand
- Abstract要約: 部分的モニタリング(PM)は、不完全なフィードバックを伴う逐次学習問題の理論的定式化を提供する。
文脈的PMでは、結果は各ラウンドでアクションを選択する前にエージェントによって観測可能な何らかの側情報に依存する。
我々は,決定論的信頼境界のランダム化に基づく新たな戦略のクラスを導入し,既存の戦略が適用できないような設定に後悔の保証を延長する。
- 参考スコア(独自算出の注目度): 9.448763530449176
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The partial monitoring (PM) framework provides a theoretical formulation of
sequential learning problems with incomplete feedback. On each round, a
learning agent plays an action while the environment simultaneously chooses an
outcome. The agent then observes a feedback signal that is only partially
informative about the (unobserved) outcome. The agent leverages the received
feedback signals to select actions that minimize the (unobserved) cumulative
loss. In contextual PM, the outcomes depend on some side information that is
observable by the agent before selecting the action on each round. In this
paper, we consider the contextual and non-contextual PM settings with
stochastic outcomes. We introduce a new class of strategies based on the
randomization of deterministic confidence bounds, that extend regret guarantees
to settings where existing stochastic strategies are not applicable. Our
experiments show that the proposed RandCBP and RandCBPside* strategies improve
state-of-the-art baselines in PM games. To encourage the adoption of the PM
framework, we design a use case on the real-world problem of monitoring the
error rate of any deployed classification system.
- Abstract(参考訳): 部分的監視(PM)フレームワークは、不完全なフィードバックを伴う逐次学習問題の理論的定式化を提供する。
各ラウンドでは、学習エージェントがアクションを行い、環境が同時に結果を選択する。
エージェントは、(監視されていない)結果について部分的にのみ情報となるフィードバック信号を観測する。
エージェントは受信したフィードバック信号を利用して(観測されていない)累積損失を最小限に抑えるアクションを選択する。
文脈的PMでは、結果は各ラウンドでアクションを選択する前にエージェントによって観測可能な何らかの側情報に依存する。
本稿では,確率的結果を伴う文脈的および非文脈的PM設定について考察する。
我々は,既存の確率的戦略が適用されない設定に対して,後悔の保証を拡張する決定論的信頼境界のランダム化に基づく新たな戦略を導入する。
実験の結果,提案したRandCBPおよびRandCBPside*戦略はPMゲームにおける最先端のベースラインを改善することがわかった。
PMフレームワークの採用を促進するため,デプロイされた分類システムのエラー率を監視する実世界の問題に対するユースケースを設計する。
関連論文リスト
- Token-Level Adversarial Prompt Detection Based on Perplexity Measures
and Contextual Information [67.78183175605761]
大規模言語モデルは、敵の迅速な攻撃に影響を受けやすい。
この脆弱性は、LLMの堅牢性と信頼性に関する重要な懸念を浮き彫りにしている。
トークンレベルで敵のプロンプトを検出するための新しい手法を提案する。
論文 参考訳(メタデータ) (2023-11-20T03:17:21Z) - Pure Exploration under Mediators' Feedback [63.56002444692792]
マルチアームバンディット(Multi-armed bandits)は、各インタラクションステップにおいて、学習者が腕を選択し、報酬を観察する、シーケンシャルな意思決定フレームワークである。
本稿では,学習者が仲介者の集合にアクセスできるシナリオについて考察する。
本稿では,学習者には仲介者の方針が知られていると仮定して,最適な腕を発見するための逐次的意思決定戦略を提案する。
論文 参考訳(メタデータ) (2023-08-29T18:18:21Z) - Piecewise-Stationary Combinatorial Semi-Bandit with Causally Related
Rewards [5.347237827669861]
本稿では,因果関係の報酬を用いた定常半帯域問題について検討する。
非定常環境では、ベースアームの分布の変化、報酬間の因果関係、またはその両方が報酬生成プロセスを変化させる。
この問題は半帯域設定で増加し、意思決定者は選択したアームの束の結果のみを観察する。
論文 参考訳(メタデータ) (2023-07-26T12:06:13Z) - Federated Learning for Heterogeneous Bandits with Unobserved Contexts [0.0]
我々は、未知のコンテキストを持つ多腕コンテキスト包帯のフェデレーション問題について検討する。
線形パラメタライズされた報酬関数に対して,除去に基づくアルゴリズムを提案し,後悔の束縛を証明した。
論文 参考訳(メタデータ) (2023-03-29T22:06:24Z) - Proximal Reinforcement Learning: Efficient Off-Policy Evaluation in
Partially Observed Markov Decision Processes [65.91730154730905]
医療や教育などの観察データへのオフライン強化学習の適用においては、観察された行動は観測されていない要因に影響される可能性があるという一般的な懸念がある。
ここでは、部分的に観察されたマルコフ決定過程(POMDP)における非政治評価を考慮し、この問題に取り組む。
我々は、近位因果推論の枠組みをPOMDP設定に拡張し、識別が可能となる様々な設定を提供する。
論文 参考訳(メタデータ) (2021-10-28T17:46:14Z) - Rule-based Shielding for Partially Observable Monte-Carlo Planning [78.05638156687343]
一部観測可能なモンテカルロ計画(POMCP)への2つの貢献を提案する。
1つ目は、POMCPが選択した予期しない行動を、タスクのエキスパートの事前知識に関して識別する方法です。
2つ目は、POMCPが予期せぬ動作を選択するのを防ぐ遮蔽アプローチである。
我々は,pomdpsの標準ベンチマークであるtigerに対するアプローチと,移動ロボットナビゲーションにおける速度規制に関する実世界問題を評価する。
論文 参考訳(メタデータ) (2021-04-28T14:23:38Z) - Universal Off-Policy Evaluation [64.02853483874334]
ユニバーサルオフ政治推定器(UnO)への第一歩を踏み出す
我々は, 平均, 分散, 分位数/中間数, 分位数範囲, cvar, および累積分布全体の推定と同時結合に uno を用いる。
論文 参考訳(メタデータ) (2021-04-26T18:54:31Z) - Continuous Mean-Covariance Bandits [39.820490484375156]
本稿では,選択肢相関を考慮した連続平均共分散帯域モデルを提案する。
CMCBでは、与えられた選択肢の重みベクトルを逐次選択し、決定に従ってランダムなフィードバックを観察する学習者がいる。
最適な後悔(対数的因子を含む)を伴う新しいアルゴリズムを提案し、それらの最適性を検証するために一致した下界を提供する。
論文 参考訳(メタデータ) (2021-02-24T06:37:05Z) - Catch Me if I Can: Detecting Strategic Behaviour in Peer Assessment [61.24399136715106]
我々は、試験やホームワークの査定や採用・昇進の査定など、様々な査定課題における戦略的行動の課題について考察する。
我々はこのような操作を検出する方法の設計に重点を置いている。
具体的には、エージェントがピアのサブセットを評価し、後に集約されたランキングを最終的な順序付けとして出力する設定について検討する。
論文 参考訳(メタデータ) (2020-10-08T15:08:40Z) - Active recursive Bayesian inference using R\'enyi information measures [11.1748531496641]
本稿では,統合された推論とクエリ選択ステップを備えたベイズ推論フレームワークを提案する。
提案手法が相互情報などの従来の手法より優れていることを示す。
本稿では,レストランレコメンデーションとブレイン・コンピュータ・インタフェース(BCI)タイピングシステムの2つの応用に関する実証的および実験的性能評価を行う。
論文 参考訳(メタデータ) (2020-04-07T05:52:58Z) - Reinforcement Learning of Risk-Constrained Policies in Markov Decision
Processes [5.081241420920605]
マルコフ決定プロセス(MDPs)は、確率的不確実性の存在下でのシーケンシャルな意思決定のためのデファクト・フレームワークである。
破滅的な結果が再帰する障害状態と相まって, 対価を割引したMDPについて検討する。
我々の主な貢献は、UDTのような探索とMDPとの学習的相互作用を組み合わせた効率的なリスク制約型プランニングアルゴリズムである。
論文 参考訳(メタデータ) (2020-02-27T13:36:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。