Fugu-MT 論文翻訳(概要): Randomized Confidence Bounds for Stochastic Partial Monitoring

論文の概要: Randomized Confidence Bounds for Stochastic Partial Monitoring

arxiv url: http://arxiv.org/abs/2402.05002v1
Date: Wed, 7 Feb 2024 16:18:59 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-08 14:25:45.259528
Title: Randomized Confidence Bounds for Stochastic Partial Monitoring
Title（参考訳）: 確率的部分監視のためのランダム信頼境界
Authors: Maxime Heuillet, Ola Ahmad, Audrey Durand
Abstract要約: 部分的モニタリング(PM)は、不完全なフィードバックを伴う逐次学習問題の理論的定式化を提供する。文脈的PMでは、結果は各ラウンドでアクションを選択する前にエージェントによって観測可能な何らかの側情報に依存する。我々は,決定論的信頼境界のランダム化に基づく新たな戦略のクラスを導入し,既存の戦略が適用できないような設定に後悔の保証を延長する。
参考スコア（独自算出の注目度）: 9.448763530449176
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The partial monitoring (PM) framework provides a theoretical formulation of sequential learning problems with incomplete feedback. On each round, a learning agent plays an action while the environment simultaneously chooses an outcome. The agent then observes a feedback signal that is only partially informative about the (unobserved) outcome. The agent leverages the received feedback signals to select actions that minimize the (unobserved) cumulative loss. In contextual PM, the outcomes depend on some side information that is observable by the agent before selecting the action on each round. In this paper, we consider the contextual and non-contextual PM settings with stochastic outcomes. We introduce a new class of strategies based on the randomization of deterministic confidence bounds, that extend regret guarantees to settings where existing stochastic strategies are not applicable. Our experiments show that the proposed RandCBP and RandCBPside* strategies improve state-of-the-art baselines in PM games. To encourage the adoption of the PM framework, we design a use case on the real-world problem of monitoring the error rate of any deployed classification system.
Abstract（参考訳）: 部分的監視(PM)フレームワークは、不完全なフィードバックを伴う逐次学習問題の理論的定式化を提供する。各ラウンドでは、学習エージェントがアクションを行い、環境が同時に結果を選択する。エージェントは、(監視されていない)結果について部分的にのみ情報となるフィードバック信号を観測する。エージェントは受信したフィードバック信号を利用して(観測されていない)累積損失を最小限に抑えるアクションを選択する。文脈的PMでは、結果は各ラウンドでアクションを選択する前にエージェントによって観測可能な何らかの側情報に依存する。本稿では,確率的結果を伴う文脈的および非文脈的PM設定について考察する。我々は,既存の確率的戦略が適用されない設定に対して,後悔の保証を拡張する決定論的信頼境界のランダム化に基づく新たな戦略を導入する。実験の結果,提案したRandCBPおよびRandCBPside*戦略はPMゲームにおける最先端のベースラインを改善することがわかった。 PMフレームワークの採用を促進するため,デプロイされた分類システムのエラー率を監視する実世界の問題に対するユースケースを設計する。

関連論文リスト

A Principled Approach to Randomized Selection under Uncertainty: Applications to Peer Review and Grant Funding [68.43987626137512]
本稿では,各項目の品質の間隔推定に基づくランダム化意思決定の枠組みを提案する。最適化に基づく最適化手法であるMERITを導入する。 MERITが既存のアプローチで保証されていない望ましい公理特性を満たすことを証明している。
論文参考訳（メタデータ） (2025-06-23T19:59:30Z)
Off-Policy Evaluation for Sequential Persuasion Process with Unobserved Confounding [2.7282382992043885]
現実のシナリオは、しばしば受信者の信念の形成と意思決定に影響を与える隠された変数を含む。我々はこれをシーケンシャルな意思決定問題として概念化し、送信側と受信側が複数のラウンドで対話する。このシナリオを部分観測可能なマルコフ決定プロセス (POMDP) として再構成することにより、受信者の信念と観測不能な共同創設者の両方のダイナミクスに関する不完全な情報をキャプチャする。
論文参考訳（メタデータ） (2025-04-01T21:50:32Z)
Criticality and Safety Margins for Reinforcement Learning [53.10194953873209]
我々は,定量化基盤真理とユーザにとっての明確な意義の両面から,批判的枠組みを定めようとしている。エージェントがn連続的ランダム動作に対するポリシーから逸脱した場合の報酬の減少として真臨界を導入する。我々はまた、真の臨界と統計的に単調な関係を持つ低オーバーヘッド計量であるプロキシ臨界の概念も導入する。
論文参考訳（メタデータ） (2024-09-26T21:00:45Z)
Estimating Treatment Effects under Recommender Interference: A Structured Neural Networks Approach [13.208141830901845]
標準差分推定器は、推奨者干渉による偏差推定を導出できることを示す。本稿では,処理項目と制御項目の両方を含むプールからどのアイテムが露出するかを記述した「レコメンダ選択モデル」を提案する。提案した推定器はベンチマークに匹敵する結果が得られるのに対し,標準差分推定器は有意なバイアスを示し,また逆の兆候も生み出すことを示す。
論文参考訳（メタデータ） (2024-06-20T14:53:26Z)
Pure Exploration under Mediators' Feedback [63.56002444692792]
マルチアームバンディット(Multi-armed bandits)は、各インタラクションステップにおいて、学習者が腕を選択し、報酬を観察する、シーケンシャルな意思決定フレームワークである。本稿では,学習者が仲介者の集合にアクセスできるシナリオについて考察する。本稿では,学習者には仲介者の方針が知られていると仮定して,最適な腕を発見するための逐次的意思決定戦略を提案する。
論文参考訳（メタデータ） (2023-08-29T18:18:21Z)
Piecewise-Stationary Combinatorial Semi-Bandit with Causally Related Rewards [5.347237827669861]
本稿では,因果関係の報酬を用いた定常半帯域問題について検討する。非定常環境では、ベースアームの分布の変化、報酬間の因果関係、またはその両方が報酬生成プロセスを変化させる。この問題は半帯域設定で増加し、意思決定者は選択したアームの束の結果のみを観察する。
論文参考訳（メタデータ） (2023-07-26T12:06:13Z)
Federated Learning for Heterogeneous Bandits with Unobserved Contexts [0.0]
我々は、未知のコンテキストを持つ多腕コンテキスト包帯のフェデレーション問題について検討する。線形パラメタライズされた報酬関数に対して,除去に基づくアルゴリズムを提案し,後悔の束縛を証明した。
論文参考訳（メタデータ） (2023-03-29T22:06:24Z)
Rule-based Shielding for Partially Observable Monte-Carlo Planning [78.05638156687343]
一部観測可能なモンテカルロ計画(POMCP)への2つの貢献を提案する。 1つ目は、POMCPが選択した予期しない行動を、タスクのエキスパートの事前知識に関して識別する方法です。 2つ目は、POMCPが予期せぬ動作を選択するのを防ぐ遮蔽アプローチである。我々は,pomdpsの標準ベンチマークであるtigerに対するアプローチと,移動ロボットナビゲーションにおける速度規制に関する実世界問題を評価する。
論文参考訳（メタデータ） (2021-04-28T14:23:38Z)
Universal Off-Policy Evaluation [64.02853483874334]
ユニバーサルオフ政治推定器(UnO)への第一歩を踏み出す我々は, 平均, 分散, 分位数/中間数, 分位数範囲, cvar, および累積分布全体の推定と同時結合に uno を用いる。
論文参考訳（メタデータ） (2021-04-26T18:54:31Z)
Continuous Mean-Covariance Bandits [39.820490484375156]
本稿では,選択肢相関を考慮した連続平均共分散帯域モデルを提案する。 CMCBでは、与えられた選択肢の重みベクトルを逐次選択し、決定に従ってランダムなフィードバックを観察する学習者がいる。最適な後悔(対数的因子を含む)を伴う新しいアルゴリズムを提案し、それらの最適性を検証するために一致した下界を提供する。
論文参考訳（メタデータ） (2021-02-24T06:37:05Z)
Confidence-Budget Matching for Sequential Budgeted Learning [69.77435313099366]
問合せ予算で意思決定問題を定式化する。我々は,多腕バンディット,線形バンディット,強化学習問題を考察する。我々は,CBMに基づくアルゴリズムが逆性の存在下で良好に動作することを示す。
論文参考訳（メタデータ） (2021-02-05T19:56:31Z)
Learning from eXtreme Bandit Feedback [105.0383130431503]
非常に大きな行動空間の設定における帯域幅フィードバックからのバッチ学習の問題について検討する。本稿では,より有利なバイアス分散状態で動作する選択的重要度サンプリング推定器(sIS)を提案する。我々は,この推定器を,XMCタスクの帯域幅フィードバックから学習するために,新しいアルゴリズム手法であるポリシ・オプティマイズ・フォー・エクストリーム・モデル (POXM) に採用する。
論文参考訳（メタデータ） (2020-09-27T20:47:25Z)
Reinforcement Learning of Risk-Constrained Policies in Markov Decision Processes [5.081241420920605]
マルコフ決定プロセス(MDPs)は、確率的不確実性の存在下でのシーケンシャルな意思決定のためのデファクト・フレームワークである。破滅的な結果が再帰する障害状態と相まって, 対価を割引したMDPについて検討する。我々の主な貢献は、UDTのような探索とMDPとの学習的相互作用を組み合わせた効率的なリスク制約型プランニングアルゴリズムである。
論文参考訳（メタデータ） (2020-02-27T13:36:36Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。