Fugu-MT 論文翻訳(概要): Decision-Focused Evaluation: Analyzing Performance of Deployed Restless Multi-Arm Bandits

論文の概要: Decision-Focused Evaluation: Analyzing Performance of Deployed Restless Multi-Arm Bandits

arxiv url: http://arxiv.org/abs/2301.07835v1
Date: Thu, 19 Jan 2023 01:04:55 GMT
ステータス: 翻訳完了
システム内更新日: 2023-01-20 15:52:13.933486
Title: Decision-Focused Evaluation: Analyzing Performance of Deployed Restless Multi-Arm Bandits
Title（参考訳）: 決定に焦点をあてた評価:展開レスマルチアームバンドの性能解析
Authors: Paritosh Verma, Shresth Verma, Aditya Mate, Aparna Taneja, Milind Tambe
Abstract要約: Restless Multi-arm bandits (RMAB) は、現実世界のシーケンシャルな意思決定問題をモデル化するための一般的な決定理論フレームワークである。この研究は、公共衛生領域におけるRMABシステムの第一種デプロイの結果を提供し、分析する。
参考スコア（独自算出の注目度）: 28.337155169135944
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Restless multi-arm bandits (RMABs) is a popular decision-theoretic framework that has been used to model real-world sequential decision making problems in public health, wildlife conservation, communication systems, and beyond. Deployed RMAB systems typically operate in two stages: the first predicts the unknown parameters defining the RMAB instance, and the second employs an optimization algorithm to solve the constructed RMAB instance. In this work we provide and analyze the results from a first-of-its-kind deployment of an RMAB system in public health domain, aimed at improving maternal and child health. Our analysis is focused towards understanding the relationship between prediction accuracy and overall performance of deployed RMAB systems. This is crucial for determining the value of investing in improving predictive accuracy towards improving the final system performance, and is useful for diagnosing, monitoring deployed RMAB systems. Using real-world data from our deployed RMAB system, we demonstrate that an improvement in overall prediction accuracy may even be accompanied by a degradation in the performance of RMAB system -- a broad investment of resources to improve overall prediction accuracy may not yield expected results. Following this, we develop decision-focused evaluation metrics to evaluate the predictive component and show that it is better at explaining (both empirically and theoretically) the overall performance of a deployed RMAB system.
Abstract（参考訳）: レストレス・マルチアーム・バンディット(RMAB)は、公衆衛生、野生生物保護、通信システムなどにおける現実のシーケンシャルな意思決定問題をモデル化するための一般的な意思決定理論フレームワークである。 1つは未知のパラメータを予測し、もう1つは RMAB インスタンスを定義する最適化アルゴリズムを用いて構築された RMAB インスタンスを解く。本研究は,母子保健を改善することを目的とした,公衆衛生領域におけるrmabシステムの初歩的な展開の結果を提示し,分析する。本分析は, RMABシステムにおける予測精度と全体的な性能の関係について考察する。これは最終システム性能を改善するための予測精度向上に投資する価値を決定するのに不可欠であり、デプロイされたrmabシステムの診断、監視に有用である。本研究では, RMABシステムによる実世界のデータを用いて, 総合予測精度の向上は, RMABシステムの性能低下に伴う可能性もあることを実証する。次に、予測成分の評価に焦点を絞った評価指標を開発し、RMABシステム全体の性能を説明する(実証的および理論的に)のが優れていることを示す。

関連論文リスト

From Mathematical Reasoning to Code: Generalization of Process Reward Models in Test-Time Scaling [32.72867198629561]
プレトレーニングと報奨モデルトレーニング FLOP の相互作用について検討し,PRM の効率と精度への影響を評価する。以上の結果から,数式データセットに基づいてトレーニングしたPRMは,コード生成に適した性能を示すことがわかった。
論文参考訳（メタデータ） (2025-05-24T12:44:15Z)
The Lessons of Developing Process Reward Models in Mathematical Reasoning [62.165534879284735]
Process Reward Models (PRM) は、推論プロセスにおける中間エラーを特定し、緩和することを目的としている。我々は,モンテカルロ (MC) 推定とLarge Language Models (LLM) を効果的に統合するコンセンサスフィルタリング機構を開発した。私たちは、既存のオープンソース代替品よりも優れた、最先端のPRMを新たにリリースしています。
論文参考訳（メタデータ） (2025-01-13T13:10:16Z)
Gaussian Derivative Change-point Detection for Early Warnings of Industrial System Failures [7.266872790554742]
将来のシステム障害の早期警告は、予測メンテナンスとシステムの可用性向上に不可欠である。本稿では,システム故障を予測するために,システムの健全性を評価するための3段階の枠組みを提案する。
論文参考訳（メタデータ） (2024-10-29T23:14:03Z)
Rethinking Reward Model Evaluation: Are We Barking up the Wrong Tree? [46.396681032860414]
RMの精度の違いが、最適化されたポリシー性能のギャップにどのように変換されるかを検討する。我々は、RM品質の測定に使用する精度が、潜在的なRM過度な最適化を十分に捉えることができないことを認識している。
論文参考訳（メタデータ） (2024-10-08T00:52:03Z)
Revisiting BPR: A Replicability Study of a Common Recommender System Baseline [78.00363373925758]
我々は,BPRモデルの特徴を考察し,その性能への影響を示し,オープンソースのBPR実装について検討する。分析の結果,これらの実装とオリジナルのBPR論文の矛盾が明らかとなり,特定の実装に対して最大50%の性能低下がみられた。 BPRモデルは、トップnのレコメンデーションタスクにおける最先端メソッドに近いパフォーマンスレベルを達成でき、特定のデータセット上でもパフォーマンスが向上することを示す。
論文参考訳（メタデータ） (2024-09-21T18:39:53Z)
Revisiting Reciprocal Recommender Systems: Metrics, Formulation, and Method [60.364834418531366]
RRSの性能を包括的かつ正確に評価する5つの新しい評価指標を提案する。因果的観点からRSを定式化し、二元的介入として勧告を定式化する。提案手法では,結果の一致を最大化する手法を提案する。
論文参考訳（メタデータ） (2024-08-19T07:21:02Z)
Causal Interventional Prediction System for Robust and Explainable Effect Forecasting [14.104665282086339]
AIに基づく予測システムの堅牢性と説明可能性について検討する。我々は、変分オートエンコーダと多重計算の完全条件仕様に基づく因果介入予測システム(CIPS)を設計する。
論文参考訳（メタデータ） (2024-07-29T04:16:45Z)
Provable Risk-Sensitive Distributional Reinforcement Learning with General Function Approximation [54.61816424792866]
本稿では,リスク感性分布強化学習(RS-DisRL)と静的リプシッツリスク対策(LRM),一般関数近似について紹介する。モデルに基づく関数近似のためのモデルベース戦略であるtextttRS-DisRL-M と、一般値関数近似のためのモデルフリーアプローチである textttRS-DisRL-V の2つの革新的なメタアルゴリズムを設計する。
論文参考訳（メタデータ） (2024-02-28T08:43:18Z)
Unsupervised Quality Prediction for Improved Single-Frame and Weighted Sequential Visual Place Recognition [20.737660223671003]
位置推定の質を予測できる新しい,トレーニング不要な手法を提案する。これらの予測はシーケンスマッチングプロセスに偏りを生じさせ、さらなるパフォーマンス向上をもたらす。我々のシステムは軽量であり、リアルタイムに動作しており、基礎となるVPR技術に非依存である。
論文参考訳（メタデータ） (2023-07-04T03:53:05Z)
GEC: A Unified Framework for Interactive Decision Making in MDP, POMDP, and Beyond [101.5329678997916]
対話型意思決定の一般的な枠組みの下で, サンプル高能率強化学習(RL)について検討した。本稿では,探索とエクスプロイトの基本的なトレードオフを特徴付ける,新しい複雑性尺度である一般化エルダー係数(GEC)を提案する。低 GEC の RL 問題は非常にリッチなクラスであり、これは低ベルマン楕円体次元問題、双線型クラス、低証人ランク問題、PO-双線型クラス、一般化正規PSR を仮定する。
論文参考訳（メタデータ） (2022-11-03T16:42:40Z)
Rectified Max-Value Entropy Search for Bayesian Optimization [54.26984662139516]
我々は、相互情報の概念に基づいて、修正されたMES取得関数を開発する。その結果、RMESは、いくつかの合成関数ベンチマークと実世界の最適化問題において、MESよりも一貫した改善を示している。
論文参考訳（メタデータ） (2022-02-28T08:11:02Z)
Understanding the Effects of Adversarial Personalized Ranking Optimization Method on Recommendation Quality [6.197934754799158]
ベイズパーソナライズランキング(BPR)とAPR最適化フレームワークの学習特性をモデル化する。 APRがBPRよりも人気バイアスを増大させるのは、ショートヘッドアイテムからの肯定的な更新が不均衡に多いためである。
論文参考訳（メタデータ） (2021-07-29T10:22:20Z)
On the Practicality of Deterministic Epistemic Uncertainty [106.06571981780591]
決定論的不確実性法(DUM)は,分布外データの検出において高い性能を達成する。 DUMが十分に校正されており、現実のアプリケーションにシームレスにスケールできるかどうかは不明だ。
論文参考訳（メタデータ） (2021-07-01T17:59:07Z)
Autoregressive Hidden Markov Models with partial knowledge on latent space applied to aero-engines prognostics [2.179313476241343]
本稿では,ARPHMM(Auto Regressive Partially-hidden Markov Model)を用いて,センサデータに基づく機器の故障検出と予後予測を行う。健康指標に基づいて,このモデルを用いて残りの生活を推定する方法を示す。
論文参考訳（メタデータ） (2021-05-01T10:23:22Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。