論文の概要: Dynamic Regret Bounds for Online Omniprediction with Long Term Constraints
- arxiv url: http://arxiv.org/abs/2510.07266v1
- Date: Wed, 08 Oct 2025 17:28:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-09 16:41:20.663414
- Title: Dynamic Regret Bounds for Online Omniprediction with Long Term Constraints
- Title(参考訳): 長期制約のあるオンラインオムニディディションのための動的レグレト境界
- Authors: Yahav Bechavod, Jiuyao Lu, Aaron Roth,
- Abstract要約: 本稿では,長期的制約のあるオンライン全滅に対する動的後悔境界を保証するアルゴリズムを提案する。
最近導入されたこの問題のゴールは、下流の意思決定者集団に配信される一連の予測を生成することである。
この枠組みでは,全てのエージェントに対して同時的エンファンダイナミックな後悔の保証を得るアルゴリズムを初めて提供する。
- 参考スコア(独自算出の注目度): 13.637004009810285
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present an algorithm guaranteeing dynamic regret bounds for online omniprediction with long term constraints. The goal in this recently introduced problem is for a learner to generate a sequence of predictions which are broadcast to a collection of downstream decision makers. Each decision maker has their own utility function, as well as a vector of constraint functions, each mapping their actions and an adversarially selected state to reward or constraint violation terms. The downstream decision makers select actions "as if" the state predictions are correct, and the goal of the learner is to produce predictions such that all downstream decision makers choose actions that give them worst-case utility guarantees while minimizing worst-case constraint violation. Within this framework, we give the first algorithm that obtains simultaneous \emph{dynamic regret} guarantees for all of the agents -- where regret for each agent is measured against a potentially changing sequence of actions across rounds of interaction, while also ensuring vanishing constraint violation for each agent. Our results do not require the agents themselves to maintain any state -- they only solve one-round constrained optimization problems defined by the prediction made at that round.
- Abstract(参考訳): 本稿では,長期的制約のあるオンライン全滅に対する動的後悔境界を保証するアルゴリズムを提案する。
最近導入されたこの問題のゴールは、下流の意思決定者集団に配信される一連の予測を生成することである。
各意思決定者は、それぞれ独自のユーティリティ機能を持ち、制約関数のベクトルを持ち、それぞれのアクションをマッピングし、反対に選択された状態から報酬や違反条件を課す。
下流の意思決定者は、状態予測が正しいかのようにアクションを選択し、学習者のゴールは、最悪のケースの制約違反を最小限に抑えながら、最悪のケースの効用保証を与えるアクションを選択するように、下流の意思決定者が予測を作成することである。
この枠組みでは,全てのエージェントに対して同時に「emph{dynamic regret}」の保証を得る最初のアルゴリズムを与える。そこでは,各エージェントに対する後悔が,相互作用のラウンドにわたって変化する可能性のある行動列に対して測定されると同時に,各エージェントに対する制約違反の解消も保証する。その結果は,エージェント自身が任意の状態を維持する必要はなく,そのラウンドで発生した予測によって定義される1ラウンドの制約付き最適化問題のみを解決する。
関連論文リスト
- Online Omniprediction with Long-Term Constraints [13.637004009810285]
本稿では,長期的制約を伴うオンライン全滅の問題について検討する。
我々は、下流のエージェントがこれを保証できるように、一つの予測セットを作る方法を示す。
我々はまた、保証を任意の文脈で定義された偶数列に拡張する方法も示している。
論文 参考訳(メタデータ) (2025-09-14T17:22:47Z) - A Principled Approach to Randomized Selection under Uncertainty: Applications to Peer Review and Grant Funding [68.43987626137512]
本稿では,各項目の品質の間隔推定に基づくランダム化意思決定の枠組みを提案する。
最適化に基づく最適化手法であるMERITを導入する。
MERITが既存のアプローチで保証されていない望ましい公理特性を満たすことを証明している。
論文 参考訳(メタデータ) (2025-06-23T19:59:30Z) - Online Decision Mediation [72.80902932543474]
意思決定支援アシスタントを学習し、(好奇心)専門家の行動と(不完全)人間の行動の仲介役として機能することを検討する。
臨床診断では、完全に自律的な機械行動は倫理的余裕を超えることが多い。
論文 参考訳(メタデータ) (2023-10-28T05:59:43Z) - High-Dimensional Prediction for Sequential Decision Making [9.684829814477526]
本研究では,任意の条件付けイベントの収集対象である逆選択された高次元状態の予測を行う問題について検討する。
この問題を解決するための効率的なアルゴリズムと、適切な条件付けイベントを選択することに起因する多くのアプリケーションを提供します。
論文 参考訳(メタデータ) (2023-10-26T17:59:32Z) - On Dynamic Regret and Constraint Violations in Constrained Online Convex
Optimization [17.412117389855222]
提案するアルゴリズムは,現在の動作の周囲に適度に選択された集合上の射影勾配勾配を追従する。
動的後悔と制約違反の両方が、連続する最適動作間の距離の和であるパス長によって順序的に束縛されていることを示す。
論文 参考訳(メタデータ) (2023-01-24T04:22:13Z) - A Unifying Framework for Online Optimization with Long-Term Constraints [62.35194099438855]
我々は,意思決定者が長期的制約の対象となる一連の意思決定をしなければならないオンライン学習問題について検討する。
目標は、全報酬を最大化し、同時に、$T$ラウンド全体で小さな累積違反を達成することである。
本稿では,この一般クラス問題に対して,未知のモデルに基づいて報酬と制約が選択された場合と,各ラウンドで敵が選択した場合の双方において,最良世界型アルゴリズムを提示する。
論文 参考訳(メタデータ) (2022-09-15T16:59:19Z) - Safe Online Bid Optimization with Return-On-Investment and Budget
Constraints subject to Uncertainty [87.81197574939355]
最適化問題と学習問題の両方について検討する。
我々は、潜在的に線形な数の制約違反を犠牲にして、サブ線形後悔を保証するアルゴリズム、すなわちGCBを提供する。
より興味深いことに、我々はGCB_safe(psi,phi)というアルゴリズムを提供し、サブ線形擬似回帰と安全性w.h.p.の両方を、耐性 psi と phi を受け入れるコストで保証する。
論文 参考訳(メタデータ) (2022-01-18T17:24:20Z) - Regret and Cumulative Constraint Violation Analysis for Distributed
Online Constrained Convex Optimization [24.97580261894342]
本稿では,エージェントネットワーク上の時間的制約を伴う分散オンライン凸最適化問題について考察する。
フルインフォメーションとバンディットフィードバックの2つのアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-05-01T18:28:53Z) - Bandit Linear Optimization for Sequential Decision Making and
Extensive-Form Games [102.23975166536326]
tree-form sequential decision making (tfsdm) は、エージェントと潜在的に敵対的な環境の間のツリー形式の相互作用をモデル化することで、古典的なワンショット意思決定を拡張する。
これは、各プレイヤーが幅広い形式のゲームで直面するオンライン意思決定問題、およびマルコフ決定プロセス、およびエージェントが観測された履歴を条件とする部分観察可能なマルコフ決定プロセスをキャプチャする。
本稿では, (i) 線形時間損失と (ii) $o(sqrtt)$ cumulative regret の両方を提供する拡張dmのバンディット線形最適化問題に対する最初のアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-08T05:00:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。