論文の概要: Constrained Online Decision-Making: A Unified Framework
- arxiv url: http://arxiv.org/abs/2505.07101v2
- Date: Fri, 16 May 2025 02:25:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-19 12:32:17.867661
- Title: Constrained Online Decision-Making: A Unified Framework
- Title(参考訳): Constrained Online Decision-Making: 統一フレームワーク
- Authors: Haichen Hu, David Simchi-Levi, Navid Azizan,
- Abstract要約: 本稿では,段階的実現可能性制約による逐次意思決定の一般的な定式化について検討する。
本稿では,既存の制約付き学習問題を抽出する統一的なアルゴリズムフレームワークを提案する。
この結果は、理論と実践の両方において、制約付きシーケンシャルな意思決定のための原則化された基盤を提供する。
- 参考スコア(独自算出の注目度): 14.465944215100746
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Contextual online decision-making problems with constraints appear in various real-world applications, such as personalized recommendation with resource limits and dynamic pricing with fairness constraints. In this paper, we investigate a general formulation of sequential decision-making with stage-wise feasibility constraints, where at each round, the learner must select an action based on observed context while ensuring a problem-specific feasibility criterion. We propose a unified algorithmic framework that captures many existing constrained learning problems, including constrained bandits, stream active learning, online hypothesis testing, and model calibration. Central to our approach is the concept of upper counterfactual confidence bound, which enables the design of practically efficient online algorithms using any offline conditional density estimation oracle. Technically, to handle feasibility constraints, we introduce a generalized notion of the eluder dimension, extending it from the classical setting based on square loss to a broader class of metric-like probability divergences, which could capture the complexity of various density function classes and characterize the loss incurred due to feasibility constraint uncertainty. Our result offers a principled foundation for constrained sequential decision-making in both theory and practice.
- Abstract(参考訳): 制約付きコンテキストオンライン意思決定問題は、リソース制限付きパーソナライズされたレコメンデーションやフェアネス制約付き動的価格設定など、さまざまな現実のアプリケーションに現れる。
本稿では,段階的実行可能性制約による逐次決定の一般的な定式化について検討する。各ラウンドにおいて,学習者は,問題固有の実行可能性基準を確保しつつ,観測状況に基づいて行動を選択する必要がある。
本稿では,制約付き帯域幅,ストリームアクティブ学習,オンライン仮説テスト,モデル校正など,既存の制約付き学習問題を抽出する統一的アルゴリズムフレームワークを提案する。
当社のアプローチの中心は,オフライン条件密度推定オラクルを用いて,事実上効率的なオンラインアルゴリズムの設計を可能にする,上位対実信頼境界の概念である。
技術的には,可視性制約に対処するため,古典的な定義から,様々な密度関数クラスの複雑性を捉え,可視性制約の不確実性に起因する損失を特徴付けるような,計量的確率分岐のクラスへと拡張する。
この結果は、理論と実践の両方において、制約付きシーケンシャルな意思決定のための原則化された基盤を提供する。
関連論文リスト
- Generalized Decision Focused Learning under Imprecise Uncertainty--Theoretical Study [6.137404366514538]
決定にフォーカスした学習は、機械学習と下流の最適化を統合するための重要なパラダイムとして登場した。
既存の方法論は主に確率的モデルに依存し、タスクの目的に限定する。
本稿では、革新的なフレームワークを導入することで、これらのギャップを埋める。
論文 参考訳(メタデータ) (2025-02-25T08:53:02Z) - Deep Learning for Resilient Adversarial Decision Fusion in Byzantine Networks [0.43512163406551996]
本稿では,対戦型マルチセンサネットワークにおけるレジリエントな決定融合のためのディープラーニングに基づくフレームワークを提案する。
提案手法では、グローバルに構築されたデータセットに基づいてトレーニングされたディープニューラルネットワークを使用して、すべてのケースを適応を必要とせずに一般化する。
論文 参考訳(メタデータ) (2024-12-17T10:02:04Z) - Resilient Constrained Reinforcement Learning [87.4374430686956]
本稿では,複数の制約仕様を事前に特定しない制約付き強化学習(RL)のクラスについて検討する。
報酬訓練目標と制約満足度との間に不明確なトレードオフがあるため、適切な制約仕様を特定することは困難である。
我々は、ポリシーと制約仕様を一緒に検索する新しい制約付きRLアプローチを提案する。
論文 参考訳(メタデータ) (2023-12-28T18:28:23Z) - Likelihood Ratio Confidence Sets for Sequential Decision Making [51.66638486226482]
確率に基づく推論の原理を再検討し、確率比を用いて妥当な信頼シーケンスを構築することを提案する。
本手法は, 精度の高い問題に特に適している。
提案手法は,オンライン凸最適化への接続に光を当てることにより,推定器の最適シーケンスを確実に選択する方法を示す。
論文 参考訳(メタデータ) (2023-11-08T00:10:21Z) - The Boundaries of Verifiable Accuracy, Robustness, and Generalisation in Deep Learning [71.14237199051276]
経験的リスクを最小限に抑えるため,古典的な分布に依存しないフレームワークとアルゴリズムを検討する。
理想的な安定かつ正確なニューラルネットワークの計算と検証が極めて難しいタスク群が存在することを示す。
論文 参考訳(メタデータ) (2023-09-13T16:33:27Z) - When Demonstrations Meet Generative World Models: A Maximum Likelihood
Framework for Offline Inverse Reinforcement Learning [62.00672284480755]
本稿では, 専門家エージェントから, 一定の有限個の実演において観測された動作を過小評価する報酬と環境力学の構造を復元することを目的とする。
タスクを実行するための正確な専門知識モデルは、臨床的意思決定や自律運転のような安全に敏感な応用に応用できる。
論文 参考訳(メタデータ) (2023-02-15T04:14:20Z) - On data-driven chance constraint learning for mixed-integer optimization
problems [0.0]
本稿では,混合整数線形最適化問題に着目したCCL手法を提案する。
CCLは線形化可能な機械学習モデルを使用して、学習変数の条件量子を推定する。
実践者が使用するオープンアクセスソフトウェアが開発されている。
論文 参考訳(メタデータ) (2022-07-08T11:54:39Z) - Recursive Constraints to Prevent Instability in Constrained
Reinforcement Learning [16.019477271828745]
マルコフ決定プロセスにおける決定論的政策の発見という課題を考察する。
この種の問題は難しいことが知られているが、決定論と一様最適性の要求が組み合わされば、学習不安定が生じる。
本稿では,学習不安定性を防止するための制約付き強化学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-01-20T02:33:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。