論文の概要: Constrained Online Decision-Making: A Unified Framework
- arxiv url: http://arxiv.org/abs/2505.07101v3
- Date: Thu, 22 May 2025 14:30:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-23 14:49:22.33633
- Title: Constrained Online Decision-Making: A Unified Framework
- Title(参考訳): Constrained Online Decision-Making: 統一フレームワーク
- Authors: Haichen Hu, David Simchi-Levi, Navid Azizan,
- Abstract要約: 本稿では,段階的実現可能性制約による逐次意思決定の一般的な定式化について検討する。
本稿では,既存の制約付き学習問題を抽出する統一的なアルゴリズムフレームワークを提案する。
この結果は、理論と実践の両方において、制約付きシーケンシャルな意思決定のための原則化された基盤を提供する。
- 参考スコア(独自算出の注目度): 14.465944215100746
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Contextual online decision-making problems with constraints appear in a wide range of real-world applications, such as adaptive experimental design under safety constraints, personalized recommendation with resource limits, and dynamic pricing under fairness requirements. In this paper, we investigate a general formulation of sequential decision-making with stage-wise feasibility constraints, where at each round, the learner must select an action based on observed context while ensuring that a problem-specific feasibility criterion is satisfied. We propose a unified algorithmic framework that captures many existing constrained learning problems, including constrained bandits, active learning with label budgets, online hypothesis testing with Type I error control, and model calibration. Central to our approach is the concept of upper counterfactual confidence bounds, which enables the design of practically efficient online algorithms with strong theoretical guarantees using any offline conditional density estimation oracle. To handle feasibility constraints in complex environments, we introduce a generalized notion of the eluder dimension, extending it from the classical setting based on square loss to a broader class of metric-like probability divergences. This allows us to capture the complexity of various density function classes and characterize the utility regret incurred due to feasibility constraint uncertainty. Our result offers a principled foundation for constrained sequential decision-making in both theory and practice.
- Abstract(参考訳): 制約のあるコンテキストオンライン意思決定問題は、安全制約の下での適応的な実験設計、リソース制限によるパーソナライズされたレコメンデーション、公正要件下での動的価格設定など、幅広い現実世界のアプリケーションに現れる。
本稿では,段階的実行可能性制約による逐次的意思決定の一般的な定式化について検討する。各ラウンドにおいて,学習者は,問題固有の実行可能性基準を満たすことを保証しつつ,観測状況に基づいて行動を選択する必要がある。
本稿では,制約付き帯域幅,ラベル予算によるアクティブラーニング,タイプIエラー制御によるオンライン仮説テスト,モデル校正など,既存の制約付き学習問題を抽出する統一的アルゴリズムフレームワークを提案する。
提案手法の中心となるのは, オフライン条件密度推定オラクルを用いて, 理論的確証の強い実用的なオンラインアルゴリズムの設計を可能にする, 上位対実信頼境界の概念である。
複素環境における実現可能性制約に対処するために, 2乗損失に基づく古典的な設定から,より広範な計量的な確率分岐のクラスへと拡張する,一般のユーラダー次元の概念を導入する。
これにより、様々な密度関数クラスの複雑さを捉え、実現可能性制約の不確実性によって生じる効用を特徴付けることができる。
この結果は、理論と実践の両方において、制約付きシーケンシャルな意思決定のための原則化された基盤を提供する。
関連論文リスト
- Generalized Decision Focused Learning under Imprecise Uncertainty--Theoretical Study [6.137404366514538]
決定にフォーカスした学習は、機械学習と下流の最適化を統合するための重要なパラダイムとして登場した。
既存の方法論は主に確率的モデルに依存し、タスクの目的に限定する。
本稿では、革新的なフレームワークを導入することで、これらのギャップを埋める。
論文 参考訳(メタデータ) (2025-02-25T08:53:02Z) - Deep Learning for Resilient Adversarial Decision Fusion in Byzantine Networks [0.43512163406551996]
本稿では,対戦型マルチセンサネットワークにおけるレジリエントな決定融合のためのディープラーニングに基づくフレームワークを提案する。
提案手法では、グローバルに構築されたデータセットに基づいてトレーニングされたディープニューラルネットワークを使用して、すべてのケースを適応を必要とせずに一般化する。
論文 参考訳(メタデータ) (2024-12-17T10:02:04Z) - Resilient Constrained Reinforcement Learning [87.4374430686956]
本稿では,複数の制約仕様を事前に特定しない制約付き強化学習(RL)のクラスについて検討する。
報酬訓練目標と制約満足度との間に不明確なトレードオフがあるため、適切な制約仕様を特定することは困難である。
我々は、ポリシーと制約仕様を一緒に検索する新しい制約付きRLアプローチを提案する。
論文 参考訳(メタデータ) (2023-12-28T18:28:23Z) - Likelihood Ratio Confidence Sets for Sequential Decision Making [51.66638486226482]
確率に基づく推論の原理を再検討し、確率比を用いて妥当な信頼シーケンスを構築することを提案する。
本手法は, 精度の高い問題に特に適している。
提案手法は,オンライン凸最適化への接続に光を当てることにより,推定器の最適シーケンスを確実に選択する方法を示す。
論文 参考訳(メタデータ) (2023-11-08T00:10:21Z) - The Boundaries of Verifiable Accuracy, Robustness, and Generalisation in Deep Learning [71.14237199051276]
経験的リスクを最小限に抑えるため,古典的な分布に依存しないフレームワークとアルゴリズムを検討する。
理想的な安定かつ正確なニューラルネットワークの計算と検証が極めて難しいタスク群が存在することを示す。
論文 参考訳(メタデータ) (2023-09-13T16:33:27Z) - When Demonstrations Meet Generative World Models: A Maximum Likelihood
Framework for Offline Inverse Reinforcement Learning [62.00672284480755]
本稿では, 専門家エージェントから, 一定の有限個の実演において観測された動作を過小評価する報酬と環境力学の構造を復元することを目的とする。
タスクを実行するための正確な専門知識モデルは、臨床的意思決定や自律運転のような安全に敏感な応用に応用できる。
論文 参考訳(メタデータ) (2023-02-15T04:14:20Z) - On data-driven chance constraint learning for mixed-integer optimization
problems [0.0]
本稿では,混合整数線形最適化問題に着目したCCL手法を提案する。
CCLは線形化可能な機械学習モデルを使用して、学習変数の条件量子を推定する。
実践者が使用するオープンアクセスソフトウェアが開発されている。
論文 参考訳(メタデータ) (2022-07-08T11:54:39Z) - Recursive Constraints to Prevent Instability in Constrained
Reinforcement Learning [16.019477271828745]
マルコフ決定プロセスにおける決定論的政策の発見という課題を考察する。
この種の問題は難しいことが知られているが、決定論と一様最適性の要求が組み合わされば、学習不安定が生じる。
本稿では,学習不安定性を防止するための制約付き強化学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-01-20T02:33:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。