論文の概要: Multi-Armed Bandits with Minimum Aggregated Revenue Constraints
- arxiv url: http://arxiv.org/abs/2510.12523v1
- Date: Tue, 14 Oct 2025 13:47:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-15 19:02:32.338182
- Title: Multi-Armed Bandits with Minimum Aggregated Revenue Constraints
- Title(参考訳): 最小累積収益制約付きマルチアーマッドバンド
- Authors: Ahmed Ben Yahmed, Hafedh El Ferchichi, Marc Abeille, Vianney Perchet,
- Abstract要約: 我々は、楽観的にパフォーマンスを優先するか、悲観的に制約満足度を強制するアルゴリズムを設計、分析する。
結果の時間的地平線への依存が一般に最適であることを示す下界を確立する。
- 参考スコア(独自算出の注目度): 27.081997104464012
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We examine a multi-armed bandit problem with contextual information, where the objective is to ensure that each arm receives a minimum aggregated reward across contexts while simultaneously maximizing the total cumulative reward. This framework captures a broad class of real-world applications where fair revenue allocation is critical and contextual variation is inherent. The cross-context aggregation of minimum reward constraints, while enabling better performance and easier feasibility, introduces significant technical challenges -- particularly the absence of closed-form optimal allocations typically available in standard MAB settings. We design and analyze algorithms that either optimistically prioritize performance or pessimistically enforce constraint satisfaction. For each algorithm, we derive problem-dependent upper bounds on both regret and constraint violations. Furthermore, we establish a lower bound demonstrating that the dependence on the time horizon in our results is optimal in general and revealing fundamental limitations of the free exploration principle leveraged in prior work.
- Abstract(参考訳): 本研究の目的は,各アームが最小限の累積報酬を受信し,同時に累積報酬を最大化することである。
このフレームワークは、公正な収益配分が重要であり、コンテキストの変化が固有の、幅広い種類の現実世界のアプリケーションを取り込む。
最小報酬制約のクロスコンテキストアグリゲーションは、パフォーマンスの向上と実現性の向上を可能にしながら、特に標準的なMAB設定で一般的に利用できるクローズドフォームの最適アロケーションが欠如している、重要な技術的課題をもたらしている。
我々は、楽観的にパフォーマンスを優先するか、悲観的に制約満足度を強制するアルゴリズムを設計、分析する。
各アルゴリズムに対して、後悔と制約違反の両方に問題依存の上限を導出する。
さらに、結果の時間的地平線への依存が一般に最適であることを示し、事前の作業で活用される自由探索原理の基本的限界を明らかにする。
関連論文リスト
- FedLoDrop: Federated LoRA with Dropout for Generalized LLM Fine-tuning [65.26899091946417]
大規模言語モデル(LLM)は、特定のタスクに汎用モデルを適用するために不可欠である。
本稿では,FedLoDropを用いたFederated LoRAを提案する。FedLoDropは,Federated LoRAのトレーニング可能な行列の行と列にドロップアウトを適用する新しいフレームワークである。
論文 参考訳(メタデータ) (2025-10-14T02:40:45Z) - Universal Dynamic Regret and Constraint Violation Bounds for Constrained Online Convex Optimization [7.798233121583888]
普遍的動的後悔と累積的制約違反境界をもたらす単純なモジュラ構造を持つ2つのアルゴリズムを提案する。
我々の結果は、コスト関数と制約関数の両方が敵によって任意に選択される場合に最も一般的な場合において成り立つ。
論文 参考訳(メタデータ) (2025-10-02T10:19:16Z) - Bounded Rationality for LLMs: Satisficing Alignment at Inference-Time [52.230936493691985]
本稿では,2次基準のしきい値に基づく制約を満たしつつ,主目的を最大化し,アライメントの多面性に対処する推論フレームワークSITAlignを提案する。
我々は、満足度に基づく推論アライメントアプローチの準最適境界を導出することで理論的洞察を提供する。
論文 参考訳(メタデータ) (2025-05-29T17:56:05Z) - From Restless to Contextual: A Thresholding Bandit Reformulation For Finite-horizon Performance [8.173852377640964]
我々は,オンラインRBの改革を,文脈的盗賊の根源として導入する。
単純化された有限ホライゾン設定に対するオラクルポリシーの最初の漸近的でない最適性を証明する。
本研究は, 有限水平RBにおける実践的, サンプル効率の学習を実現するための新しい経路を提供する。
論文 参考訳(メタデータ) (2025-02-07T18:23:43Z) - When Demonstrations Meet Generative World Models: A Maximum Likelihood
Framework for Offline Inverse Reinforcement Learning [62.00672284480755]
本稿では, 専門家エージェントから, 一定の有限個の実演において観測された動作を過小評価する報酬と環境力学の構造を復元することを目的とする。
タスクを実行するための正確な専門知識モデルは、臨床的意思決定や自律運転のような安全に敏感な応用に応用できる。
論文 参考訳(メタデータ) (2023-02-15T04:14:20Z) - A Unifying Framework for Online Optimization with Long-Term Constraints [62.35194099438855]
我々は,意思決定者が長期的制約の対象となる一連の意思決定をしなければならないオンライン学習問題について検討する。
目標は、全報酬を最大化し、同時に、$T$ラウンド全体で小さな累積違反を達成することである。
本稿では,この一般クラス問題に対して,未知のモデルに基づいて報酬と制約が選択された場合と,各ラウンドで敵が選択した場合の双方において,最良世界型アルゴリズムを提示する。
論文 参考訳(メタデータ) (2022-09-15T16:59:19Z) - On Kernelized Multi-Armed Bandits with Constraints [16.102401271318012]
一般に未知の報酬関数と一般未知の制約関数を併用した帯域幅問題について検討する。
本稿では,アルゴリズムの性能解析のための一般的なフレームワークを提案する。
本稿では,数値実験により提案アルゴリズムの優れた性能を示す。
論文 参考訳(メタデータ) (2022-03-29T14:02:03Z) - On Lower Bounds for Standard and Robust Gaussian Process Bandit
Optimization [55.937424268654645]
有界ノルムを持つ関数のブラックボックス最適化問題に対するアルゴリズム非依存な下界を考える。
本稿では, 単純さ, 汎用性, エラー確率への依存性の向上など, 後悔の下位境界を導出するための新しい証明手法を提案する。
論文 参考訳(メタデータ) (2020-08-20T03:48:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。