論文の概要: Incentive-Aware Dynamic Resource Allocation under Long-Term Cost Constraints
- arxiv url: http://arxiv.org/abs/2507.09473v1
- Date: Sun, 13 Jul 2025 03:18:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-15 18:48:23.272302
- Title: Incentive-Aware Dynamic Resource Allocation under Long-Term Cost Constraints
- Title(参考訳): 長期的コスト制約下におけるインセンティブを考慮した動的資源配分
- Authors: Yan Dai, Negin Golrezaei, Patrick Jaillet,
- Abstract要約: 本研究では,再利用可能な資源の戦略的エージェントへの動的割り当てについて検討する。
戦略行動に頑健な原始二重手法を実現するインセンティブ対応フレームワークを開発した。
- 参考スコア(独自算出の注目度): 24.842944692980495
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Motivated by applications such as cloud platforms allocating GPUs to users or governments deploying mobile health units across competing regions, we study the dynamic allocation of a reusable resource to strategic agents with private valuations. Our objective is to simultaneously (i) maximize social welfare, (ii) satisfy multi-dimensional long-term cost constraints, and (iii) incentivize truthful reporting. We begin by numerically evaluating primal-dual methods widely used in constrained online optimization and find them to be highly fragile in strategic settings -- agents can easily manipulate their reports to distort future dual updates for future gain. To address this vulnerability, we develop an incentive-aware framework that makes primal-dual methods robust to strategic behavior. Our design combines epoch-based lazy updates -- where dual variables remain fixed within each epoch -- with randomized exploration rounds that extract approximately truthful signals for learning. Leveraging carefully designed online learning subroutines that can be of independent interest for dual updates, our mechanism achieves $\tilde{\mathcal{O}}(\sqrt{T})$ social welfare regret, satisfies all cost constraints, and ensures incentive alignment. This matches the performance of non-strategic allocation approaches while being robust to strategic agents.
- Abstract(参考訳): クラウドプラットフォームのようなアプリケーションによって、GPUをユーザや政府に割り当て、競合するリージョンにまたがるモバイルヘルスユニットをデプロイすることで、再利用可能なリソースをプライベートなバリュエーションを持つ戦略的エージェントに動的に割り当てることを研究する。
私たちの目標は同時に
(i)社会福祉を最大化する。
(二)多次元長期費用制約を満たすこと、
(三)真理に満ちた報告を奨励する。
まず、制約のあるオンライン最適化で広く使われている原始二重法を数値的に評価し、戦略的な設定で非常に脆弱であることを示すことから始めます。
この脆弱性に対処するため,戦略行動に頑健な原始二重手法を実現するインセンティブ・アウェア・フレームワークを開発した。
私たちの設計では、エポックベースの遅延更新(各エポック内に2つの変数が固定されている)とランダムな探索ラウンドを組み合わせて、学習のためのほぼ真実のシグナルを抽出します。
二重更新に対して独立した関心を持つオンライン学習サブルーチンを慎重に設計し、我々のメカニズムは$\tilde{\mathcal{O}}(\sqrt{T})$ Social welfare regretを達成し、コスト制約をすべて満たし、インセンティブアライメントを確保する。
これは戦略的エージェントに対して堅牢でありながら、非戦略的アロケーションアプローチのパフォーマンスと一致する。
関連論文リスト
- Learning to Lead: Incentivizing Strategic Agents in the Dark [50.93875404941184]
一般化プリンシパルエージェントモデルのオンライン学習バージョンについて検討する。
この挑戦的な設定のための最初の証明可能なサンプル効率アルゴリズムを開発した。
我々は、プリンシパルの最適ポリシーを学ぶために、ほぼ最適な $tildeO(sqrtT) $ regret bound を確立する。
論文 参考訳(メタデータ) (2025-06-10T04:25:04Z) - UDuo: Universal Dual Optimization Framework for Online Matching [9.092568268958425]
3つの重要なイノベーションを通じて、オンラインアロケーションを根本的に再考する新しいパラダイムを提案する。
時間的ユーザ到着表現ベクトル、リソースペアリング学習者、オンライン時系列予測手法。
実験結果から,UDuoは現実の価格設定において従来の到着モデルよりも効率が高く,収束が速いことがわかった。
論文 参考訳(メタデータ) (2025-05-28T11:25:50Z) - Generative Auto-Bidding with Value-Guided Explorations [47.71346722705783]
本稿では,GAVE(Value-Guided Explorations)を用いた新しいオフライン自動入札フレームワークを提案する。
2つのオフラインデータセットと実世界のデプロイに関する実験結果は、GAVEがオフライン評価とオンラインA/Bテストの両方で最先端のベースラインを上回っていることを示している。
論文 参考訳(メタデータ) (2025-04-20T12:28:49Z) - DARS: Dynamic Action Re-Sampling to Enhance Coding Agent Performance by Adaptive Tree Traversal [55.13854171147104]
大規模言語モデル(LLM)は、自然言語処理、データ分析、ソフトウェア開発など、さまざまな領域に革命をもたらした。
符号化エージェントのための新しい推論時間計算スケーリングアプローチである動的アクション再サンプリング(DARS)を提案する。
我々は、SWE-Bench Liteベンチマークに対する我々のアプローチを評価し、このスケーリング戦略がClude 3.5 Sonnet V2で55%のパス@kスコアを達成したことを実証した。
論文 参考訳(メタデータ) (2025-03-18T14:02:59Z) - $TAR^2$: Temporal-Agent Reward Redistribution for Optimal Policy Preservation in Multi-Agent Reinforcement Learning [7.97295726921338]
Temporal-Agent Reward Redistribution $TAR2$は、スパースグローバルな報酬をエージェント固有のタイムステップ固有のコンポーネントに分解する新しいアプローチである。
我々は、$TAR2$が潜在的な報酬形成と整合し、元の環境と同じ最適なポリシーを保っていることを示す。
論文 参考訳(メタデータ) (2025-02-07T12:07:57Z) - Adversarial Robustness in Two-Stage Learning-to-Defer: Algorithms and Guarantees [3.6787328174619254]
2段階のL2D(Learning-to-Defer)は、各入力を固定されたメインモデルまたは複数のオフライン専門家のいずれかに割り当てることで、最適なタスクデリゲートを可能にする。
既存のL2Dフレームワークはクリーンな入力を前提としており、クエリ割り当てを操作できる敵の摂動に弱い。
2段階L2Dシステムにおける対向ロバスト性の最初の包括的研究について述べる。
論文 参考訳(メタデータ) (2025-02-03T03:44:35Z) - Dynamic Matching with Post-allocation Service and its Application to Refugee Resettlement [1.9689888982532262]
米国の主要難民再定住機関との協力により、我々は、新しい到着(難民事件)が静的リソースの1つと即時かつ不可逆的に一致しなければならない動的なマッチング問題について研究した。
学習に基づくアルゴリズムは、特定の状況下で逆向きに最適であり、容易に解釈でき、計算的に高速である。
論文 参考訳(メタデータ) (2024-10-30T13:17:38Z) - Scalable Online Exploration via Coverability [45.66375686120087]
探索は、特に関数近似を必要とする高次元領域において、強化学習において大きな課題である。
従来の探索手法を一般化し,3つの基本デシラタをサポートする新しい目的である$L_Coverageを導入する。
$L_Coverageは、カバー可能性の低いMDPにおけるオンライン(リワードフリーまたは報酬駆動)強化学習のための、最初の計算効率のよいモデルベースおよびモデルフリーのアルゴリズムを可能にする。
論文 参考訳(メタデータ) (2024-03-11T10:14:06Z) - Optimizing Credit Limit Adjustments Under Adversarial Goals Using
Reinforcement Learning [42.303733194571905]
我々は、強化学習技術を用いて最適なクレジットカード制限調整ポリシーを発見し、自動化することを模索する。
本研究は、信用限度調整に強化学習フレームワークを適用するための概念構造を確立する。
論文 参考訳(メタデータ) (2023-06-27T16:10:36Z) - Online Learning with Knapsacks: the Best of Both Worlds [54.28273783164608]
オンライン学習の課題として,意思決定者が,リソース制約の有限セットに違反することなく,期待する報酬を最大化したい,という課題を提起する。
当社のフレームワークは,意思決定者がそのエビデンスを柔軟かつコスト論的に扱えるようにします。
論文 参考訳(メタデータ) (2022-02-28T12:10:48Z) - Coordinated Online Learning for Multi-Agent Systems with Coupled
Constraints and Perturbed Utility Observations [91.02019381927236]
本研究では, 資源制約を満たすため, エージェントを安定な集団状態へ誘導する新しい手法を提案する。
提案手法は,ゲームラグランジアンの拡張によるリソース負荷に基づく分散リソース価格設定手法である。
論文 参考訳(メタデータ) (2020-10-21T10:11:17Z) - Cost-Sensitive Portfolio Selection via Deep Reinforcement Learning [100.73223416589596]
深層強化学習を用いたコスト依存型ポートフォリオ選択手法を提案する。
具体的には、価格系列パターンと資産相関の両方を抽出するために、新しい2ストリームポートフォリオポリシーネットワークを考案した。
蓄積したリターンを最大化し、強化学習によるコストの両立を抑えるため、新たなコスト感受性報酬関数が開発された。
論文 参考訳(メタデータ) (2020-03-06T06:28:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。