論文の概要: Bi-Level Contextual Bandits for Individualized Resource Allocation under Delayed Feedback
- arxiv url: http://arxiv.org/abs/2511.10572v1
- Date: Fri, 14 Nov 2025 01:58:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-14 22:53:22.936405
- Title: Bi-Level Contextual Bandits for Individualized Resource Allocation under Delayed Feedback
- Title(参考訳): 遅延フィードバック下での個別資源配分のための両レベルコンテキスト帯域
- Authors: Mohammadsina Almasi, Hadis Anahideh,
- Abstract要約: 本稿では,遅延フィードバック下での資源割り当てを個別化するための,新しい双方向コンテキスト帯域化フレームワークを提案する。
本研究は, 制度政策と社会福祉を改善するための遅延認識型意思決定システムの可能性を明らかにするものである。
- 参考スコア(独自算出の注目度): 3.0294344089697596
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Equitably allocating limited resources in high-stakes domains-such as education, employment, and healthcare-requires balancing short-term utility with long-term impact, while accounting for delayed outcomes, hidden heterogeneity, and ethical constraints. However, most learning-based allocation frameworks either assume immediate feedback or ignore the complex interplay between individual characteristics and intervention dynamics. We propose a novel bi-level contextual bandit framework for individualized resource allocation under delayed feedback, designed to operate in real-world settings with dynamic populations, capacity constraints, and time-sensitive impact. At the meta level, the model optimizes subgroup-level budget allocations to satisfy fairness and operational constraints. At the base level, it identifies the most responsive individuals within each group using a neural network trained on observational data, while respecting cooldown windows and delayed treatment effects modeled via resource-specific delay kernels. By explicitly modeling temporal dynamics and feedback delays, the algorithm continually refines its policy as new data arrive, enabling more responsive and adaptive decision-making. We validate our approach on two real-world datasets from education and workforce development, showing that it achieves higher cumulative outcomes, better adapts to delay structures, and ensures equitable distribution across subgroups. Our results highlight the potential of delay-aware, data-driven decision-making systems to improve institutional policy and social welfare.
- Abstract(参考訳): 教育、雇用、医療といった高度な領域における限られた資源の割り当ては、短期的効用と長期的影響のバランスを保ちながら、遅れた結果、隠された異質性、倫理的制約を考慮に入れている。
しかし、ほとんどの学習ベースのアロケーションフレームワークは、即時フィードバックを前提とするか、個々の特性と介入ダイナミクスの間の複雑な相互作用を無視している。
本稿では,動的人口,キャパシティ制約,時間に敏感な影響を考慮した実環境環境での運用を目的とした,遅延フィードバック下での個別化資源割り当てのための,新たな双方向コンテキスト帯域化フレームワークを提案する。
メタレベルでは、フェアネスと運用上の制約を満たすために、サブグループレベルの予算配分を最適化する。
ベースレベルでは、リソース固有の遅延カーネルを通じてモデル化された冷却ウィンドウと遅延処理効果を尊重しながら、観察データに基づいてトレーニングされたニューラルネットワークを使用して、各グループ内で最も応答性の高い個人を特定する。
時間的ダイナミクスとフィードバック遅延を明示的にモデル化することにより、アルゴリズムは新しいデータが到着するにつれてポリシーを継続的に洗練し、より応答性が高く適応的な意思決定を可能にする。
我々は、教育と労働開発から得られた2つの実世界のデータセットに対するアプローチを検証し、それがより高い累積的な成果を達成し、遅延構造に適応し、サブグループ間で均等な分布を確保することを示します。
本研究は, 制度政策と社会福祉を改善するための遅延認識型意思決定システムの可能性を明らかにするものである。
関連論文リスト
- Beamforming and Resource Allocation for Delay Minimization in RIS-Assisted OFDM Systems [38.71413228444903]
本稿では、ダウンリンク再構成可能なインテリジェントサーフェス(RIS)支援OFDMシステムにおけるビームフォーミングと資源配分の問題について検討する。
混合作用空間を効果的に処理し, 状態空間次元を低減するために, ハイブリッド深部強化学習(DRL)手法を提案する。
提案アルゴリズムは, 平均遅延を著しく低減し, 資源配分効率を向上し, システムの堅牢性と公平性を向上する。
論文 参考訳(メタデータ) (2025-06-04T05:33:33Z) - What Makes LLMs Effective Sequential Recommenders? A Study on Preference Intensity and Temporal Context [56.590259941275434]
RecPOは、シーケンシャルなレコメンデーションのための優先順位最適化フレームワークである。
これは、推定された嗜好階層と時間信号に基づいて適応的な報酬マージンを利用する。
タイムリーな満足感、コヒーレントな嗜好の維持、変化する状況下での識別の行使など、人間の意思決定の重要な特徴を反映している。
論文 参考訳(メタデータ) (2025-06-02T21:09:29Z) - Active Learning for Fair and Stable Online Allocations [6.23798328186465]
我々は、オンラインリソース割り当てプロセスの各エポックにおいて、エージェントの特定のサブセットからのフィードバックを検討する。
提案アルゴリズムは,様々な測度に対して,時系列のサブ線形な後悔境界を提供する。
我々は,効率的な意思決定には広範なフィードバックは必要とせず,様々な問題クラスに対して効率的な結果をもたらすことを示した。
論文 参考訳(メタデータ) (2024-06-20T23:23:23Z) - Decentralized Learning Strategies for Estimation Error Minimization with Graph Neural Networks [86.99017195607077]
統計的に同一性を持つ無線ネットワークにおける自己回帰的マルコフ過程のサンプリングとリモート推定の課題に対処する。
我々のゴールは、分散化されたスケーラブルサンプリングおよび送信ポリシーを用いて、時間平均推定誤差と/または情報の年齢を最小化することである。
論文 参考訳(メタデータ) (2024-04-04T06:24:11Z) - Stateful Offline Contextual Policy Evaluation and Learning [88.9134799076718]
我々は、シーケンシャルデータから、政治以外の評価と学習について研究する。
動的パーソナライズされた価格設定などの問題の因果構造を形式化する。
本報告では,本クラスにおけるアウト・オブ・サンプル・ポリシーの性能改善について述べる。
論文 参考訳(メタデータ) (2021-10-19T16:15:56Z) - Multi-Agent Online Optimization with Delays: Asynchronicity, Adaptivity,
and Optimism [33.116006446428756]
遅延と非同期性を考慮したマルチエージェントオンライン学習問題の研究を行った。
エージェントレベルとネットワークレベルの両方で、最適な後悔の境界を持つ適応学習戦略を導き出します。
論文 参考訳(メタデータ) (2020-12-21T18:55:55Z) - Dynamic Federated Learning [57.14673504239551]
フェデレートラーニング(Federated Learning)は、マルチエージェント環境における集中的なコーディネーション戦略の包括的用語として登場した。
我々は、各イテレーションにおいて、利用可能なエージェントのランダムなサブセットがそのデータに基づいてローカル更新を実行する、フェデレートされた学習モデルを考える。
集約最適化問題に対する真の最小化器上の非定常ランダムウォークモデルの下で、アーキテクチャの性能は、各エージェントにおけるデータ変動率、各エージェントにおけるモデル変動率、アルゴリズムの学習率に逆比例する追跡項の3つの要因によって決定されることを示す。
論文 参考訳(メタデータ) (2020-02-20T15:00:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。