論文の概要: Finite-Time Guarantees for Multi-Agent Combinatorial Bandits with Nonstationary Rewards
- arxiv url: http://arxiv.org/abs/2508.20923v1
- Date: Thu, 28 Aug 2025 15:51:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-29 18:12:02.494729
- Title: Finite-Time Guarantees for Multi-Agent Combinatorial Bandits with Nonstationary Rewards
- Title(参考訳): 非定常リワードを有する多元組合せ帯域の有限時間保証
- Authors: Katherine B. Adams, Justin J. Boutilier, Qinyang He, Yonatan Mintz,
- Abstract要約: 意思決定者が各期間にエージェントのサブセットを選択して、個々のレベルの影響を事前に知ることなく、全体の結果を最大化する、逐次的なリソース割り当て問題について検討する。
当社の枠組みは、地域保健介入、ターゲットデジタル広告、労働維持プログラムなどの設定に適用される。
- 参考スコア(独自算出の注目度): 0.8166364251367625
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study a sequential resource allocation problem where a decision maker selects subsets of agents at each period to maximize overall outcomes without prior knowledge of individual-level effects. Our framework applies to settings such as community health interventions, targeted digital advertising, and workforce retention programs, where intervention effects evolve dynamically. Agents may exhibit habituation (diminished response from frequent selection) or recovery (enhanced response from infrequent selection). The technical challenge centers on nonstationary reward distributions that lead to changing intervention effects over time. The problem requires balancing two key competing objectives: heterogeneous individual rewards and the exploration-exploitation tradeoff in terms of learning for improved future decisions as opposed to maximizing immediate outcomes. Our contribution introduces the first framework incorporating this form of nonstationary rewards in the combinatorial multi-armed bandit literature. We develop algorithms with theoretical guarantees on dynamic regret and demonstrate practical efficacy through a diabetes intervention case study. Our personalized community intervention algorithm achieved up to three times as much improvement in program enrollment compared to baseline approaches, validating the framework's potential for real-world applications. This work bridges theoretical advances in adaptive learning with practical challenges in population-level behavioral change interventions.
- Abstract(参考訳): 意思決定者が各期間にエージェントのサブセットを選択して、個々のレベルの影響を事前に知ることなく、全体の結果を最大化する、逐次的なリソース割り当て問題について検討する。
我々の枠組みは、地域保健介入、ターゲットデジタル広告、および介入効果が動的に進化する労働維持プログラムなどの設定に適用される。
エージェントは、習慣(頻繁な選択による減少した反応)または回復(頻繁な選択からの増大した反応)を示すことができる。
技術的課題は、時間とともに介入効果を変化させる非定常報酬分布に焦点を当てている。
この問題は、2つの主要な競合する目標のバランスをとる必要がある:不均一な個人報酬と、即時結果の最大化とは対照的に、将来の意思決定を改善するための学習の観点からの探索・探索のトレードオフである。
コントリビューションでは,この形態の非定常報酬を組合せ多武装バンディット文学に取り入れた最初のフレームワークを紹介した。
本研究では, ダイナミックな後悔を理論的に保証したアルゴリズムを開発し, 糖尿病介入症例スタディを通じて, 実践的有効性を示す。
我々の個人化されたコミュニティ介入アルゴリズムは、ベースラインアプローチに比べてプログラムの登録率を最大3倍に向上させ、現実世界のアプリケーションに対するフレームワークの可能性を検証する。
この研究は、適応学習の理論的進歩と、集団レベルの行動変化介入の実践的課題を橋渡しする。
関連論文リスト
- Preference-Based Multi-Agent Reinforcement Learning: Data Coverage and Algorithmic Techniques [65.55451717632317]
PbMARL(Preference-based Multi-Agent Reinforcement Learning)について検討する。
一般ゲームにおける嗜好のみのオフラインデータセットからナッシュ平衡を同定する。
以上の結果から,PbMARLの多面的アプローチが示唆された。
論文 参考訳(メタデータ) (2024-09-01T13:14:41Z) - Reduced-Rank Multi-objective Policy Learning and Optimization [57.978477569678844]
実際には、因果研究者は先験を念頭において1つの結果を持っていない。
政府支援の社会福祉プログラムでは、政策立案者は貧困の多次元的性質を理解するために多くの成果を集めている。
本稿では、最適政策学習の文脈において、複数の結果に対するデータ駆動型次元性推論手法を提案する。
論文 参考訳(メタデータ) (2024-04-29T08:16:30Z) - Setting the Right Expectations: Algorithmic Recourse Over Time [16.930905275894183]
本稿では,連続的に変化する環境がアルゴリズムの会話に与える影響を研究するためのエージェント・ベース・シミュレーション・フレームワークを提案する。
この結果から,特定のパラメータ化の小さなセットだけが,時間とともにエージェントに信頼性のあるアルゴリズム的リコースをもたらすことが明らかとなった。
論文 参考訳(メタデータ) (2023-09-13T14:04:15Z) - Bandit approach to conflict-free multi-agent Q-learning in view of
photonic implementation [0.0]
従来の研究では、光子の量子干渉を使って競合する多重武装バンディットの問題を解決してきた。
本研究は,より汎用的なマルチエージェント強化学習への従来のアプローチを拡張した。
成功したフォトニック強化学習方式は、学習の質に寄与するフォトニックシステムと適切なアルゴリズムの両方を必要とする。
論文 参考訳(メタデータ) (2022-12-20T00:27:29Z) - Influencing Long-Term Behavior in Multiagent Reinforcement Learning [59.98329270954098]
時間的アプローチが無限に近づくと、他のエージェントの制限ポリシーを考えるための原則的枠組みを提案する。
具体的には、各エージェントの行動が他のエージェントが行うポリシーの制限セットに与える影響を直接考慮し、各エージェントの平均報酬を最大化する新しい最適化目標を開発する。
我々の遠視評価により、様々な領域における最先端のベースラインよりも長期的性能が向上した。
論文 参考訳(メタデータ) (2022-03-07T17:32:35Z) - Contingency-Aware Influence Maximization: A Reinforcement Learning
Approach [52.109536198330126]
インフルエンス(IM)問題は、インフルエンスの普及を最大化する、ソーシャルネットワーク内のシードノードのサブセットを見つけることを目的としている。
本研究では、招待されたノードがシードであるかどうかが不確実なIM問題(contingency-aware IM)に焦点をあてる。
最初の成功にもかかわらず、より多くのコミュニティへのソリューションの推進における大きな実践上の障害は、欲張りのアルゴリズムの巨大な実行時である。
論文 参考訳(メタデータ) (2021-06-13T16:42:22Z) - End-to-End Learning and Intervention in Games [60.41921763076017]
ゲームにおける学習と介入のための統一的なフレームワークを提供する。
明示的および暗黙的な区別に基づく2つのアプローチを提案する。
分析結果は、実世界のいくつかの問題を用いて検証される。
論文 参考訳(メタデータ) (2020-10-26T18:39:32Z) - Unified Models of Human Behavioral Agents in Bandits, Contextual Bandits
and RL [28.38826379640553]
逐次的意思決定のためのより汎用的で柔軟なパラメトリック・フレームワークを提案する。
多くの精神疾患の既往の報酬処理異常にインスパイアされ、臨床にインスパイアされたエージェントは興味深い行動軌跡を示した。
論文 参考訳(メタデータ) (2020-05-10T01:43:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。