論文の概要: Foresighted Online Policy Optimization with Interference
- arxiv url: http://arxiv.org/abs/2510.15273v1
- Date: Fri, 17 Oct 2025 03:32:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-20 20:17:34.457019
- Title: Foresighted Online Policy Optimization with Interference
- Title(参考訳): 干渉を考慮したオンライン政策最適化の展望
- Authors: Liner Xiang, Jiayi Wang, Hengrui Cai,
- Abstract要約: 我々は、現在の決定がその後の決定や報奨に対する長期的な影響を革新的に検討する、干渉を伴う先見オンライン政策(FRONT)を導入する。
FRONTは2つの異なる定義の下でサブ線形後悔を達成し、決定の即時的および連続的な影響の両方を捉えている。
我々は,FRONTが大規模シミュレーションと都市ホテル利益への現実的応用を通じて,サブリニアな後悔を得ることを示す。
- 参考スコア(独自算出の注目度): 7.075948680027319
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Contextual bandits, which leverage the baseline features of sequentially arriving individuals to optimize cumulative rewards while balancing exploration and exploitation, are critical for online decision-making. Existing approaches typically assume no interference, where each individual's action affects only their own reward. Yet, such an assumption can be violated in many practical scenarios, and the oversight of interference can lead to short-sighted policies that focus solely on maximizing the immediate outcomes for individuals, which further results in suboptimal decisions and potentially increased regret over time. To address this significant gap, we introduce the foresighted online policy with interference (FRONT) that innovatively considers the long-term impact of the current decision on subsequent decisions and rewards. The proposed FRONT method employs a sequence of exploratory and exploitative strategies to manage the intricacies of interference, ensuring robust parameter inference and regret minimization. Theoretically, we establish a tail bound for the online estimator and derive the asymptotic distribution of the parameters of interest under suitable conditions on the interference network. We further show that FRONT attains sublinear regret under two distinct definitions, capturing both the immediate and consequential impacts of decisions, and we establish these results with and without statistical inference. The effectiveness of FRONT is further demonstrated through extensive simulations and a real-world application to urban hotel profits.
- Abstract(参考訳): 探索と搾取のバランスを保ちながら累積報酬を最適化するために、逐次到着した個人の基本的特徴を利用するコンテキストブレイディットは、オンライン意思決定に不可欠である。
既存のアプローチは、個々の個人の行動が自身の報酬だけに影響を及ぼすような干渉を前提としないのが一般的である。
しかし、そのような仮定は多くの現実的なシナリオで破られる可能性があり、干渉の監視は個人の即時結果を最大化することにのみ焦点を絞った短期的な政策につながり、それによってさらに過度な決定が下され、時間の経過とともに後悔が増す可能性がある。
この大きなギャップに対処するため、我々は、現在の決定がその後の決定や報奨に対する長期的な影響を革新的に考慮する干渉を伴う先見的なオンライン政策(FRONT)を導入する。
提案手法は、干渉の複雑さを管理し、堅牢なパラメータ推論と後悔の最小化を確保するために、探索的および搾取的戦略を用いている。
理論的には、オンライン推定器のテールバウンドを確立し、干渉ネットワーク上の適切な条件下での関心パラメータの漸近分布を導出する。
さらに、FRONTは2つの異なる定義の下でサブ線形後悔を達成し、決定の即時的および逐次的影響の両方を捉え、統計的推測なしでこれらの結果を確立する。
FRONTの有効性は、広範囲なシミュレーションと、都市ホテル利益への現実の応用によってさらに実証される。
関連論文リスト
- Bounded Rationality for LLMs: Satisficing Alignment at Inference-Time [52.230936493691985]
本稿では,2次基準のしきい値に基づく制約を満たしつつ,主目的を最大化し,アライメントの多面性に対処する推論フレームワークSITAlignを提案する。
我々は、満足度に基づく推論アライメントアプローチの準最適境界を導出することで理論的洞察を提供する。
論文 参考訳(メタデータ) (2025-05-29T17:56:05Z) - Online Experimental Design With Estimation-Regret Trade-off Under Network Interference [7.080131271060764]
オンライン実験設計のための統合型干渉認識フレームワークを提案する。
既存の研究と比較して、露出マッピングの統計的概念を利用して腕の空間の定義を拡張した。
また、アルゴリズムの実装を提案し、異なる学習環境とネットワークトポロジにまたがる一般化について議論する。
論文 参考訳(メタデータ) (2024-12-04T21:45:35Z) - Linear Contextual Bandits with Interference [14.835167982538053]
線形CB(LinCB)における干渉に対処するための体系的枠組みを導入する。
本稿では、報酬モデリングプロセスにおける干渉効果を明示的に定量化する一連のアルゴリズムを提案する。
提案手法の有効性をシミュレーションおよびMovieLensデータに基づく合成データを用いて実証した。
論文 参考訳(メタデータ) (2024-09-24T02:51:00Z) - Online Learning under Budget and ROI Constraints via Weak Adaptivity [57.097119428915796]
制約付きオンライン学習問題に対する既存の原始双対アルゴリズムは、2つの基本的な仮定に依存している。
このような仮定は、標準の原始双対テンプレートを弱適応的後悔最小化器で与えることによって、どのように回避できるのかを示す。
上記の2つの前提が満たされていない場合に保証される、世界の最高の保証を証明します。
論文 参考訳(メタデータ) (2023-02-02T16:30:33Z) - Online Statistical Inference in Decision-Making with Matrix Context [5.2071564436846245]
本稿では,適応的に収集したデータを用いて統計的推測を行うオンライン手法を提案する。
標準の低ランク推定器は偏りがあり、逐次的には得られない。
シーケンシャルな意思決定アルゴリズムにおける既存のアプローチは、低ランク性を考慮しておらず、バイアスもある。
論文 参考訳(メタデータ) (2022-12-21T22:03:06Z) - Offline Reinforcement Learning with Instrumental Variables in Confounded
Markov Decision Processes [93.61202366677526]
未測定の共同設立者を対象にオフライン強化学習(RL)について検討した。
そこで本稿では, 最適クラスポリシーを見つけるための, 有限サンプルの準最適性を保証した多種多様なポリシー学習手法を提案する。
論文 参考訳(メタデータ) (2022-09-18T22:03:55Z) - Off-Policy Evaluation with Policy-Dependent Optimization Response [90.28758112893054]
我々は,テキスト政治に依存した線形最適化応答を用いた非政治評価のための新しいフレームワークを開発した。
摂動法による政策依存推定のための非バイアス推定器を構築する。
因果介入を最適化するための一般的なアルゴリズムを提供する。
論文 参考訳(メタデータ) (2022-02-25T20:25:37Z) - False Correlation Reduction for Offline Reinforcement Learning [115.11954432080749]
本稿では,実効的かつ理論的に証明可能なアルゴリズムであるオフラインRLに対するfalSe Correlation Reduction (SCORE)を提案する。
SCOREは、標準ベンチマーク(D4RL)において、様々なタスクにおいて3.1倍の高速化でSoTA性能を達成することを実証的に示す。
論文 参考訳(メタデータ) (2021-10-24T15:34:03Z) - An Offline Risk-aware Policy Selection Method for Bayesian Markov
Decision Processes [0.0]
Exploitation vs. Caution (EvC) はベイズ形式主義のモデル不確実性をエレガントに取り入れたパラダイムである。
我々は,多種多様なMDPクラスを提供する異なる離散的かつシンプルな環境において,最先端のアプローチでEvCを検証する。
テストシナリオでは、EvCは堅牢なポリシーを選択することができ、実践者にとって有用なツールとして際立っている。
論文 参考訳(メタデータ) (2021-05-27T20:12:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。