論文の概要: AdaSwitch: An Adaptive Switching Meta-Algorithm for Learning-Augmented Bounded-Influence Problems
- arxiv url: http://arxiv.org/abs/2509.02302v1
- Date: Tue, 02 Sep 2025 13:26:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 15:17:04.041244
- Title: AdaSwitch: An Adaptive Switching Meta-Algorithm for Learning-Augmented Bounded-Influence Problems
- Title(参考訳): AdaSwitch: 学習拡張境界影響問題に対する適応的変換メタアルゴリズム
- Authors: Xi Chen, Yuze Chen, Yuan Zhou,
- Abstract要約: シーケンスベース予測を用いた複数周期オンライン意思決定問題のクラスについて検討する。
各期間において、意思決定者は、実現された要求を観察し、報酬を得る、またはコストを請求する不可解な措置を取らなければならない。
我々は、過去の決定と要求が将来の最適報酬に限定的な影響を与えるような、バウンド・インフルエンス・フレームワークを導入する。
本稿では,AdaSwitchメタアルゴリズムを提案する。これは,予測が正確である場合に,オフラインベンチマークに近い性能を達成するために,予測を利用する。
- 参考スコア(独自算出の注目度): 9.387255955861162
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study a class of multi-period online decision-making problems with sequence-based predictions, which may be generated by machine learning models but whose accuracy is not guaranteed. In each period, the decision-maker observes the realized request and must take an irrevocable action that yields a reward or incurs a cost, without knowledge of future arrivals. We introduce a bounded-influence framework, in which past decisions and requests exert only limited impact on the future optimal reward. Within this framework, we propose the AdaSwitch meta-algorithm, which exploits predictions to attain performance close to the offline benchmark when predictions are accurate, while preserving classical competitive-ratio guarantees under highly inaccurate predictions. Our framework and meta-algorithm apply to diverse settings, including lead-time quotation in processing systems, the $k$-server problem, and online allocation of reusable resources. These applications illustrate the flexibility and broad applicability of our approach to learning-augmented online decision-making.
- Abstract(参考訳): 本稿では,機械学習モデルによって生成されるが精度が保証されていないシーケンスベースの予測を用いた複数周期オンライン意思決定問題のクラスについて検討する。
各期間において、意思決定者は、実現された要求を観察し、将来の到着について知ることなく、報酬を得る、またはコストを請求する不可解な措置を取らなければならない。
我々は、過去の決定と要求が将来の最適報酬に限定的な影響を与えるような、バウンド・インフルエンス・フレームワークを導入する。
本稿では,AdaSwitchメタアルゴリズムを提案する。これは,予測が正確である場合に,オフラインベンチマークに近い性能を達成するために,高精度な予測の下で古典的な競合率保証を保ちながら,予測を利用する。
我々のフレームワークとメタアルゴリズムは、処理システムにおけるリードタイムの引用、$k$サーバ問題、再利用可能なリソースのオンライン割り当てなど、多様な設定に適用されます。
これらのアプリケーションは、学習強化されたオンライン意思決定に対する我々のアプローチの柔軟性と幅広い適用性を示しています。
関連論文リスト
- Aligning Learning and Endogenous Decision-Making [5.84228364962637]
内因性不確実性の下でエンド・ツー・エンドの手法を導入し、下流に気付くようにMLモデルを訓練する。
また、MLモデルの不確実性を考慮した頑健な最適化も導入する。
このロバストなアプローチが、データ関数として高い確率で、ほぼ最適決定をキャプチャできることを保証します。
論文 参考訳(メタデータ) (2025-07-01T15:22:56Z) - A Minimax-MDP Framework with Future-imposed Conditions for Learning-augmented Problems [10.827221988826484]
我々は,機械学習アルゴリズムによってもたらされる可能性のある,拡張予測を用いた逐次決定問題のクラスについて検討する。
この設定では、意思決定者は、時間とともに徐々に洗練される未知のパラメータの予測間隔を受信する。
我々は,システム状態が逆向きに変化する環境状態と,意思決定者が制御する内部状態とから構成されるミニマックスマルコフ決定プロセス(minimax-MDP)フレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-02T03:28:35Z) - Online Conformal Probabilistic Numerics via Adaptive Edge-Cloud Offloading [52.499838151272016]
本研究は, PLS が生成する HPD 集合を, 長期のカバレッジ要件を保証するため, キャリブレーションする手法を提案する。
提案手法は,クラウドからエッジへの散発的なフィードバックを前提としたオンライン共形予測PLS (OCP-PLS) と呼ばれる。
OCP-PLSの有効性は、カバレッジ、予測セットサイズ、クラウド利用のトレードオフに関する洞察をもたらす実験を通じて検証される。
論文 参考訳(メタデータ) (2025-03-18T17:30:26Z) - Optimal Baseline Corrections for Off-Policy Contextual Bandits [61.740094604552475]
オンライン報酬指標の偏りのないオフライン推定を最適化する意思決定ポリシーを学習することを目指している。
学習シナリオにおける同値性に基づく単一のフレームワークを提案する。
我々のフレームワークは、分散最適非バイアス推定器の特徴付けを可能にし、それに対する閉形式解を提供する。
論文 参考訳(メタデータ) (2024-05-09T12:52:22Z) - Online Algorithms with Uncertainty-Quantified Predictions [11.951228732915936]
オンラインアルゴリズムの設計における不確実性定量化予測を最適に活用する問題について検討する。
特に,スキーレンタルとオンライン検索の2つの古典的オンライン問題について検討した。
我々は、UQ予測を完全に活用するために、アルゴリズム設計への非自明な修正が必要であることを実証する。
論文 参考訳(メタデータ) (2023-10-17T20:09:41Z) - Optimizing Credit Limit Adjustments Under Adversarial Goals Using
Reinforcement Learning [42.303733194571905]
我々は、強化学習技術を用いて最適なクレジットカード制限調整ポリシーを発見し、自動化することを模索する。
本研究は、信用限度調整に強化学習フレームワークを適用するための概念構造を確立する。
論文 参考訳(メタデータ) (2023-06-27T16:10:36Z) - Online Learning under Budget and ROI Constraints via Weak Adaptivity [57.097119428915796]
制約付きオンライン学習問題に対する既存の原始双対アルゴリズムは、2つの基本的な仮定に依存している。
このような仮定は、標準の原始双対テンプレートを弱適応的後悔最小化器で与えることによって、どのように回避できるのかを示す。
上記の2つの前提が満たされていない場合に保証される、世界の最高の保証を証明します。
論文 参考訳(メタデータ) (2023-02-02T16:30:33Z) - Online Caching with no Regret: Optimistic Learning via Recommendations [15.877673959068458]
ファイル要求の予測を含むFTRL(Follow-the-Regularized-Leader)フレームワークを構築した。
フレームワークを拡張して、多くが利用可能な場合に最適な要求予測器を学習し、利用します。
提案した楽観的な学習キャッシュポリシが,完全予測のためのサブゼロ性能損失(regret)を達成できることを実証する。
論文 参考訳(メタデータ) (2022-04-20T09:29:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。