論文の概要: Online Matching via Reinforcement Learning: An Expert Policy Orchestration Strategy
- arxiv url: http://arxiv.org/abs/2510.06515v1
- Date: Tue, 07 Oct 2025 23:26:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-09 16:41:20.225267
- Title: Online Matching via Reinforcement Learning: An Expert Policy Orchestration Strategy
- Title(参考訳): 強化学習によるオンラインマッチング: エキスパートポリシーオーケストレーション戦略
- Authors: Chiara Mignacco, Matthieu Jonckheere, Gilles Stoltz,
- Abstract要約: 本稿では,そのような専門家政策の集合を組織化する強化学習(RL)手法を提案する。
我々は、期待と高確率の後悔の保証を確立し、時間差学習のための新しい有限時間バイアスを導出する。
その結果、構造化された適応型学習が複雑な資源配分と意思決定プロセスのモデリングと管理をいかに改善するかを強調した。
- 参考スコア(独自算出の注目度): 5.913458789333235
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Online matching problems arise in many complex systems, from cloud services and online marketplaces to organ exchange networks, where timely, principled decisions are critical for maintaining high system performance. Traditional heuristics in these settings are simple and interpretable but typically tailored to specific operating regimes, which can lead to inefficiencies when conditions change. We propose a reinforcement learning (RL) approach that learns to orchestrate a set of such expert policies, leveraging their complementary strengths in a data-driven, adaptive manner. Building on the Adv2 framework (Jonckheere et al., 2024), our method combines expert decisions through advantage-based weight updates and extends naturally to settings where only estimated value functions are available. We establish both expectation and high-probability regret guarantees and derive a novel finite-time bias bound for temporal-difference learning, enabling reliable advantage estimation even under constant step size and non-stationary dynamics. To support scalability, we introduce a neural actor-critic architecture that generalizes across large state spaces while preserving interpretability. Simulations on stochastic matching models, including an organ exchange scenario, show that the orchestrated policy converges faster and yields higher system level efficiency than both individual experts and conventional RL baselines. Our results highlight how structured, adaptive learning can improve the modeling and management of complex resource allocation and decision-making processes.
- Abstract(参考訳): オンラインマッチング問題は、クラウドサービスやオンラインマーケットプレース、組織交換ネットワークなど、多くの複雑なシステムで発生します。
これらの設定における伝統的なヒューリスティックは単純で解釈可能であるが、通常は特定の運用体制に合わせて調整されており、状況が変化すると効率が低下する可能性がある。
本稿では,データ駆動型適応方式で補完的な強みを生かして,そのような専門家政策の集合を編成することを学ぶ強化学習(RL)アプローチを提案する。
提案手法は,Adv2フレームワーク(Jonckheere et al , 2024)上に構築され, 優位性に基づく重み付けによって専門家の判断を組み合わせ, 推定値関数のみが利用可能な設定まで自然に拡張する。
我々は期待と高確率の後悔の保証を共に確立し、時間差学習のための新しい有限時間バイアスを導出し、一定のステップサイズや非定常力学の下でも信頼性の高い優位性推定を可能にする。
拡張性をサポートするために,解釈可能性を維持しつつ,大規模状態空間をまたいで一般化するニューラルアクタ・クリティックアーキテクチャを導入する。
オルガン交換シナリオを含む確率的マッチングモデルのシミュレーションは、オーケストレーションされたポリシーがより早く収束し、個々の専門家と従来のRLベースラインの両方よりも高いシステムレベルの効率が得られることを示している。
その結果、構造化された適応型学習が、複雑な資源配分と意思決定プロセスのモデリングと管理をいかに改善するかを強調した。
関連論文リスト
- Adaptive Reinforcement Learning for Dynamic Configuration Allocation in Pre-Production Testing [4.370892281528124]
本稿では, コンフィグレーション割り当てを逐次決定問題として再放送する, 新たな強化学習フレームワークを提案する。
提案手法は,Q-ラーニングをシミュレーション結果とリアルタイムフィードバックを融合したハイブリッド報酬設計と統合する最初の方法である。
論文 参考訳(メタデータ) (2025-10-02T05:12:28Z) - Adaptive Approach to Enhance Machine Learning Scheduling Algorithms During Runtime Using Reinforcement Learning in Metascheduling Applications [0.0]
本稿では,メタスケジューラに組み込まれた適応型オンライン学習ユニットを提案する。
オンラインモードでは、強化学習は、新しいスケジューリングソリューションを継続的に探索し発見することで、重要な役割を果たす。
オンライン学習ユニット内にいくつかのRLモデルが実装され、それぞれがスケジューリングの特定の課題に対処するように設計された。
論文 参考訳(メタデータ) (2025-09-24T19:46:22Z) - STARec: An Efficient Agent Framework for Recommender Systems via Autonomous Deliberate Reasoning [54.28691219536054]
我々は、自律的な熟考的推論機能を備えたレコメンデータシステムを支援する、ゆっくり考えられた拡張エージェントフレームワークSTARecを紹介する。
我々は,先進的推論モデルと嗜好整合型報酬形成から構造化知識の蒸留を組み合わせた2段階のパラダイムであるアンカー強化訓練を開発する。
MovieLens 1MとAmazon CDsベンチマークの実験では、STARecは最先端のベースラインと比較して、大幅なパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2025-08-26T08:47:58Z) - Meta-learning Structure-Preserving Dynamics [6.088897644268474]
本稿では,潜在的に未知のシステムパラメータのコンパクトな潜在表現に対して,構造保存モデルを記述する変調に基づくメタラーニングフレームワークを提案する。
動的システムのパラメトリックファミリをまたいだスケーラブルで一般化可能な学習を可能にする。
論文 参考訳(メタデータ) (2025-08-15T04:30:27Z) - Scalable In-Context Q-Learning [68.9917436397079]
textbfScalable textbfIn-textbfContext textbfQ-textbfLearning (textbfSICQL)を提案する。
textbfSICQLは動的プログラミングとワールドモデリングを利用して、ICRLを効率的な報酬とタスクの一般化に向けて制御する。
論文 参考訳(メタデータ) (2025-06-02T04:21:56Z) - Microservices-Based Framework for Predictive Analytics and Real-time Performance Enhancement in Travel Reservation Systems [1.03590082373586]
本稿では,リアルタイム旅行予約システムの性能向上を目的としたアーキテクチャの枠組みを提案する。
私たちのフレームワークには、顧客の需要予測を最適化する機械学習モデルによるリアルタイム予測分析、動的価格設定、システムパフォーマンスが含まれています。
今後は、高度なAIモデルとエッジ処理を調査して、採用するシステムのパフォーマンスと堅牢性をさらに向上する予定である。
論文 参考訳(メタデータ) (2024-12-20T07:19:42Z) - Continual Task Learning through Adaptive Policy Self-Composition [54.95680427960524]
CompoFormerは構造ベースの連続トランスフォーマーモデルであり、メタポリシックネットワークを介して、以前のポリシーを適応的に構成する。
実験の結果,CompoFormerは従来の継続学習法(CL)よりも優れており,特にタスクシーケンスが長いことが判明した。
論文 参考訳(メタデータ) (2024-11-18T08:20:21Z) - Resilient Constrained Learning [94.27081585149836]
本稿では,学習課題を同時に解決しながら,要求に適応する制約付き学習手法を提案する。
我々はこの手法を、その操作を変更することで破壊に適応する生態システムを記述する用語に因んで、レジリエントな制約付き学習と呼ぶ。
論文 参考訳(メタデータ) (2023-06-04T18:14:18Z) - Stabilizing Q-learning with Linear Architectures for Provably Efficient
Learning [53.17258888552998]
本研究では,線形関数近似を用いた基本的な$Q$-learningプロトコルの探索変種を提案する。
このアルゴリズムの性能は,新しい近似誤差というより寛容な概念の下で,非常に優雅に低下することを示す。
論文 参考訳(メタデータ) (2022-06-01T23:26:51Z) - Recursive Experts: An Efficient Optimal Mixture of Learning Systems in
Dynamic Environments [0.0]
逐次学習システムは、意思決定から最適化まで、幅広い問題で使われている。
目的は、自然のフィードバック(状態)に固有の時間的関係を利用して目標に達することである。
本稿では,一般的な逐次学習システムのための最適混合フレームワークを提案する。
論文 参考訳(メタデータ) (2020-09-19T15:02:27Z) - Dynamic Federated Learning [57.14673504239551]
フェデレートラーニング(Federated Learning)は、マルチエージェント環境における集中的なコーディネーション戦略の包括的用語として登場した。
我々は、各イテレーションにおいて、利用可能なエージェントのランダムなサブセットがそのデータに基づいてローカル更新を実行する、フェデレートされた学習モデルを考える。
集約最適化問題に対する真の最小化器上の非定常ランダムウォークモデルの下で、アーキテクチャの性能は、各エージェントにおけるデータ変動率、各エージェントにおけるモデル変動率、アルゴリズムの学習率に逆比例する追跡項の3つの要因によって決定されることを示す。
論文 参考訳(メタデータ) (2020-02-20T15:00:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。