論文の概要: A Learning-Based Hybrid Decision Framework for Matching Systems with User Departure Detection
- arxiv url: http://arxiv.org/abs/2602.22412v1
- Date: Wed, 25 Feb 2026 21:06:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-27 18:41:22.409601
- Title: A Learning-Based Hybrid Decision Framework for Matching Systems with User Departure Detection
- Title(参考訳): ユーザ分割検出を伴うマッチングシステムのための学習型ハイブリッド決定フレームワーク
- Authors: Ruiqi Zhou, Donghao Zhu, Houcai Shen,
- Abstract要約: 遅延マッチングは市場全体の効率を改善することが示されている。
本稿では,即時マッチングと遅延マッチングを適応的に組み合わせた学習ベースのハイブリッドフレームワークを提案する。
- 参考スコア(独自算出の注目度): 0.2730969268472861
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In matching markets such as kidney exchanges and freight exchanges, delayed matching has been shown to improve overall market efficiency. The benefits of delay are highly sensitive to participants' sojourn times and departure behavior, and delaying matches can impose significant costs, including longer waiting times and increased market congestion. These competing effects make fixed matching policies inherently inflexible in dynamic environments. We propose a learning-based Hybrid framework that adaptively combines immediate and delayed matching. The framework continuously collects data on user departures over time, estimates the underlying departure distribution via regression, and determines whether to delay matching in the subsequent period based on a decision threshold that governs the system's tolerance for matching efficiency loss. The proposed framework can substantially reduce waiting times and congestion while sacrificing only a limited amount of matching efficiency. By dynamically adjusting its matching strategy, the Hybrid framework enables system performance to flexibly interpolate between purely greedy and purely patient policies, offering a robust and adaptive alternative to static matching mechanisms.
- Abstract(参考訳): 腎臓取引や貨物取引のようなマッチング市場において、遅延マッチングは市場全体の効率を改善することが示されている。
遅延の利点は、参加者の休業時間や出発行動に非常に敏感であり、遅延マッチは、待ち時間や市場の混雑の増加など、かなりのコストを課す可能性がある。
これらの競合する効果は、動的環境において固定マッチングポリシーを本質的に非フレキシブルにする。
本稿では,即時マッチングと遅延マッチングを適応的に組み合わせた学習ベースのハイブリッドフレームワークを提案する。
フレームワークは、時間とともにユーザの離脱に関するデータを連続的に収集し、回帰によって基礎となる離脱分布を推定し、システムの効率損失に対する耐性を規定する決定しきい値に基づいて、その後の期間の遅延マッチングを決定する。
提案手法は,限られたマッチング効率を犠牲にしつつ,待ち時間や混雑を著しく低減することができる。
マッチング戦略を動的に調整することにより、Hybridフレームワークはシステムパフォーマンスを純粋に欲求と純粋に患者ポリシーの間を柔軟に補間し、静的マッチングメカニズムに代わる堅牢で適応的な代替手段を提供する。
関連論文リスト
- TempoNet: Slack-Quantized Transformer-Guided Reinforcement Scheduler for Adaptive Deadline-Centric Real-Time Dispatchs [8.818252253980985]
TempoNetは、置換不変トランスフォーマーと深いQ近似を組み合わせた強化学習スケジューラである。
ブロックワイズのトップk選択と局所性に敏感なチャンキングを備えた遅延対応スパースアテンションスタックは、順序のないタスクセットに対するグローバルな推論を可能にする。
論文 参考訳(メタデータ) (2026-02-20T09:56:23Z) - RAST-MoE-RL: A Regime-Aware Spatio-Temporal MoE Framework for Deep Reinforcement Learning in Ride-Hailing [11.542008509248836]
RAST-MoE(Regime-of-Experts)は、自己注意型MoEエンコーダを備えた状態認識型MDPとして適応遅延マッチングを形式化する。
物理インフォームド・渋滞は、現実的な密度-速度フィードバックを保ち、数百万の効率的なロールアウトを可能にし、適応的な報酬スキームは、病理戦略から保護する。
論文 参考訳(メタデータ) (2025-12-13T20:49:15Z) - Bi-Level Contextual Bandits for Individualized Resource Allocation under Delayed Feedback [3.0294344089697596]
本稿では,遅延フィードバック下での資源割り当てを個別化するための,新しい双方向コンテキスト帯域化フレームワークを提案する。
本研究は, 制度政策と社会福祉を改善するための遅延認識型意思決定システムの可能性を明らかにするものである。
論文 参考訳(メタデータ) (2025-11-13T18:09:08Z) - Steerable Adversarial Scenario Generation through Test-Time Preference Alignment [58.37104890690234]
対立シナリオ生成は、自律運転システムの安全性評価のためのコスト効率の良いアプローチである。
textbfSteerable textbfAdversarial scenario textbfGEnerator (SAGE) という新しいフレームワークを導入する。
SAGEは、逆境とリアリズムの間のトレードオフを、再トレーニングなしできめ細かいテストタイムコントロールを可能にします。
論文 参考訳(メタデータ) (2025-09-24T13:27:35Z) - STARec: An Efficient Agent Framework for Recommender Systems via Autonomous Deliberate Reasoning [54.28691219536054]
我々は、自律的な熟考的推論機能を備えたレコメンデータシステムを支援する、ゆっくり考えられた拡張エージェントフレームワークSTARecを紹介する。
我々は,先進的推論モデルと嗜好整合型報酬形成から構造化知識の蒸留を組み合わせた2段階のパラダイムであるアンカー強化訓練を開発する。
MovieLens 1MとAmazon CDsベンチマークの実験では、STARecは最先端のベースラインと比較して、大幅なパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2025-08-26T08:47:58Z) - Adaptive Deadline and Batch Layered Synchronized Federated Learning [66.93447103966439]
フェデレートラーニング(FL)は、データプライバシを保持しながら、分散エッジデバイス間で協調的なモデルトレーニングを可能にする。
我々は,レイヤワイドアグリゲーションのために,ラウンド単位の期限とユーザ固有のバッチサイズを共同で最適化する新しいフレームワークADEL-FLを提案する。
論文 参考訳(メタデータ) (2025-05-29T19:59:18Z) - Timing the Match: A Deep Reinforcement Learning Approach for Ride-Hailing and Ride-Pooling Services [17.143444035884386]
本稿では、リアルタイムシステム条件に基づいていつマッチングを行うかを決定するために、深層強化学習(RL)を用いた適応型ライドマッチング戦略を提案する。
本手法は,システム状態の評価を継続的に行い,全乗客待ち時間を最小化するタイミングでマッチングを実行する。
論文 参考訳(メタデータ) (2025-03-17T14:07:58Z) - Client Orchestration and Cost-Efficient Joint Optimization for
NOMA-Enabled Hierarchical Federated Learning [55.49099125128281]
半同期クラウドモデルアグリゲーションの下で非直交多重アクセス(NOMA)を実現するHFLシステムを提案する。
提案手法は,HFLの性能改善と総コスト削減に関するベンチマークよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-11-03T13:34:44Z) - Non-stationary Delayed Combinatorial Semi-Bandit with Causally Related
Rewards [7.0997346625024]
我々は、因果関係の報酬で非定常かつ遅延半帯域問題を定式化する。
遅延したフィードバックから構造的依存関係を学習し、それを利用して意思決定を最適化する政策を開発する。
イタリアにおけるCovid-19の拡散に最も寄与する地域を検出するために, 合成および実世界のデータセットを用いて数値解析により評価を行った。
論文 参考訳(メタデータ) (2023-07-18T09:22:33Z) - Improper Learning with Gradient-based Policy Optimization [62.50997487685586]
未知のマルコフ決定過程に対して学習者がmベースコントローラを与えられる不適切な強化学習設定を考える。
制御器の不適切な混合のクラス上で動作する勾配に基づくアプローチを提案する。
論文 参考訳(メタデータ) (2021-02-16T14:53:55Z) - Multi-Stage Decentralized Matching Markets: Uncertain Preferences and
Strategic Behaviors [91.3755431537592]
本稿では、現実世界のマッチング市場で最適な戦略を学ぶためのフレームワークを開発する。
我々は,不確実性レベルが特徴の福祉対フェアネストレードオフが存在することを示す。
シングルステージマッチングと比較して、マルチステージマッチングで参加者がより良くなることを証明します。
論文 参考訳(メタデータ) (2021-02-13T19:25:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。