論文の概要: Near-Optimal Dynamic Matching via Coarsening with Application to Heart Transplantation
- arxiv url: http://arxiv.org/abs/2602.04989v2
- Date: Fri, 06 Feb 2026 02:29:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-09 14:54:43.07756
- Title: Near-Optimal Dynamic Matching via Coarsening with Application to Heart Transplantation
- Title(参考訳): 粗大化による局所最適動的マッチングと心臓移植への応用
- Authors: Itai Zilberstein, Ioannis Anagnostides, Zachary W. Sollie, Arman Kilic, Tuomas Sandholm,
- Abstract要約: 我々は粗いアプローチに基づく新しいオンラインマッチングアルゴリズムを開発した。
オフラインノードを静電容量クラスタに集約することで、ほぼ最適理論的保証が得られることを示す。
- 参考スコア(独自算出の注目度): 45.83272225462161
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Online matching has been a mainstay in domains such as Internet advertising and organ allocation, but practical algorithms often lack strong theoretical guarantees. We take an important step toward addressing this by developing new online matching algorithms based on a coarsening approach. Although coarsening typically implies a loss of granularity, we show that, to the contrary, aggregating offline nodes into capacitated clusters can yield near-optimal theoretical guarantees. We apply our methodology to heart transplant allocation to develop theoretically grounded policies based on structural properties of historical data. Furthermore, in simulations based on real data, our policy closely matches the performance of the omniscient benchmark, achieving competitive ratio 0.91, drastically higher than the US status quo policy's 0.51. Our work bridges the gap between data-driven heuristics and pessimistic theoretical lower bounds.
- Abstract(参考訳): オンラインマッチングはインターネット広告やオルガンアロケーションといった領域では主要な役割を担っているが、実用的なアルゴリズムは理論上の保証を欠いていることが多い。
我々は、粗いアプローチに基づいた新しいオンラインマッチングアルゴリズムを開発することで、この問題に対処するための重要な一歩を踏み出した。
粗大化は典型的には粒度の減少を意味するが、逆に、オフラインノードを静電容量クラスタに集約することで、ほぼ最適理論上の保証が得られることを示す。
本手法を心臓移植割当に適用し, 歴史的データの構造的特性に基づく理論的根拠を持つ政策を立案する。
さらに,実データに基づくシミュレーションでは,我々の政策は全能ベンチマークの性能と密接に一致し,競争率0.91を達成し,米国の現状クオ政策0.51よりも大幅に高い結果を得た。
我々の研究は、データ駆動ヒューリスティックと悲観的理論的下界の間のギャップを埋める。
関連論文リスト
- Learning Optimal and Sample-Efficient Decision Policies with Guarantees [3.096615629099617]
この論文は、隠れた共同創設者の存在下で、オフラインデータセットから学ぶことの問題を解決する。
コンバージェンスと最適性を保証する条件付きモーメント制約問題の解法として,サンプル効率のアルゴリズムを導出する。
また,収束率保証を伴う効果的な模倣者ポリシーを学習するアルゴリズムも開発している。
論文 参考訳(メタデータ) (2026-02-20T04:24:49Z) - Decentralized Learning Strategies for Estimation Error Minimization with Graph Neural Networks [86.99017195607077]
無線ネットワークにおける自己回帰的マルコフ音源のリアルタイムサンプリングと推定について検討する。
政策最適化のためのグラフィカル強化学習フレームワークを提案する。
理論的には、提案したポリシーは転送可能であり、あるグラフ上で訓練されたポリシーを構造的に類似したグラフに効果的に適用することができる。
論文 参考訳(メタデータ) (2026-01-19T02:18:45Z) - Adversarial Policy Optimization for Offline Preference-based Reinforcement Learning [8.087699764574788]
オフライン優先型強化学習(PbRL)のための効率的なアルゴリズムを提案する。
APPOは、明示的な信頼セットに頼ることなく、サンプルの複雑性境界を保証する。
我々の知る限り、APPOは統計的効率と実用性の両方を提供する最初のオフラインPbRLアルゴリズムである。
論文 参考訳(メタデータ) (2025-03-07T10:35:01Z) - Iterative Preference Learning from Human Feedback: Bridging Theory and Practice for RLHF under KL-Constraint [56.74058752955209]
本稿では,RLHFによる強化学習を用いた生成モデルのアライメント過程について検討する。
まず、オフラインPPOやオフラインDPOのような既存の一般的な手法の主な課題を、環境の戦略的探索に欠如していると認識する。
有限サンプル理論保証を用いた効率的なアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-12-18T18:58:42Z) - Importance Weighted Actor-Critic for Optimal Conservative Offline
Reinforcement Learning [23.222448307481073]
データカバレッジが不十分な複雑な環境でのオフライン強化学習(RL)のための新しい実践的アルゴリズムを提案する。
本アルゴリズムは,重要度抽出フレームワークとアクター批判パラダイムを併用する。
提案アルゴリズムの有効性を検証するため,理論的解析と実験結果の両方を提供する。
論文 参考訳(メタデータ) (2023-01-30T07:53:53Z) - Offline Policy Evaluation and Optimization under Confounding [35.778917456294046]
構築されたMDPのオフライン政策評価の状況について概説する。
一貫性のある値推定が達成不可能な設定を特徴付ける。
オフライン政策改善のための新しいアルゴリズムを提案し、局所収束保証を証明する。
論文 参考訳(メタデータ) (2022-11-29T20:45:08Z) - Federated Offline Reinforcement Learning [55.326673977320574]
マルチサイトマルコフ決定プロセスモデルを提案する。
我々は,オフラインRLを対象とした最初のフェデレーション最適化アルゴリズムを設計する。
提案アルゴリズムでは,学習ポリシーの準最適性は,データが分散していないような速度に匹敵する,理論的保証を与える。
論文 参考訳(メタデータ) (2022-06-11T18:03:26Z) - A Regularized Implicit Policy for Offline Reinforcement Learning [54.7427227775581]
オフラインの強化学習は、環境とのさらなるインタラクションなしに、固定データセットから学習を可能にする。
フレキシブルだが十分に調整された完全実装ポリシーの学習を支援するフレームワークを提案する。
D4RLデータセットの実験とアブレーション研究により、我々のフレームワークとアルゴリズム設計の有効性が検証された。
論文 参考訳(メタデータ) (2022-02-19T20:22:04Z) - False Correlation Reduction for Offline Reinforcement Learning [115.11954432080749]
本稿では,実効的かつ理論的に証明可能なアルゴリズムであるオフラインRLに対するfalSe Correlation Reduction (SCORE)を提案する。
SCOREは、標準ベンチマーク(D4RL)において、様々なタスクにおいて3.1倍の高速化でSoTA性能を達成することを実証的に示す。
論文 参考訳(メタデータ) (2021-10-24T15:34:03Z) - Model-Free Learning of Optimal Deterministic Resource Allocations in
Wireless Systems via Action-Space Exploration [4.721069729610892]
本稿では,最適パラメータ化資源割り当てポリシーを効率的に学習するための,技術的基盤と拡張性のある2次元勾配法を提案する。
提案手法は, 深層ネットワークなどの一般的な普遍表現の勾配を効率よく活用するだけでなく, 低次元摂動により構築された関連するランダムネットワークサービスのゼロ階勾配近似を一貫したゼロ階勾配近似に頼っているため, 真のモデルフリーである。
論文 参考訳(メタデータ) (2021-08-23T18:26:16Z) - COMBO: Conservative Offline Model-Based Policy Optimization [120.55713363569845]
ディープニューラルネットワークのような複雑なモデルによる不確実性推定は困難であり、信頼性が低い。
我々は,サポート外状態動作の値関数を正規化するモデルベースオフラインRLアルゴリズムCOMBOを開発した。
従来のオフラインモデルフリーメソッドやモデルベースメソッドと比べて、comboは一貫してパフォーマンスが良いことが分かりました。
論文 参考訳(メタデータ) (2021-02-16T18:50:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。