論文の概要: Learning Sequential Decisions from Multiple Sources via Group-Robust Markov Decision Processes
- arxiv url: http://arxiv.org/abs/2602.01825v1
- Date: Mon, 02 Feb 2026 08:58:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:34.021138
- Title: Learning Sequential Decisions from Multiple Sources via Group-Robust Markov Decision Processes
- Title(参考訳): グループロバストマルコフ決定プロセスによる複数音源からの逐次決定の学習
- Authors: Mingyuan Xu, Zongqi Xia, Tianxi Cai, Doudou Zhou, Nian Si,
- Abstract要約: 本稿では,オフライン多地点データセットから堅牢な逐次意思決定ポリシーを学習することを目的とする。
クロスサイト不確実性をモデル化するために, 群線形構造を持つ分散ロバストなMDPについて検討した。
我々は,キークロスサイト構造を維持しつつ,トラクタブルなベルマン再帰を保ちながら特徴的(d-矩形)不確実性集合を導入する。
- 参考スコア(独自算出の注目度): 9.088701245020479
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We often collect data from multiple sites (e.g., hospitals) that share common structure but also exhibit heterogeneity. This paper aims to learn robust sequential decision-making policies from such offline, multi-site datasets. To model cross-site uncertainty, we study distributionally robust MDPs with a group-linear structure: all sites share a common feature map, and both the transition kernels and expected reward functions are linear in these shared features. We introduce feature-wise (d-rectangular) uncertainty sets, which preserve tractable robust Bellman recursions while maintaining key cross-site structure. Building on this, we then develop an offline algorithm based on pessimistic value iteration that includes: (i) per-site ridge regression for Bellman targets, (ii) feature-wise worst-case (row-wise minimization) aggregation, and (iii) a data-dependent pessimism penalty computed from the diagonals of the inverse design matrices. We further propose a cluster-level extension that pools similar sites to improve sample efficiency, guided by prior knowledge of site similarity. Under a robust partial coverage assumption, we prove a suboptimality bound for the resulting policy. Overall, our framework addresses multi-site learning with heterogeneous data sources and provides a principled approach to robust planning without relying on strong state-action rectangularity assumptions.
- Abstract(参考訳): 共通の構造を共有しながら異質性を示す複数のサイト(例えば病院)からデータを収集することがよくあります。
本稿では、このようなオフライン多地点データセットから、堅牢なシーケンシャルな意思決定ポリシーを学習することを目的とする。
クロスサイト不確実性をモデル化するために,グループ線形構造を持つ分散ロバストなMDPについて検討した。
我々は,キークロスサイト構造を維持しつつ,トラクタブルなベルマン再帰を保ちながら特徴的(d-矩形)不確実性集合を導入する。
これに基づいて、悲観的価値反復に基づくオフラインアルゴリズムを開発する。
(i)Bellmanターゲットのサイトごとのリッジ回帰
(二)機能的に最悪の場合(ローワイズ最小化)の集計、及び
三 逆設計行列の対角線から計算したデータ依存悲観的ペナルティ
さらに、類似サイトをプールしてサンプル効率を向上させるクラスタレベルの拡張も提案する。
頑健な部分被覆仮定の下では、結果のポリシーに拘束される準最適性を証明する。
本フレームワークは,多地点学習をヘテロジニアスなデータソースで処理し,強い状態-作用長方性仮定に頼ることなく,ロバストなプランニングに原則的アプローチを提供する。
関連論文リスト
- No-rank Tensor Decomposition Using Metric Learning [0.0]
本稿では,計量学習に基づく非ランクテンソル分解フレームワークを提案する。
フレームワークの収束に関する理論的保証を提供し、その計量特性の有界性を確立する。
提案手法は, トランスフォーマーに基づく手法と比較して, より少ないトレーニングデータセットで優れた性能を実現する。
論文 参考訳(メタデータ) (2025-11-03T18:21:53Z) - Structural Entropy Guided Probabilistic Coding [52.01765333755793]
構造エントロピー誘導型確率的符号化モデルSEPCを提案する。
我々は、構造エントロピー正規化損失を提案することにより、潜在変数間の関係を最適化に組み込む。
分類タスクと回帰タスクの両方を含む12の自然言語理解タスクに対する実験結果は、SEPCの優れた性能を示す。
論文 参考訳(メタデータ) (2024-12-12T00:37:53Z) - Generalization Bounds of Surrogate Policies for Combinatorial Optimization Problems [53.03951222945921]
我々はスムーズな(摂動された)ポリシーを解析し、線形オラクルが使用する方向に対して制御されたランダムな摂動を付加する。
我々の主な貢献は、過剰リスクを摂動バイアス、統計的推定誤差、最適化誤差に分解する一般化境界である。
車両のスケジューリングやスムーズ化がトラクタブルトレーニングと制御された一般化の両方を可能にしていることを示す。
論文 参考訳(メタデータ) (2024-07-24T12:00:30Z) - Bridging Multicalibration and Out-of-distribution Generalization Beyond Covariate Shift [44.708914058803224]
マルチキャリブレーションによるアウト・オブ・ディストリビューションの一般化のための新しいモデルに依存しない最適化フレームワークを構築した。
本稿では,マルチキャリブレーションとアウト・オブ・ディストリビューションの一般化を両立させるポストプロセッシングアルゴリズムMC-Pseudolabelを提案する。
論文 参考訳(メタデータ) (2024-06-02T08:11:35Z) - Distributionally Robust Skeleton Learning of Discrete Bayesian Networks [9.46389554092506]
我々は、潜在的に破損したデータから一般的な離散ベイズネットワークの正確なスケルトンを学習する問題を考察する。
本稿では,有界ワッサーシュタイン距離(KL)における分布群に対する最も有害なリスクを,経験的分布へのKL分散を最適化することを提案する。
本稿では,提案手法が標準正規化回帰手法と密接に関連していることを示す。
論文 参考訳(メタデータ) (2023-11-10T15:33:19Z) - Personalized PCA: Decoupling Shared and Unique Features [4.976703689624386]
異種データセットから共有特徴とユニークな特徴を分離するパーソナライズされたPCA(PerPCA)を提案する。
穏やかな条件下では、一意的特徴と共有的特徴の両方を制約付き最適化問題によって識別し、復元できることが示される。
異種データセットから共有とユニークな機能を分離するための体系的なアプローチとして、PerPCAは、ビデオセグメンテーション、トピック抽出、フィーチャークラスタリングなど、いくつかのタスクにおけるアプリケーションを見つける。
論文 参考訳(メタデータ) (2022-07-17T00:09:47Z) - Pessimism in the Face of Confounders: Provably Efficient Offline Reinforcement Learning in Partially Observable Markov Decision Processes [99.26864533035454]
半可観測マルコフ決定過程におけるオフライン強化学習(RL)について検討する。
本稿では,UnderlineProxy変数 underlinePessimistic UnderlinePolicy UnderlineOptimization (textttP3O)アルゴリズムを提案する。
textttP3Oは、確立されたデータセットを持つPOMDPのための証明可能な最初のオフラインRLアルゴリズムである。
論文 参考訳(メタデータ) (2022-05-26T19:13:55Z) - Semi-supervised Domain Adaptive Structure Learning [72.01544419893628]
半教師付きドメイン適応 (SSDA) は,1) アノテーションの低いデータに過度に適合する手法と,2) ドメイン間の分散シフトの両方を克服しなければならない課題である。
SSLとDAの協調を正規化するための適応型構造学習手法を提案する。
論文 参考訳(メタデータ) (2021-12-12T06:11:16Z) - Dynamic Federated Learning [57.14673504239551]
フェデレートラーニング(Federated Learning)は、マルチエージェント環境における集中的なコーディネーション戦略の包括的用語として登場した。
我々は、各イテレーションにおいて、利用可能なエージェントのランダムなサブセットがそのデータに基づいてローカル更新を実行する、フェデレートされた学習モデルを考える。
集約最適化問題に対する真の最小化器上の非定常ランダムウォークモデルの下で、アーキテクチャの性能は、各エージェントにおけるデータ変動率、各エージェントにおけるモデル変動率、アルゴリズムの学習率に逆比例する追跡項の3つの要因によって決定されることを示す。
論文 参考訳(メタデータ) (2020-02-20T15:00:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。