論文の概要: Generalized Fitted Q-Iteration with Clustered Data
- arxiv url: http://arxiv.org/abs/2510.03912v1
- Date: Sat, 04 Oct 2025 19:33:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:52:59.338362
- Title: Generalized Fitted Q-Iteration with Clustered Data
- Title(参考訳): クラスタデータを用いた一般化されたQ-Iteration
- Authors: Liyuan Hu, Jitao Wang, Zhenke Wu, Chengchun Shi,
- Abstract要約: 本稿では、一般化された推定方程式をポリシー学習に組み込む一般化適合Q-iteration(FQI)アルゴリズムを提案する。
提案した一般化された FQI は,標準 FQI と比較して平均して半減する。
- 参考スコア(独自算出の注目度): 11.99141704716042
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper focuses on reinforcement learning (RL) with clustered data, which is commonly encountered in healthcare applications. We propose a generalized fitted Q-iteration (FQI) algorithm that incorporates generalized estimating equations into policy learning to handle the intra-cluster correlations. Theoretically, we demonstrate (i) the optimalities of our Q-function and policy estimators when the correlation structure is correctly specified, and (ii) their consistencies when the structure is mis-specified. Empirically, through simulations and analyses of a mobile health dataset, we find the proposed generalized FQI achieves, on average, a half reduction in regret compared to the standard FQI.
- Abstract(参考訳): 本稿では、医療アプリケーションでよく見られるクラスタ化されたデータを用いた強化学習(RL)に焦点を当てる。
一般化された推定方程式をポリシ学習に組み込んでクラスタ内相関を扱う一般化適合Q-iteration(FQI)アルゴリズムを提案する。
理論的には
一 相関構造が正しく特定されたときのQ-関数と政策推定器の最適性、及び
(二 構造が誤って特定された場合。)
実験によって,モバイルヘルスデータセットのシミュレーションと分析により,提案した一般化されたFQIが,標準のFQIに比べて平均して半減することがわかった。
関連論文リスト
- QCS-ADME: Quantum Circuit Search for Drug Property Prediction with Imbalanced Data and Regression Adaptation [11.101993017609246]
不均衡な分類と回帰タスクにおけるQML回路性能を評価するための新しい学習自由スコアリング機構を提案する。
本機構は,不均衡な分類タスクにおける評価基準と試験性能の有意な相関を示す。
これは、回帰アプリケーションに特化してQCS回路を探索し評価する最初の包括的アプローチである。
論文 参考訳(メタデータ) (2025-03-02T19:29:04Z) - Rethinking Clustered Federated Learning in NOMA Enhanced Wireless
Networks [60.09912912343705]
本研究では,新しいクラスタ化フェデレーション学習(CFL)アプローチと,非独立かつ同一に分散した(非IID)データセットを統合することのメリットについて検討する。
データ分布における非IIDの度合いを測定する一般化ギャップの詳細な理論的解析について述べる。
非IID条件によって引き起こされる課題に対処する解決策は、特性の分析によって提案される。
論文 参考訳(メタデータ) (2024-03-05T17:49:09Z) - Pointer Networks with Q-Learning for Combinatorial Optimization [55.2480439325792]
我々は、モデルフリーQ値ポリシー近似をPointer Networks(Ptr-Nets)と統合したハイブリッドニューラルネットワークであるPointer Q-Network(PQN)を紹介する。
実験により,本手法の有効性を実証し,不安定な環境でモデルをテストする。
論文 参考訳(メタデータ) (2023-11-05T12:03:58Z) - PARL: A Unified Framework for Policy Alignment in Reinforcement Learning from Human Feedback [106.63518036538163]
我々は、強化学習におけるポリシーアライメントの最近強調された重要な問題に対処するために、新しい統合された二段階最適化ベースのフレームワーク、textsfPARLを提案する。
本フレームワークは, 上向きの目標(逆設計)の分布を, 下向きの最適変数で明示的にパラメータ化することにより, これらの問題に対処する。
その結果,提案したtextsfPARL が RL のアライメントの懸念に対処できる可能性が示唆された。
論文 参考訳(メタデータ) (2023-08-03T18:03:44Z) - An Empirical Comparison of LM-based Question and Answer Generation
Methods [79.31199020420827]
質問と回答の生成(QAG)は、コンテキストが与えられた質問と回答のペアのセットを生成することで構成される。
本稿では,シーケンス・ツー・シーケンス言語モデル(LM)を微調整する3つの異なるQAG手法を用いて,ベースラインを確立する。
実験により、学習時間と推論時間の両方で計算的に軽量なエンドツーエンドQAGモデルが一般に堅牢であり、他のより複雑なアプローチよりも優れていることが示された。
論文 参考訳(メタデータ) (2023-05-26T14:59:53Z) - Deep Spectral Q-learning with Application to Mobile Health [11.736014576781903]
混合周波数データを扱うためのスペクトルQ-ラーニングアルゴリズムを提案する。
理論的には、推定された最適ポリシーの下での平均回帰が最適ポリシーの下での平均回帰に収束し、その収束率を確立することが証明される。
論文 参考訳(メタデータ) (2023-01-03T01:55:17Z) - Reinforcement Learning with Heterogeneous Data: Estimation and Inference [84.72174994749305]
人口の不均一性に関する逐次的決定問題に対処するために,K-ヘテロ・マルコフ決定過程(K-ヘテロ・MDP)を導入する。
本稿では、ある政策の価値を推定するための自己クラスタ化政策評価(ACPE)と、ある政策クラスにおける最適な政策を推定するための自己クラスタ化政策イテレーション(ACPI)を提案する。
理論的な知見を裏付けるシミュレーションを行い,MIMIC-III標準データセットの実証的研究を行った。
論文 参考訳(メタデータ) (2022-01-31T20:58:47Z) - Optimal regularizations for data generation with probabilistic graphical
models [0.0]
経験的に、よく調和された正規化スキームは、推論されたモデルの品質を劇的に改善する。
生成的ペアワイドグラフィカルモデルの最大Aポストエリオーリ(MAP)推論におけるL2とL1の正規化について検討する。
論文 参考訳(メタデータ) (2021-12-02T14:45:16Z) - Encoding-dependent generalization bounds for parametrized quantum
circuits [1.2599533416395765]
データエンコーディングに使用する戦略に明示的に依存するPQCベースのモデルに対するバウンダリを導出する。
この結果は最適なデータエンコーディング戦略の選択を容易にする。
論文 参考訳(メタデータ) (2021-06-07T18:01:38Z) - Template-Based Question Generation from Retrieved Sentences for Improved
Unsupervised Question Answering [98.48363619128108]
擬似学習データを用いてQAモデルを訓練するための教師なしアプローチを提案する。
関連した検索文に簡単なテンプレートを適用してQA学習のための質問を生成すると、元の文脈文よりも、下流QAのパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2020-04-24T17:57:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。