論文の概要: Missing Data Multiple Imputation for Tabular Q-Learning in Online RL
- arxiv url: http://arxiv.org/abs/2510.10709v1
- Date: Sun, 12 Oct 2025 17:16:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 18:06:30.080023
- Title: Missing Data Multiple Imputation for Tabular Q-Learning in Online RL
- Title(参考訳): オンラインRLにおけるタブラルQ-Learningデータの欠落
- Authors: Kyla Chasalow, Skyler Wu, Susan Murphy,
- Abstract要約: オンライン強化学習における欠落データは、オフラインポリシー学習における欠落データと比較すると、課題となる。
各段階でインプットし行動する必要があることは、安定したインプットモデルを生成するのに十分なデータが存在するまで、インプットをオフにすることはできないことを意味する。
本稿では,完全なオンライン計算アンサンブルを提案する。
- 参考スコア(独自算出の注目度): 1.02138250640885
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Missing data in online reinforcement learning (RL) poses challenges compared to missing data in standard tabular data or in offline policy learning. The need to impute and act at each time step means that imputation cannot be put off until enough data exist to produce stable imputation models. It also means future data collection and learning depend on previous imputations. This paper proposes fully online imputation ensembles. We find that maintaining multiple imputation pathways may help balance the need to capture uncertainty under missingness and the need for efficiency in online settings. We consider multiple approaches for incorporating these pathways into learning and action selection. Using a Grid World experiment with various types of missingness, we provide preliminary evidence that multiple imputation pathways may be a useful framework for constructing simple and efficient online missing data RL methods.
- Abstract(参考訳): オンライン強化学習(RL)における欠落データは、標準表データやオフラインポリシー学習における欠落データと比較すると、課題となる。
インプットと動作を各ステップで行う必要があることは、安定したインプットモデルを生成するのに十分なデータが存在するまで、インプットをオフにすることはできないことを意味する。
それはまた、将来のデータ収集と学習が、以前の計算に依存することを意味する。
本稿では,完全なオンライン計算アンサンブルを提案する。
複数の命令経路の維持は、欠如の下で不確実性を捉える必要性と、オンライン設定における効率性の必要性のバランスをとる上で有効である。
学習と行動選択にこれらの経路を取り入れるための複数のアプローチを検討する。
グリッドワールド実験において,複数の命令経路が簡易かつ効率的なオンライン欠落データRL手法を構築する上で有用なフレームワークであることを示す予備的証拠を提供する。
関連論文リスト
- Data Unlearning in Diffusion Models [44.99833362998488]
汎用マシンアンラーニング技術は不安定であるか、あるいはデータを解き放たないかのどちらかであることが判明した。
本稿では,重要サンプリングを利用して,理論的な保証をもってデータを学習する最初の方法であるSubtracted Importance Smpled Scores (SISS) と呼ばれる新たな損失関数群を提案する。
論文 参考訳(メタデータ) (2025-03-02T21:36:04Z) - Efficient Reinforcement Learning by Guiding Generalist World Models with Non-Curated Data [32.7248232143849]
オフラインデータの活用は、オンライン強化学習(RL)のサンプル効率を向上させるための有望な方法である
本稿では、報酬のない、混合品質の豊富な非キュレートデータを利用して、オフラインからオフラインへのRLのための使用可能なデータのプールを拡張し、複数の実施形態にまたがって収集する。
論文 参考訳(メタデータ) (2025-02-26T20:34:29Z) - From Offline to Online Memory-Free and Task-Free Continual Learning via Fine-Grained Hypergradients [24.963242232471426]
継続的学習(CL)は、基礎となる分散が時間とともに変化する非定常データストリームから学ぶことを目的としている。
オンラインCL(onCL)は依然としてメモリベースのアプローチに支配されている。
トレーニング中に勾配更新を再バランスするオンラインメカニズムであるFine-Grained Hypergradientsを導入する。
論文 参考訳(メタデータ) (2025-02-26T02:43:54Z) - Finetuning Offline World Models in the Real World [13.46766121896684]
強化学習(RL)はデータ非効率で、実際のロボットの訓練を困難にしている。
オフラインのRLは、オンラインインタラクションなしで既存のデータセットのRLポリシーをトレーニングするためのフレームワークとして提案されている。
本研究では,実ロボットで収集したオフラインデータを用いて世界モデルを事前学習し,学習モデルを用いて計画して収集したオンラインデータ上でモデルを微調整する問題を考察する。
論文 参考訳(メタデータ) (2023-10-24T17:46:12Z) - Fast Machine Unlearning Without Retraining Through Selective Synaptic
Dampening [51.34904967046097]
Selective Synaptic Dampening (SSD)は高速で、訓練データの長期保存を必要としない。
高速で性能が高く,トレーニングデータの長期保存を必要としない,新しい2段階のポストホック,リトレーニングフリーなマシンアンラーニング手法を提案する。
論文 参考訳(メタデータ) (2023-08-15T11:30:45Z) - Efficient Online Reinforcement Learning with Offline Data [78.92501185886569]
オンライン学習時にオフラインデータを活用するために、既存のオフライン手法を単純に適用できることを示します。
私たちはこれらの設計選択を広範囲に改善し、パフォーマンスに最も影響を与える重要な要因を示します。
これらのシンプルなレコメンデーションの正しい適用によって、既存のアプローチよりも$mathbf2.5times$の改善が得られます。
論文 参考訳(メタデータ) (2023-02-06T17:30:22Z) - RvS: What is Essential for Offline RL via Supervised Learning? [77.91045677562802]
近年の研究では、時間差(TD)のない教師あり学習だけでオフラインRLに極めて効果的であることが示されている。
あらゆる環境スイートにおいて、2層フィードフォワードによる可能性の最大化は競争力がある。
彼らはまた、ランダムデータに対して比較的弱い既存のRvS法の限界を探索する。
論文 参考訳(メタデータ) (2021-12-20T18:55:16Z) - Conservative Data Sharing for Multi-Task Offline Reinforcement Learning [119.85598717477016]
オフラインRLの自然なユースケースは、さまざまなシナリオで収集された大量のデータをプールして、さまざまなタスクを解決できるような設定にある、と私たちは主張する。
タスク固有のデータに対する改善に基づいてデータをルーティングするマルチタスクオフラインRLにおけるデータ共有手法を開発した。
論文 参考訳(メタデータ) (2021-09-16T17:34:06Z) - Certifiable Machine Unlearning for Linear Models [1.484852576248587]
機械学習は、トレーニングされたトレーニングデータのサブセットが削除された後、機械学習(ML)モデルを更新するタスクである。
本稿では,線形モデルに対する3つの非学習手法について実験的に検討する。
論文 参考訳(メタデータ) (2021-06-29T05:05:58Z) - AWAC: Accelerating Online Reinforcement Learning with Offline Datasets [84.94748183816547]
提案手法は,従来の実演データとオンライン体験を組み合わせることで,スキルの素早い学習を可能にする。
以上の結果から,事前データを組み込むことで,ロボット工学を実践的な時間スケールまで学習するのに要する時間を短縮できることが示唆された。
論文 参考訳(メタデータ) (2020-06-16T17:54:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。