Fugu-MT 論文翻訳(概要): WOMBET: World Model-based Experience Transfer for Robust and Sample-efficient Reinforcement Learning

論文の概要: WOMBET: World Model-based Experience Transfer for Robust and Sample-efficient Reinforcement Learning

arxiv url: http://arxiv.org/abs/2604.08958v1
Date: Fri, 10 Apr 2026 04:57:54 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-13 17:57:53.69007
Title: WOMBET: World Model-based Experience Transfer for Robust and Sample-efficient Reinforcement Learning
Title（参考訳）: WOMBET:ロバストおよびサンプル効率強化学習のための世界モデルベース体験伝達
Authors: Mintae Kim, Koushil Sreenath,
Abstract要約: ロボット工学における強化学習は、しばしばデータ収集のコストとリスクによって制限される。先行データを共同で生成・利用するフレームワークであるtextitWorld Model-based Experience Transfer (WOMBET) を提案する。
参考スコア（独自算出の注目度）: 8.729531978655737
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Reinforcement learning (RL) in robotics is often limited by the cost and risk of data collection, motivating experience transfer from a source task to a target task. Offline-to-online RL leverages prior data but typically assumes a given fixed dataset and does not address how to generate reliable data for transfer. We propose \textit{World Model-based Experience Transfer} (WOMBET), a framework that jointly generates and utilizes prior data. WOMBET learns a world model in the source task and generates offline data via uncertainty-penalized planning, followed by filtering trajectories with high return and low epistemic uncertainty. It then performs online fine-tuning in the target task using adaptive sampling between offline and online data, enabling a stable transition from prior-driven initialization to task-specific adaptation. We show that the uncertainty-penalized objective provides a lower bound on the true return and derive a finite-sample error decomposition capturing distribution mismatch and approximation error. Empirically, WOMBET improves sample efficiency and final performance over strong baselines on continuous control benchmarks, demonstrating the benefit of jointly optimizing data generation and transfer.
Abstract（参考訳）: ロボット工学における強化学習(RL)は、しばしばデータ収集のコストとリスクによって制限される。 Offline-to-online RLは、以前のデータを活用するが、通常、所定の固定データセットを仮定し、転送のための信頼性のあるデータを生成する方法に対処しない。本稿では,先行データを共同で生成・活用するフレームワークであるtextit{World Model-based Experience Transfer} (WOMBET)を提案する。 WOMBETは、ソースタスクのワールドモデルを学び、不確実な計画を通じてオフラインデータを生成し、その後、高いリターンと低い認識の不確実性を持つ軌跡をフィルタリングする。その後、オフラインデータとオンラインデータのアダプティブサンプリングを使用して、ターゲットタスクのオンライン微調整を行い、事前に駆動された初期化からタスク固有の適応への安定した移行を可能にする。本研究では,不確実性補償対象が真の戻り値に低い値を与え,分布ミスマッチと近似誤差を抽出した有限サンプル誤差分解を導出することを示す。実証的には、WOMBETは、連続制御ベンチマークの強いベースラインよりもサンプル効率と最終的なパフォーマンスを改善し、データ生成と転送を共同で最適化する利点を示している。

関連論文リスト

Large Language Model-Empowered Decision Transformer for UAV-Enabled Data Collection [71.84636717632206]
空間分散デバイスからの信頼性とエネルギー効率のよいデータ収集のための無人航空機(UAV)は、IoT(Internet of Things)アプリケーションをサポートする上で大きな可能性を秘めている。有効なUAV制御ポリシーを学習するための共同言語モデル(LLM)を提案する。 LLM-CRDTは、現在の最先端DTアプローチよりも最大36.7%高いエネルギー効率を達成し、オンラインおよびオフラインメソッドのベンチマークより優れている。
論文参考訳（メタデータ） (2025-09-17T13:05:08Z)
Distributionally Robust Optimization with Adversarial Data Contamination [49.89480853499918]
凸リプシッツ損失関数を持つ一般化線形モデルに対するワッサーシュタイン-1 DRO 目標の最適化に焦点をあてる。私たちの主な貢献は、データ汚染のトレーニングに対するロバストネスと分散シフトに対するロバストネスを統合した、新しいモデリングフレームワークです。この研究は、データ汚染と分散シフトという2つの課題の下で学習するために、効率的な計算によって支援される最初の厳密な保証を確立する。
論文参考訳（メタデータ） (2025-07-14T18:34:10Z)
Mixed-Sample SGD: an End-to-end Analysis of Supervised Transfer Learning [6.614418593039343]
本稿では,ソースデータとターゲットデータのサンプリングを交互に行うSGDプロシージャを設計する際の問題点について考察する。アルゴリズムの主な難しさは、各SGDステップでこのような適応的なサブサンプリングメカニズムを設計する方法を理解することである。このような混合サンプルSGD法は凸損失を伴う一般的な予測タスクに有効であることを示す。
論文参考訳（メタデータ） (2025-07-06T00:03:34Z)
Model-Based Offline Reinforcement Learning with Adversarial Data Augmentation [36.9134885948595]
本稿では,AdversariaLデータ拡張を用いたモデルベースオフライン強化学習について紹介する。 MoRALでは,エンサンブルモデルと交互サンプリングを行うために,エンサンブルデータ拡張を用いて固定水平線ロールアウトを置き換える。 D4RLベンチマークの実験では、MORALはポリシー学習やサンプル効率の観点から、他のモデルベースのオフラインRLメソッドよりも優れていた。
論文参考訳（メタデータ） (2025-03-26T07:24:34Z)
Goal-Conditioned Data Augmentation for Offline Reinforcement Learning [9.181158786602085]
Goal-cOnditioned Data Augmentation (GODA) は、ゴール条件付き拡散法である。 GODAは、元のオフラインデータセットの包括的な分布表現を学習し、選択的に高いリターン目標を持つ新しいデータを生成する。我々は,D4RLベンチマークと実世界の課題,特に交通信号制御(TSC)タスクについて実験を行い,GODAの有効性を実証する。
論文参考訳（メタデータ） (2024-12-29T16:42:30Z)
Learn from the Learnt: Source-Free Active Domain Adaptation via Contrastive Sampling and Visual Persistence [60.37934652213881]
ドメイン適応(DA)は、ソースドメインから関連するターゲットドメインへの知識伝達を容易にする。本稿では、ソースデータフリーなアクティブドメイン適応(SFADA)という実用的なDAパラダイムについて検討する。本稿では,学習者学習(LFTL)というSFADAの新たなパラダイムを紹介し,学習した学習知識を事前学習モデルから活用し,余分なオーバーヘッドを伴わずにモデルを積極的に反復する。
論文参考訳（メタデータ） (2024-07-26T17:51:58Z)
Federated Learning with Projected Trajectory Regularization [65.6266768678291]
フェデレーション学習は、ローカルデータを共有せずに、分散クライアントから機械学習モデルの共同トレーニングを可能にする。連合学習における重要な課題の1つは、クライアントにまたがる識別できない分散データを扱うことである。本稿では,データ問題に対処するための予測軌道正則化(FedPTR)を備えた新しいフェデレーション学習フレームワークを提案する。
論文参考訳（メタデータ） (2023-12-22T02:12:08Z)
Analysis and Optimization of Wireless Federated Learning with Data Heterogeneity [72.85248553787538]
本稿では、データの不均一性を考慮した無線FLの性能解析と最適化と、無線リソース割り当てについて述べる。ロス関数の最小化問題を、長期エネルギー消費と遅延の制約の下で定式化し、クライアントスケジューリング、リソース割り当て、ローカルトレーニングエポック数(CRE)を共同で最適化する。実世界のデータセットの実験により、提案アルゴリズムは学習精度とエネルギー消費の点で他のベンチマークよりも優れていることが示された。
論文参考訳（メタデータ） (2023-08-04T04:18:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。