論文の概要: OffSim: Offline Simulator for Model-based Offline Inverse Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2510.15495v1
- Date: Fri, 17 Oct 2025 10:07:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-20 20:17:34.568689
- Title: OffSim: Offline Simulator for Model-based Offline Inverse Reinforcement Learning
- Title(参考訳): OffSim:モデルに基づくオフライン逆強化学習のためのオフラインシミュレータ
- Authors: Woo-Jin Ahn, Sang-Ryul Baek, Yong-Jun Lee, Hyun-Duck Choi, Myo-Taeg Lim,
- Abstract要約: OffSimは、新しいモデルベースのオフライン逆強化学習フレームワークである。
専門家が生成した状態-作用軌道から直接環境力学と報酬構造をエミュレートする。
OffSimはその後、実際の環境とのさらなるインタラクションなしに、ポリシーをオフラインにトレーニングすることができる。
- 参考スコア(独自算出の注目度): 8.478536100809693
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Reinforcement learning algorithms typically utilize an interactive simulator (i.e., environment) with a predefined reward function for policy training. Developing such simulators and manually defining reward functions, however, is often time-consuming and labor-intensive. To address this, we propose an Offline Simulator (OffSim), a novel model-based offline inverse reinforcement learning (IRL) framework, to emulate environmental dynamics and reward structure directly from expert-generated state-action trajectories. OffSim jointly optimizes a high-entropy transition model and an IRL-based reward function to enhance exploration and improve the generalizability of the learned reward. Leveraging these learned components, OffSim can subsequently train a policy offline without further interaction with the real environment. Additionally, we introduce OffSim$^+$, an extension that incorporates a marginal reward for multi-dataset settings to enhance exploration. Extensive MuJoCo experiments demonstrate that OffSim achieves substantial performance gains over existing offline IRL methods, confirming its efficacy and robustness.
- Abstract(参考訳): 強化学習アルゴリズムは、通常、ポリシートレーニングのために事前に定義された報酬関数を持つ対話型シミュレータ(環境)を使用する。
しかし、そのようなシミュレータを開発し、報酬関数を手動で定義することは、しばしば時間がかかり、労力がかかる。
そこで本研究では,新しいモデルに基づくオフライン逆強化学習(IRL)フレームワークであるオフラインシミュレータ(OffSim)を提案する。
OffSimは、高エントロピー遷移モデルとIRLベースの報酬関数を共同で最適化し、探索を強化し、学習された報酬の一般化性を向上させる。
これらの学習したコンポーネントを活用して、OffSimはその後、実際の環境とのさらなるインタラクションなしにポリシーをオフラインにトレーニングすることができる。
さらにOffSim$^+$という,マルチデータセット設定に対する限界報酬を組み込んで探索を強化するエクステンションも導入しています。
大規模な MuJoCo 実験では,OffSim が既存のオフラインIRL 手法よりも大幅な性能向上を実現し,その有効性と堅牢性を確認している。
関連論文リスト
- Sample-Efficient Online Learning in LM Agents via Hindsight Trajectory Rewriting [92.57796055887995]
本稿では,言語モデルエージェントの強化学習から後視体験のリプレイに適応するプロンプトフレームワークECHOを紹介する。
ECHOは失敗した試みで達成できた代替目標のために最適化された軌道を生成する。
我々は、テキストベースのナビゲーションと計画ベンチマークであるXMiniGridのステートフルバージョンと、協調的な情報収集企業シミュレーションであるPeopleJoinQAについて、ECHOを評価した。
論文 参考訳(メタデータ) (2025-10-11T18:11:09Z) - GausSim: Foreseeing Reality by Gaussian Simulator for Elastic Objects [55.02281855589641]
GausSimは、ガウスカーネルを通して表現される現実の弾性物体の動的挙動をキャプチャするために設計された、ニューラルネットワークベースの新しいシミュレータである。
我々は連続体力学を活用し、各カーネルを連続体を表すCenter of Mass System (CMS)として扱う。
さらに、ガウスシムは質量や運動量保存のような明示的な物理制約を取り入れ、解釈可能な結果と堅牢で物理的に妥当なシミュレーションを確実にする。
論文 参考訳(メタデータ) (2024-12-23T18:58:17Z) - Overcoming the Sim-to-Real Gap: Leveraging Simulation to Learn to Explore for Real-World RL [25.991354823569033]
多くの制度において、直接シム2リアルトランスファーは失敗する可能性があるが、シミュレータを使って一連のエフェクト探索ポリシーを学習できることが示される。
特に、低ランクのMDPの設定においては、これらの探索政策と単純で実践的なアプローチが結合していることが示される。
これは、シミュレーション転送が直接sim2real転送が失敗する環境で強化学習において証明可能な利益をもたらすという最初の証拠である。
論文 参考訳(メタデータ) (2024-10-26T19:12:27Z) - LoopSR: Looping Sim-and-Real for Lifelong Policy Adaptation of Legged Robots [20.715834172041763]
デプロイ後の段階において、RLポリシーを継続的に洗練する、生涯にわたるポリシー適応フレームワークであるLoopSRを提案する。
LoopSRはトランスフォーマーベースのエンコーダを使用して、現実世界の軌道を潜在空間にマッピングする。
オートエンコーダアーキテクチャとコントラスト学習手法を採用し、実世界のダイナミクスの特徴抽出を強化する。
論文 参考訳(メタデータ) (2024-09-26T16:02:25Z) - COSBO: Conservative Offline Simulation-Based Policy Optimization [7.696359453385686]
オフライン強化学習は、ライブデプロイメントのデータに関する強化学習モデルのトレーニングを可能にする。
対照的に、ライブ環境を再現しようとするシミュレーション環境は、ライブデータの代わりに利用できる。
本研究では,不完全なシミュレーション環境と対象環境のデータを組み合わせることで,オフラインの強化学習ポリシーを訓練する手法を提案する。
論文 参考訳(メタデータ) (2024-09-22T12:20:55Z) - Gaussian Splatting to Real World Flight Navigation Transfer with Liquid Networks [93.38375271826202]
本研究では,シミュレート・トゥ・リアルな視覚四重項ナビゲーションタスクにおける分布シフトに対する一般化とロバスト性を改善する手法を提案する。
まず,擬似飛行力学とガウススプラッティングを統合してシミュレータを構築し,その後,液状ニューラルネットワークを用いてロバストなナビゲーションポリシーを訓練する。
このようにして、我々は3次元ガウススプラッティングラディアンス場レンダリング、専門家による実演訓練データのプログラミング、およびLiquid Networkのタスク理解能力の進歩を組み合わせたフルスタックの模倣学習プロトコルを得る。
論文 参考訳(メタデータ) (2024-06-21T13:48:37Z) - A Conservative Approach for Few-Shot Transfer in Off-Dynamics Reinforcement Learning [3.1515473193934778]
オフダイナミックス強化学習(英語: Off-dynamics Reinforcement Learning)は、ソース環境から、異なるが類似したダイナミクスによって特徴づけられるターゲット環境へポリシーを移そうとする。
我々は近年のImitation Learningと保守的RLアルゴリズムの進歩に触発された革新的なアプローチを提案する。
論文 参考訳(メタデータ) (2023-12-24T13:09:08Z) - TrafficSim: Learning to Simulate Realistic Multi-Agent Behaviors [74.67698916175614]
リアル交通シミュレーションのためのマルチエージェント行動モデルであるTrafficSimを提案する。
特に、暗黙の潜在変数モデルを利用して、共同アクターポリシーをパラメータ化する。
TrafficSimは、多様なベースラインと比較して、より現実的で多様なトラフィックシナリオを生成します。
論文 参考訳(メタデータ) (2021-01-17T00:29:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。