Fugu-MT 論文翻訳(概要): Reward-free World Models for Online Imitation Learning

論文の概要: Reward-free World Models for Online Imitation Learning

arxiv url: http://arxiv.org/abs/2410.14081v1
Date: Thu, 17 Oct 2024 23:13:32 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:37.259238
Title: Reward-free World Models for Online Imitation Learning
Title（参考訳）: オンライン模倣学習のためのリワードフリー世界モデル
Authors: Shangzhe Li, Zhiao Huang, Hao Su,
Abstract要約: 本研究では,報酬のない世界モデルを活用したオンライン模倣学習手法を提案する。提案手法は, 復元を伴わない潜在空間における環境力学を学習し, 効率的かつ高精度なモデリングを可能にする。 DMControl,myoSuite, ManiSkill2 など,様々なベンチマークを用いて本手法の評価を行い,既存手法と比較して優れた実証性能を示した。
参考スコア（独自算出の注目度）: 25.304836126280424
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Imitation learning (IL) enables agents to acquire skills directly from expert demonstrations, providing a compelling alternative to reinforcement learning. However, prior online IL approaches struggle with complex tasks characterized by high-dimensional inputs and complex dynamics. In this work, we propose a novel approach to online imitation learning that leverages reward-free world models. Our method learns environmental dynamics entirely in latent spaces without reconstruction, enabling efficient and accurate modeling. We adopt the inverse soft-Q learning objective, reformulating the optimization process in the Q-policy space to mitigate the instability associated with traditional optimization in the reward-policy space. By employing a learned latent dynamics model and planning for control, our approach consistently achieves stable, expert-level performance in tasks with high-dimensional observation or action spaces and intricate dynamics. We evaluate our method on a diverse set of benchmarks, including DMControl, MyoSuite, and ManiSkill2, demonstrating superior empirical performance compared to existing approaches.
Abstract（参考訳）: イミテーションラーニング(IL)は、エージェントが専門家によるデモンストレーションから直接スキルを習得することを可能にし、強化ラーニングに代わる魅力的な代替手段を提供する。しかし、従来のオンラインILアプローチは、高次元入力と複雑な力学を特徴とする複雑なタスクに苦しむ。本研究では,報酬のない世界モデルを活用したオンライン模倣学習手法を提案する。提案手法は, 復元を伴わない潜在空間における環境力学を学習し, 効率的かつ高精度なモデリングを可能にする。本稿では,Q-policy空間における従来の最適化に伴う不安定性を軽減するために,Q-policy空間における最適化プロセスを再構築する,逆ソフトQ学習目標を採用する。学習された潜在ダイナミクスモデルと制御のための計画を用いることで、高次元の観察や行動空間を持つタスクにおける安定かつ専門家レベルのパフォーマンスを一貫して達成し、複雑なダイナミクスを実現する。 DMControl,myoSuite, ManiSkill2 など,様々なベンチマークを用いて本手法の評価を行い,既存手法と比較して優れた実証性能を示した。

関連論文リスト

Grounded in Reality: Learning and Deploying Proactive LLM from Offline Logs [72.08224879435762]
textttLearn-to-Askは、プロアクティブな対話エージェントの学習とデプロイのためのシミュレータフリーフレームワークである。当社のアプローチは,LLMの大規模オンラインAIサービスへの展開を成功に導くものです。
論文参考訳（メタデータ） (2025-10-29T12:08:07Z)
CLPO: Curriculum Learning meets Policy Optimization for LLM Reasoning [10.544900224321415]
政策最適化プロセス内に動的教育フィードバックループを生成する新しいアルゴリズムであるCLPOを提案する。 Curriculum-Guided Learning for Policy Optimizationは、静的トレーニング手順を、モデルの能力と共進化する動的なプロセスに変換する。実験により、CLPOは8つの挑戦的な数学的および一般的な推論ベンチマークで最先端のパフォーマンスを達成することが示された。
論文参考訳（メタデータ） (2025-09-29T16:29:04Z)
Application of LLM Guided Reinforcement Learning in Formation Control with Collision Avoidance [1.1718316049475228]
マルチエージェントシステム(Multi-Agent Systems、MAS)は、個々のエージェントの協調作業を通じて複雑な目的を達成する。本稿では,効果的な報酬関数を設計する上での課題を克服する新しい枠組みを提案する。タスクの優先順位付けにおいて,大規模言語モデル(LLM)を付与することにより,オンライン上で動的に調整可能な報酬関数を生成する。
論文参考訳（メタデータ） (2025-07-22T09:26:00Z)
RIZE: Regularized Imitation Learning via Distributional Reinforcement Learning [0.3222802562733786]
固定された報酬の割り当ての制限を克服する新しい逆強化学習(IRL)手法を導入する。最大エントロピーIRLフレームワークを2乗時間差正規化器(TD)と適応目標で拡張し、トレーニング中に動的に調整する。提案手法は,MuJoCoタスクに挑戦する上での最先端のパフォーマンスを実現し,Humanoidタスクのエキスパートレベルを3つのデモで示す。
論文参考訳（メタデータ） (2025-02-27T13:47:29Z)
Robust Monocular Visual Odometry using Curriculum Learning [1.282543877006303]
本研究は,モノクロビジュアルオドメトリー(VO)推定の難解な幾何学的問題に対処するために,革新的なカリキュラム学習(CL)手法を適用した。我々は、新しいCLアプローチを統合することにより、エンドツーエンドのDeep-Patch-Visual Odometryフレームワークを強化する。
論文参考訳（メタデータ） (2024-11-20T16:26:51Z)
DODT: Enhanced Online Decision Transformer Learning through Dreamer's Actor-Critic Trajectory Forecasting [37.334947053450996]
本稿では,Dreamerアルゴリズムの予測軌道生成能力とオンライン決定変換器の適応強度を組み合わせた新しい手法を提案する。提案手法は,Dreamer-produced trajectories が変換器の文脈決定を促進させる並列学習を可能にする。
論文参考訳（メタデータ） (2024-10-15T07:27:56Z)
RLIF: Interactive Imitation Learning as Reinforcement Learning [56.997263135104504]
我々は,対話型模倣学習と類似するが,さらに実践的な仮定の下で,非政治強化学習によってパフォーマンスが向上できることを実証する。提案手法は,ユーザ介入信号を用いた強化学習を報奨として利用する。このことは、インタラクティブな模倣学習において介入する専門家がほぼ最適であるべきだという仮定を緩和し、アルゴリズムが潜在的に最適でない人間の専門家よりも改善される行動を学ぶことを可能にする。
論文参考訳（メタデータ） (2023-11-21T21:05:21Z)
Model-Based Reinforcement Learning with Multi-Task Offline Pretraining [59.82457030180094]
本稿では,オフラインデータから新しいタスクへ,潜在的に有用なダイナミックスや動作デモを伝達するモデルベースRL法を提案する。主な考え方は、世界モデルを行動学習のシミュレーターとしてだけでなく、タスクの関連性を測定するツールとして使うことである。本稿では,Meta-WorldとDeepMind Control Suiteの最先端手法と比較して,我々のアプローチの利点を実証する。
論文参考訳（メタデータ） (2023-06-06T02:24:41Z)
Predictive Experience Replay for Continual Visual Control and Forecasting [62.06183102362871]
視覚力学モデリングのための新しい連続学習手法を提案し,その視覚制御と予測における有効性について検討する。まず,タスク固有のダイナミクスをガウスの混合で学習する混合世界モデルを提案し,その上で,破滅的な忘れを克服するための新たなトレーニング戦略を提案する。我々のモデルは,DeepMind Control と Meta-World のベンチマークにおいて,既存の連続的学習アルゴリズムと視覚的RLアルゴリズムの単純な組み合わせよりも優れている。
論文参考訳（メタデータ） (2023-03-12T05:08:03Z)
Latent Variable Representation for Reinforcement Learning [131.03944557979725]
モデルに基づく強化学習のサンプル効率を改善するために、潜在変数モデルが学習、計画、探索をいかに促進するかは理論上、実証上、不明である。状態-作用値関数に対する潜在変数モデルの表現ビューを提供する。これは、抽出可能な変分学習アルゴリズムと楽観主義/悲観主義の原理の効果的な実装の両方を可能にする。特に,潜伏変数モデルのカーネル埋め込みを組み込んだUPB探索を用いた計算効率の良い計画アルゴリズムを提案する。
論文参考訳（メタデータ） (2022-12-17T00:26:31Z)
Dream to Explore: Adaptive Simulations for Autonomous Systems [3.0664963196464448]
ベイズ的非パラメトリック法を適用し,力学系制御の学習に挑戦する。ガウス過程を用いて潜在世界力学を探索することにより、強化学習で観測される一般的なデータ効率の問題を緩和する。本アルゴリズムは,ログの変動的下界を最適化することにより,世界モデルと政策を共同で学習する。
論文参考訳（メタデータ） (2021-10-27T04:27:28Z)
IQ-Learn: Inverse soft-Q Learning for Imitation [95.06031307730245]
少数の専門家データからの模倣学習は、複雑な力学を持つ高次元環境では困難である。行動クローニングは、実装の単純さと安定した収束性のために広く使われている単純な方法である。本稿では,1つのQ-関数を学習することで,対向学習を回避する動的適応型ILを提案する。
論文参考訳（メタデータ） (2021-06-23T03:43:10Z)
Online reinforcement learning with sparse rewards through an active inference capsule [62.997667081978825]
本稿では,将来期待される新しい自由エネルギーを最小化するアクティブ推論エージェントを提案する。我々のモデルは、非常に高いサンプル効率でスパース・リワード問題を解くことができる。また、複雑な目的の表現を単純化する報奨関数から事前モデルを近似する新しい手法を提案する。
論文参考訳（メタデータ） (2021-06-04T10:03:36Z)
Model-based Meta Reinforcement Learning using Graph Structured Surrogate Models [40.08137765886609]
グラフ構造化サーロゲートモデル (GSSM) と呼ばれるモデルが, 環境ダイナミクス予測における最先端の手法を上回っていることを示した。当社のアプローチでは,テスト時間ポリシの勾配最適化を回避して,デプロイメント中の高速実行を実現しつつ,高いリターンを得ることができる。
論文参考訳（メタデータ） (2021-02-16T17:21:55Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。