Fugu-MT 論文翻訳(概要): Generalist World Model Pre-Training for Efficient Reinforcement Learning

論文の概要: Generalist World Model Pre-Training for Efficient Reinforcement Learning

arxiv url: http://arxiv.org/abs/2502.19544v1
Date: Wed, 26 Feb 2025 20:34:29 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-28 15:15:46.618002
Title: Generalist World Model Pre-Training for Efficient Reinforcement Learning
Title（参考訳）: 効率的な強化学習のためのジェネラリスト世界モデル事前学習
Authors: Yi Zhao, Aidan Scannell, Yuxin Hou, Tianyu Cui, Le Chen, Dieter Büchler, Arno Solin, Juho Kannala, Joni Pajarinen,
Abstract要約: 一般化的世界モデル事前学習 (WPT) により, 効率的な強化学習 (RL) と高速タスク適応が可能となることを示す。 6つの異なる実施形態にまたがる72のビジュモータタスクの実験では、WPTは広く使われている学習ベースラインに比べて35.65%と35%高い集計スコアを達成している。
参考スコア（独自算出の注目度）: 33.813682254087055
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Sample-efficient robot learning is a longstanding goal in robotics. Inspired by the success of scaling in vision and language, the robotics community is now investigating large-scale offline datasets for robot learning. However, existing methods often require expert and/or reward-labeled task-specific data, which can be costly and limit their application in practice. In this paper, we consider a more realistic setting where the offline data consists of reward-free and non-expert multi-embodiment offline data. We show that generalist world model pre-training (WPT), together with retrieval-based experience rehearsal and execution guidance, enables efficient reinforcement learning (RL) and fast task adaptation with such non-curated data. In experiments over 72 visuomotor tasks, spanning 6 different embodiments, covering hard exploration, complex dynamics, and various visual properties, WPT achieves 35.65% and 35% higher aggregated score compared to widely used learning-from-scratch baselines, respectively.
Abstract（参考訳）: サンプル効率のロボット学習は、ロボット工学における長年の目標である。ビジョンと言語のスケーリングの成功に触発されて、ロボットコミュニティは現在、ロボット学習のための大規模なオフラインデータセットを調査している。しかし、既存のメソッドは、しばしば専門家や報酬ラベル付きタスク固有のデータを必要とします。本稿では、より現実的なオフラインデータとして、報酬のない非専門的なマルチエンボディメントオフラインデータからなるオフラインデータについて考察する。本稿では,汎用的世界モデル事前学習(WPT)と検索に基づく経験リハーサルと実行指導を併用して,効率的な強化学習(RL)と非計算データによる高速タスク適応を実現していることを示す。 72以上のvisuomotorタスクにおいて、6つの異なるエボディメント、ハード探索、複雑な力学、様々な視覚特性をカバーし、WPTは広く使われている学習ベースラインに比べて35.65%と35%高い集計スコアを達成している。

関連論文リスト

Reinforcement Learning with Action Chunking [56.838297900091426]
本稿では,長時間のスパース・リワード作業における強化学習アルゴリズムの改良手法であるQ-chunkingを提案する。我々のレシピはオフラインからオンラインまでのRL設定のために設計されており、オンライン学習のサンプル効率を最大化するためにオフライン前のデータセットを活用することが目的である。実験の結果,Q-chunkingはオフライン性能とオンラインサンプル効率が優れており,長時間のスパース・リワード操作タスクにおいて,最良オフライン-オンライン手法よりも優れていた。
論文参考訳（メタデータ） (2025-07-10T17:48:03Z)
Improving Data Efficiency for LLM Reinforcement Fine-tuning Through Difficulty-targeted Online Data Selection and Rollout Replay [61.823835392216544]
強化学習(RL)は、大規模言語モデル(LLM)の微調整に有効なアプローチとなっている。 LLM RLファインチューニングにおけるデータ効率向上のための2つの手法を提案する。本手法は,RLの微調整時間を25%から65%削減し,GRPOアルゴリズムと同等の性能を実現する。
論文参考訳（メタデータ） (2025-06-05T17:55:43Z)
SKIL: Semantic Keypoint Imitation Learning for Generalizable Data-efficient Manipulation [12.720334726151739]
セマンティック・キーポイント・イミテーション・ラーニング(Semantic Keypoint Imitation Learning, SKIL)は、視覚基礎モデルの助けを借りて意味的キーポイントを自動的に取得するフレームワークである。 SKILは、サンプルの複雑さが著しく低い複雑なロボットタスクの効率的な模倣学習を可能にする。 SKILの平均成功率は70%で、デモは30回に満たない。
論文参考訳（メタデータ） (2025-01-24T11:11:53Z)
STRAP: Robot Sub-Trajectory Retrieval for Augmented Policy Learning [8.860366821983211]
STRAPは、トレーニング済みの視覚基盤モデルと動的時間ワープを利用して、大規模なトレーニングコーパスからトラジェクトリのサブシーケンスを堅牢に検索する技術である。本研究では、事前学習された視覚基盤モデルと動的時間ワープを活用して、大規模学習コーパスからのトラジェクトリのサブシーケンスをロバストに検索するSTRAPを提案する。
論文参考訳（メタデータ） (2024-12-19T18:54:06Z)
Efficient Online Reinforcement Learning Fine-Tuning Need Not Retain Offline Data [64.74333980417235]
オフラインRLを微調整するために適切に設計されたオンラインRLアプローチを使用する限り、オフラインデータの保持は不要であることを示す。 Warm-start RL(WSRL)はオフラインデータを保持することなく微調整が可能であり,既存のアルゴリズムよりも高速に学習でき,高い性能が得られることを示す。
論文参考訳（メタデータ） (2024-12-10T18:57:12Z)
Scaling Proprioceptive-Visual Learning with Heterogeneous Pre-trained Transformers [41.069074375686164]
本稿では、政策ニューラルネットワークのトランクを事前訓練してタスクを学習し、共有表現を具体化する異種事前学習トランスフォーマー(HPT)を提案する。 52データセットの範囲で,トレーニング対象のスケーリング行動を調べる実験を行った。 HPTはいくつかのベースラインを上回り、未確認タスクで20%以上の微調整されたポリシー性能を向上させる。
論文参考訳（メタデータ） (2024-09-30T17:39:41Z)
D5RL: Diverse Datasets for Data-Driven Deep Reinforcement Learning [99.33607114541861]
ロボット操作と移動環境の現実的なシミュレーションに焦点を当てたオフラインRLのための新しいベンチマークを提案する。提案するベンチマークでは、状態ベースドメインと画像ベースドメインを対象とし、オフラインRLとオンライン微調整評価の両方をサポートしている。
論文参考訳（メタデータ） (2024-08-15T22:27:00Z)
PLANRL: A Motion Planning and Imitation Learning Framework to Bootstrap Reinforcement Learning [13.564676246832544]
PLANRLは、ロボットがいつ古典的な動き計画を使うべきか、いつポリシーを学ぶべきかを選択するためのフレームワークである。 PLANRLは2つの操作モードを切り替える: オブジェクトから離れたときに古典的なテクニックを使ってウェイポイントに到達し、オブジェクトと対話しようとするときに細かい操作制御を行う。我々は,複数の課題のあるシミュレーション環境と実世界のタスクにまたがってアプローチを評価し,既存手法と比較して適応性,効率,一般化の点で優れた性能を示す。
論文参考訳（メタデータ） (2024-08-07T19:30:08Z)
Offline Imitation Learning Through Graph Search and Retrieval [57.57306578140857]
模倣学習は、ロボットが操作スキルを取得するための強力な機械学習アルゴリズムである。本稿では,グラフ検索と検索により,最適下実験から学習する,シンプルで効果的なアルゴリズムGSRを提案する。 GSRは、ベースラインに比べて10%から30%高い成功率、30%以上の熟練を達成できる。
論文参考訳（メタデータ） (2024-07-22T06:12:21Z)
ATraDiff: Accelerating Online Reinforcement Learning with Imaginary Trajectories [27.5648276335047]
報酬の少ない自律エージェントの訓練は、オンライン強化学習(RL)における長年の問題である本稿では、オフラインデータを利用した適応軌道微分器(ATraDiff)と呼ばれる生成拡散モデル学習手法を提案する。 ATraDiffは、様々な環境における最先端のパフォーマンスを一貫して達成しており、特に複雑な設定の改善が顕著である。
論文参考訳（メタデータ） (2024-06-06T17:58:15Z)
Robot Fine-Tuning Made Easy: Pre-Training Rewards and Policies for Autonomous Real-World Reinforcement Learning [58.3994826169858]
ロボット強化学習のためのリセット不要な微調整システムであるRoboFuMEを紹介する。我々の洞察は、オフラインの強化学習技術を利用して、事前訓練されたポリシーの効率的なオンライン微調整を確保することである。提案手法では,既存のロボットデータセットからのデータを組み込んで,目標タスクを3時間以内の自律現実体験で改善することができる。
論文参考訳（メタデータ） (2023-10-23T17:50:08Z)
Adaptive Policy Learning for Offline-to-Online Reinforcement Learning [27.80266207283246]
我々は、エージェントがオフラインデータセットから最初に学習され、オンラインにトレーニングされたオフライン-オンライン設定について検討する。オフラインおよびオンラインデータを効果的に活用するためのAdaptive Policy Learningというフレームワークを提案する。
論文参考訳（メタデータ） (2023-03-14T08:13:21Z)
Hindsight States: Blending Sim and Real Task Elements for Efficient Reinforcement Learning [61.3506230781327]
ロボット工学では、第一原理から導かれた力学モデルに基づくシミュレーションに基づいて、トレーニングデータを生成する方法がある。ここでは、力学の複雑さの不均衡を利用して、より標本効率のよい学習を行う。提案手法をいくつかの課題に対して検証し,既存の近視アルゴリズムと組み合わせた場合の学習改善を実証する。
論文参考訳（メタデータ） (2023-03-03T21:55:04Z)
Self-Improving Robots: End-to-End Autonomous Visuomotor Reinforcement Learning [54.636562516974884]
模倣と強化学習において、人間の監督コストは、ロボットが訓練できるデータの量を制限する。本研究では,自己改善型ロボットシステムのための新しい設計手法であるMEDAL++を提案する。ロボットは、タスクの実施と解除の両方を学ぶことで、自律的にタスクを練習し、同時にデモンストレーションから報酬関数を推論する。
論文参考訳（メタデータ） (2023-03-02T18:51:38Z)
Efficient Online Reinforcement Learning with Offline Data [78.92501185886569]
オンライン学習時にオフラインデータを活用するために、既存のオフライン手法を単純に適用できることを示します。私たちはこれらの設計選択を広範囲に改善し、パフォーマンスに最も影響を与える重要な要因を示します。これらのシンプルなレコメンデーションの正しい適用によって、既存のアプローチよりも$mathbf2.5times$の改善が得られます。
論文参考訳（メタデータ） (2023-02-06T17:30:22Z)
What Matters in Learning from Offline Human Demonstrations for Robot Manipulation [64.43440450794495]
ロボット操作のための6つのオフライン学習アルゴリズムについて広範な研究を行う。我々の研究は、オフラインの人間のデータから学習する際の最も重要な課題を分析します。人間のデータセットから学ぶ機会を強調します。
論文参考訳（メタデータ） (2021-08-06T20:48:30Z)
A Framework for Efficient Robotic Manipulation [79.10407063260473]
単一のロボットアームがピクセルからスパースリワード操作ポリシーを学習できることを示します。デモは10回しかなく、単一のロボットアームがピクセルからスパースリワード操作のポリシーを学習できることを示しています。
論文参考訳（メタデータ） (2020-12-14T22:18:39Z)
AWAC: Accelerating Online Reinforcement Learning with Offline Datasets [84.94748183816547]
提案手法は,従来の実演データとオンライン体験を組み合わせることで,スキルの素早い学習を可能にする。以上の結果から,事前データを組み込むことで,ロボット工学を実践的な時間スケールまで学習するのに要する時間を短縮できることが示唆された。
論文参考訳（メタデータ） (2020-06-16T17:54:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。