論文の概要: TMRL: Diffusion Timestep-Modulated Pretraining Enables Exploration for Efficient Policy Finetuning
- arxiv url: http://arxiv.org/abs/2605.12236v1
- Date: Tue, 12 May 2026 15:07:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-13 21:48:56.949494
- Title: TMRL: Diffusion Timestep-Modulated Pretraining Enables Exploration for Efficient Policy Finetuning
- Title(参考訳): TMRL: 拡散時間変化による事前訓練による効率的な政策微調整のための探索
- Authors: Matthew M. Hong, Jesse Zhang, Anusha Nagabandi, Abhishek Gupta,
- Abstract要約: 強化学習(RL)を用いた微調整型事前学習ロボット政策は、行動クローニング(BC)による事前学習によって引き起こされるボトルネックを継承することが多い。
本稿では,効率的なロボットポリシーの微調整を実現するために必要な探索を可能にする統一的なフレームワークを提案する。
- 参考スコア(独自算出の注目度): 9.021212644908767
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Fine-tuning pre-trained robot policies with reinforcement learning (RL) often inherits the bottlenecks introduced by pre-training with behavioral cloning (BC), which produces narrow action distributions that lack the coverage necessary for downstream exploration. We present a unified framework that enables the exploration necessary to enable efficient robot policy finetuning by bridging BC pre-training and RL fine-tuning. Our pre-training method, Context-Smoothed Pre-training (CSP), injects forward-diffusion noise into policy inputs, creating a continuum between precise imitation and broad action coverage. We then fine-tune pre-trained policies via Timestep-Modulated Reinforcement Learning (TMRL), which trains the agent to dynamically adjust this conditioning during fine-tuning by modulating the diffusion timestep, granting explicit control over exploration. Integrating seamlessly with arbitrary policy inputs, e.g., states, 3D point clouds, or image-based VLA policies, we show that TMRL improves RL fine-tuning sample efficiency. Notably, TMRL enables successful real-world fine-tuning on complex manipulation tasks in under one hour. Videos and code available at https://weirdlabuw.github.io/tmrl/.
- Abstract(参考訳): 強化学習(RL)を用いた微調整事前学習ロボットポリシーは、下流探索に必要な範囲を欠く狭い行動分布を生成する行動クローン(BC)による事前訓練によって生じるボトルネックを継承することが多い。
本稿では,BCの事前訓練とRLの微調整により,効率的なロボットポリシーの微調整を実現するために必要な統合されたフレームワークを提案する。
我々の事前学習手法であるContext-Smoothed Pre-Training (CSP) は、フォワード拡散ノイズをポリシー入力に注入し、正確な模倣と幅広い行動カバレッジの連続体を生成する。
次に,TMRL(Timestep-Modulated Reinforcement Learning)を用いて,拡散時間ステップを調整し,探索に対する明示的な制御を付与することにより,微調整中にこの条件を動的に調整するようエージェントに指示する。
任意のポリシ入力,例えば状態,3Dポイントクラウド,あるいはイメージベースのVLAポリシとシームレスに統合することにより,TMRLがRL微細調整サンプル効率を改善することを示す。
特に、TMRLは複雑な操作タスクを1時間以内で実世界の微調整を成功させることができる。
ビデオとコードはhttps://weirdlabuw.github.io/tmrl/.comで公開されている。
関連論文リスト
- FlashSAC: Fast and Stable Off-Policy Reinforcement Learning for High-Dimensional Robot Control [55.38832429564216]
強化学習(Reinforcement Learning, RL)は、専門家によるデモンストレーションが利用できない場合のロボット制御における中核的なアプローチである。
我々は,Soft Actor-Critic上に構築された高速で安定なオフポリチィRLアルゴリズムであるFlashSACを提案する。
10のシミュレータで60以上のタスクをこなし、FlashSACは最終的なパフォーマンスとトレーニング効率の両方において、PPOと強力なオフポリシーベースラインを一貫して上回っている。
論文 参考訳(メタデータ) (2026-04-06T09:03:41Z) - RFS: Reinforcement Learning with Residual Flow Steering for Dexterous Manipulation [7.500999283386335]
残留フローステアリング(Residual Flow Steering、RFS)は、事前訓練された生成ポリシーを適用するためのデータ効率の強化学習フレームワークである。
RFSは、残留動作と潜時雑音分布を協調的に最適化することにより、事前訓練されたフローマッチングポリシーを操る。
シミュレーションと実世界の両方の設定において, RFS が効率よく微調整できることを示す。
論文 参考訳(メタデータ) (2026-02-02T08:11:57Z) - Towards Bridging the Gap between Large-Scale Pretraining and Efficient Finetuning for Humanoid Control [18.618486126491334]
SAC(Soft Actor-Critic)がヒューマノイド・ロコモーション・ポリシーの大規模事前学習を確実に支援していることが判明した。
SAC-pretrained Policyは、モデルベースの手法を用いて、新しい環境やアウト・オブ・ディストリビューションタスクで微調整できる。
全体としては, 大規模シミュレーションのウォールクロック効率と, 微調整時のモデルベース学習のサンプル効率を両立させる。
論文 参考訳(メタデータ) (2026-01-29T07:43:24Z) - Posterior Behavioral Cloning: Pretraining BC Policies for Efficient RL Finetuning [87.81738284453013]
まず,標準行動クローニング (BC) が実証者の行動のカバレッジを確保するのに失敗することを理論的に示す。
次に、観測された実演を正確に適合させる代わりに、実証者の行動の後部分布をモデル化する政策を訓練することを示した。
このポリシーは、デモ隊の行動の報道を確実にし、より効果的な微調整を可能にする。
論文 参考訳(メタデータ) (2025-12-18T18:59:17Z) - Policy Agnostic RL: Offline RL and Online RL Fine-Tuning of Any Class and Backbone [72.17534881026995]
ポリシーに依存しないRL(PA-RL)と呼ばれるオフラインおよびオンラインの微調整手法を開発する。
オンラインRLファインチューニングアルゴリズムであるCal-QLを用いて、7BジェネラリストロボットポリシーであるOpenVLAのファインチューニングに成功した最初の結果を示す。
論文 参考訳(メタデータ) (2024-12-09T17:28:03Z) - From Imitation to Refinement -- Residual RL for Precise Assembly [19.9786629249219]
近年のビヘイビア・クローン(BC)の進歩により、ロボットに新しいタスクを教えるのが容易になった。
しかし、教育の容易さは信頼性の低いパフォーマンスを犠牲にしている。
我々は,BCの教えやすさと長期的能力を維持しながら信頼性を克服する,シンプルで効果的な方法であるResiPを考案した。
論文 参考訳(メタデータ) (2024-07-23T17:44:54Z) - Action-Quantized Offline Reinforcement Learning for Robotic Skill
Learning [68.16998247593209]
オフライン強化学習(RL)パラダイムは、静的な行動データセットを、データを収集したポリシーよりも優れたパフォーマンスのポリシーに変換するためのレシピを提供する。
本稿では,アクション量子化のための適応型スキームを提案する。
IQL,CQL,BRACといった最先端のオフラインRL手法が,提案手法と組み合わせることで,ベンチマークのパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2023-10-18T06:07:10Z) - Jump-Start Reinforcement Learning [68.82380421479675]
本稿では、オフラインデータやデモ、あるいは既存のポリシーを使ってRLポリシーを初期化するメタアルゴリズムを提案する。
特に,タスク解決に2つのポリシーを利用するアルゴリズムであるJump-Start Reinforcement Learning (JSRL)を提案する。
実験により、JSRLは既存の模倣と強化学習アルゴリズムを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2022-04-05T17:25:22Z) - Guided Constrained Policy Optimization for Dynamic Quadrupedal Robot
Locomotion [78.46388769788405]
我々は,制約付きポリシー最適化(CPPO)の実装に基づくRLフレームワークであるGCPOを紹介する。
誘導制約付きRLは所望の最適値に近い高速収束を実現し,正確な報酬関数チューニングを必要とせず,最適かつ物理的に実現可能なロボット制御動作を実現することを示す。
論文 参考訳(メタデータ) (2020-02-22T10:15:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。