論文の概要: Posterior Behavioral Cloning: Pretraining BC Policies for Efficient RL Finetuning
- arxiv url: http://arxiv.org/abs/2512.16911v1
- Date: Thu, 18 Dec 2025 18:59:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-19 18:10:32.25119
- Title: Posterior Behavioral Cloning: Pretraining BC Policies for Efficient RL Finetuning
- Title(参考訳): 術後の行動クローニング : 効率的なRLファインタニングのためのBC政策の事前訓練
- Authors: Andrew Wagenmaker, Perry Dong, Raymond Tsao, Chelsea Finn, Sergey Levine,
- Abstract要約: まず,標準行動クローニング (BC) が実証者の行動のカバレッジを確保するのに失敗することを理論的に示す。
次に、観測された実演を正確に適合させる代わりに、実証者の行動の後部分布をモデル化する政策を訓練することを示した。
このポリシーは、デモ隊の行動の報道を確実にし、より効果的な微調整を可能にする。
- 参考スコア(独自算出の注目度): 87.81738284453013
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Standard practice across domains from robotics to language is to first pretrain a policy on a large-scale demonstration dataset, and then finetune this policy, typically with reinforcement learning (RL), in order to improve performance on deployment domains. This finetuning step has proved critical in achieving human or super-human performance, yet while much attention has been given to developing more effective finetuning algorithms, little attention has been given to ensuring the pretrained policy is an effective initialization for RL finetuning. In this work we seek to understand how the pretrained policy affects finetuning performance, and how to pretrain policies in order to ensure they are effective initializations for finetuning. We first show theoretically that standard behavioral cloning (BC) -- which trains a policy to directly match the actions played by the demonstrator -- can fail to ensure coverage over the demonstrator's actions, a minimal condition necessary for effective RL finetuning. We then show that if, instead of exactly fitting the observed demonstrations, we train a policy to model the posterior distribution of the demonstrator's behavior given the demonstration dataset, we do obtain a policy that ensures coverage over the demonstrator's actions, enabling more effective finetuning. Furthermore, this policy -- which we refer to as the posterior behavioral cloning (PostBC) policy -- achieves this while ensuring pretrained performance is no worse than that of the BC policy. We then show that PostBC is practically implementable with modern generative models in robotic control domains -- relying only on standard supervised learning -- and leads to significantly improved RL finetuning performance on both realistic robotic control benchmarks and real-world robotic manipulation tasks, as compared to standard behavioral cloning.
- Abstract(参考訳): ロボット工学から言語まで、ドメイン間の標準的な実践は、まず大規模なデモデータセットのポリシーを事前訓練し、次に、デプロイメントドメインのパフォーマンスを改善するために、強化学習(RL)でこのポリシーを微調整することである。
この微調整のステップは人間や超人のパフォーマンスを達成する上で重要であることが証明されているが、より効果的な微調整アルゴリズムの開発には多くの注意が向けられているが、事前訓練されたポリシーがRL微調整の効果的な初期化であることを保証するには、ほとんど注意が向けられていない。
本研究では, 事前学習した政策が微調整性能にどのように影響するか, 微調整に有効な初期化を確実にするための事前学習方法について検討する。
まず,実証者の行動を直接一致させる政策を訓練する標準行動クローン (BC) が,実効的なRL微調整に必要な最小条件である実証者の行動のカバレッジを確保するのに失敗できることを理論的に示す。
次に、観測された実演を正確に適合させる代わりに、実証データセットに基づいて、実証者の行動の後部分布をモデル化するポリシーを訓練すると、実証者の行動のカバレッジを確実にし、より効果的な微調整を可能にするポリシーが得られます。
さらに、この政策は、後部行動クローン(PostBC)政策と呼ばれており、事前訓練されたパフォーマンスがBC政策よりも悪くないことを保証する。
次に,PostBCがロボット制御領域の現代的な生成モデル – 標準的な教師付き学習のみに依存する – で実際に実装可能であることを示し,現実的なロボット制御ベンチマークと実世界のロボット操作タスクの両方において,標準的な行動クローンと比較して,RLの微調整性能が大幅に向上することを示した。
関連論文リスト
- EXPO: Stable Reinforcement Learning with Expressive Policies [74.30151915786233]
2つのパラメータ化ポリシーで値の最大化を実現するために,サンプル効率のよいオンライン強化学習アルゴリズムを提案する。
提案手法は, 従来手法に比べて試料効率を最大2~3倍向上させる。
論文 参考訳(メタデータ) (2025-07-10T17:57:46Z) - Steering Your Diffusion Policy with Latent Space Reinforcement Learning [46.598122553180005]
行動クローニング(BC)が引き起こした政策は通常、行動を改善するために追加の人間のデモを集める必要がある。
強化学習(RL)は、自律的なオンラインポリシーの改善を可能にするという約束を持っているが、通常必要とされる大量のサンプルのために、これを達成できないことが多い。
DSRLはサンプリング効率が高く,BCポリシーへのブラックボックスアクセスしか必要とせず,実世界の自律的政策改善に有効であることを示す。
論文 参考訳(メタデータ) (2025-06-18T18:35:57Z) - FDPP: Fine-tune Diffusion Policy with Human Preference [57.44575105114056]
人間の嗜好を考慮した微調整拡散政策は、嗜好に基づく学習を通して報酬関数を学習する。
この報酬は、訓練済みの政策を強化学習で微調整するために使われる。
実験により、FDPPは性能を損なうことなく、効果的にポリシーの動作をカスタマイズできることが示されている。
論文 参考訳(メタデータ) (2025-01-14T17:15:27Z) - Offline Reinforcement Learning with Closed-Form Policy Improvement
Operators [88.54210578912554]
行動制約付きポリシー最適化は、オフライン強化学習に対処するための成功パラダイムであることが示されている。
本稿では,閉形式政策改善演算子を提案する。
我々は、標準的なD4RLベンチマークにおいて、最先端アルゴリズムに対するそれらの効果を実証的に実証した。
論文 参考訳(メタデータ) (2022-11-29T06:29:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。