Fugu-MT 論文翻訳(概要): From Prior to Pro: Efficient Skill Mastery via Distribution Contractive RL Finetuning

論文の概要: From Prior to Pro: Efficient Skill Mastery via Distribution Contractive RL Finetuning

arxiv url: http://arxiv.org/abs/2603.10263v1
Date: Tue, 10 Mar 2026 22:49:46 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-12 16:22:32.712536
Title: From Prior to Pro: Efficient Skill Mastery via Distribution Contractive RL Finetuning
Title（参考訳）: Pro から Pro へ:分散契約型 RL ファインタニングによる効率的なスキル習得
Authors: Zhanyi Sun, Shuran Song,
Abstract要約: DICE-RLは、強化学習を用いて事前訓練された生成ロボットポリシーを洗練するフレームワークである。事前訓練された行動は、オンラインのフィードバックから高精度な行動を強化することで、ハイパフォーマンスな「プロ」ポリシーに転換する。実験と解析により,DICE-RLは高い安定性と試料効率で性能を確実に向上することが示された。
参考スコア（独自算出の注目度）: 17.846597717733058
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We introduce Distribution Contractive Reinforcement Learning (DICE-RL), a framework that uses reinforcement learning (RL) as a "distribution contraction" operator to refine pretrained generative robot policies. DICE-RL turns a pretrained behavior prior into a high-performing "pro" policy by amplifying high-success behaviors from online feedback. We pretrain a diffusion- or flow-based policy for broad behavioral coverage, then finetune it with a stable, sample-efficient residual off-policy RL framework that combines selective behavior regularization with value-guided action selection. Extensive experiments and analyses show that DICE-RL reliably improves performance with strong stability and sample efficiency. It enables mastery of complex long-horizon manipulation skills directly from high-dimensional pixel inputs, both in simulation and on a real robot. Project website: https://zhanyisun.github.io/dice.rl.2026/.
Abstract（参考訳）: 本稿では、強化学習(RL)を「分配収縮」演算子として利用し、事前訓練された生成ロボットポリシーを洗練させるフレームワークである分散契約強化学習(DICE-RL)を紹介する。 DICE-RLは、事前訓練された振る舞いを、オンラインフィードバックから高精度な振る舞いを増幅することにより、ハイパフォーマンスな"プロ"ポリシーに変換する。我々は,広範行動カバレッジのための拡散型あるいは流動型政策を事前訓練し,選択的行動規則化と値誘導的行動選択を組み合わせた,安定的でサンプル効率のよいオフポリチックRLフレームワークを微調整する。大規模実験と解析により,DICE-RLは高い安定性と試料効率で性能を確実に向上することが示された。シミュレーションと実際のロボットの両方で、高次元の画素入力から直接複雑なロングホライゾン操作スキルを習得することができる。プロジェクトウェブサイト: https://zhanyisun.github.io/dice.rl.2026/

関連論文リスト

Controllable Exploration in Hybrid-Policy RLVR for Multi-Modal Reasoning [88.42566960813438]
CalibRLは、制御可能な探索と専門家のガイダンスをサポートするハイブリッド政治RLVRフレームワークである。 CalibRLは政策エントロピーを誘導的に増加させ、目標分布を明らかにする。ドメイン内設定とドメイン外設定の両方を含む8つのベンチマークの実験は、一貫した改善を示している。
論文参考訳（メタデータ） (2026-02-22T07:23:36Z)
Human-in-the-loop Online Rejection Sampling for Robotic Manipulation [55.99788088622936]
Hi-ORSは、オンライン微調整中に負の報酬を得たサンプルをフィルタリングすることで、値推定を安定化する。 Hi-ORSは、わずか1.5時間でコンタクトリッチな操作をマスターするためのpiベースのポリシーを微調整する。
論文参考訳（メタデータ） (2025-10-30T11:53:08Z)
Learning to Reason as Action Abstractions with Scalable Mid-Training RL [55.24192942739207]
効果的な中間訓練フェーズは、有用なアクションのコンパクトなセットを特定し、高速な選択を可能にする。本稿では,スケーラブルなミッドトレーニングアルゴリズムであるReasoning as Action Abstractions (RA3)を提案する。
論文参考訳（メタデータ） (2025-09-30T05:34:20Z)
Residual Off-Policy RL for Finetuning Behavior Cloning Policies [41.99435186991878]
本稿では,行動クローニング(BC)と強化学習(RL)の利点を組み合わせたレシピを提案する。提案手法は疎二元報酬信号のみを必要とするため,高次自由度(DoF)システムの操作ポリシーを効果的に改善することができる。特に、私たちの知る限りでは、人型ロボットによる実世界初のRLトレーニングが成功しました。
論文参考訳（メタデータ） (2025-09-23T17:59:46Z)
Agentic Reinforcement Learning with Implicit Step Rewards [92.26560379363492]
大規模言語モデル (LLMs) は強化学習 (agentic RL) を用いた自律的エージェントとして発展している。我々は,標準RLアルゴリズムとシームレスに統合された一般的なクレジット割り当て戦略であるエージェントRL(iStar)について,暗黙的なステップ報酬を導入する。我々は,WebShopとVisualSokobanを含む3つのエージェントベンチマークと,SOTOPIAにおける検証不可能な報酬とのオープンなソーシャルインタラクションについて評価した。
論文参考訳（メタデータ） (2025-09-23T16:15:42Z)
RIME: Robust Preference-based Reinforcement Learning with Noisy Preferences [23.414135977983953]
嗜好に基づく強化学習(PbRL)は、報酬信号として人間の嗜好を活用することにより、報酬工学の必要性を回避する。雑音の選好から効果的な報酬学習のための頑健なPbRLアルゴリズムであるRIMEを提案する。
論文参考訳（メタデータ） (2024-02-27T07:03:25Z)
REBEL: Reward Regularization-Based Approach for Robotic Reinforcement Learning from Human Feedback [61.54791065013767]
報酬関数と人間の嗜好の相違は、現実世界で破滅的な結果をもたらす可能性がある。近年の手法は、人間の嗜好から報酬関数を学習することで、不適応を緩和することを目的としている。本稿では,ロボットRLHFフレームワークにおける報酬正規化の新たな概念を提案する。
論文参考訳（メタデータ） (2023-12-22T04:56:37Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。