論文の概要: Update-Free On-Policy Steering via Verifiers
- arxiv url: http://arxiv.org/abs/2603.10282v1
- Date: Tue, 10 Mar 2026 23:55:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:42.186277
- Title: Update-Free On-Policy Steering via Verifiers
- Title(参考訳): 検証器によるアップデートフリーオンラインステアリング
- Authors: Maria Attarian, Ian Vyse, Claas Voelcker, Jasper Gerigk, Evgenii Opryshko, Anas Almasri, Sumeet Singh, Yilun Du, Igor Gilitschenski,
- Abstract要約: 行動クローニング(BC)は、ロボットが人間の実演を模倣できるようにする最も一般的な方法の1つとなっている。
UF-OPSは,ロボットが動作の成功確率を予測できるアップデートフリーのオンラインステアリング手法である。
シミュレーションと実世界のデータの両方から結果を示し、5つの実タスクにわたる基本方針よりも平均49%の成功率の向上を実現した。
- 参考スコア(独自算出の注目度): 47.56134859358476
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recent years, Behavior Cloning (BC) has become one of the most prevalent methods for enabling robots to mimic human demonstrations. However, despite their successes, BC policies are often brittle and struggle with precise manipulation. To overcome these issues, we propose UF-OPS, an Update-Free On-Policy Steering method that enables the robot to predict the success likelihood of its actions and adapt its strategy at execution time. We accomplish this by training verifier functions using policy rollout data obtained during an initial evaluation of the policy. These verifiers are subsequently used to steer the base policy toward actions with a higher likelihood of success. Our method improves the performance of black-box diffusion policy, without changing the base parameters, making it light-weight and flexible. We present results from both simulation and real-world data and achieve an average 49% improvement in success rate over the base policy across 5 real tasks.
- Abstract(参考訳): 近年,ロボットが人間の実演を模倣する手法として,行動クローニング(BC)が広く普及している。
しかし、その成功にもかかわらず、BCの政策は不安定であり、正確な操作に苦戦することが多い。
これらの課題を克服するために,ロボットが動作の成功確率を予測し,実行時に戦略を適応できる更新フリーのオンラインステアリング手法であるUF-OPSを提案する。
ポリシーの初期評価において得られたポリシーロールアウトデータを用いて検証関数を訓練することにより、これを実現する。
これらの検証器はその後、より高い成功率で行動に対する基本方針を操縦するために使用される。
本手法は, 基本パラメータを変化させることなく, ブラックボックス拡散ポリシーの性能を向上し, 軽量でフレキシブルである。
シミュレーションと実世界のデータの両方から結果を示し、5つの実タスクにわたる基本方針よりも平均49%の成功率の向上を実現した。
関連論文リスト
- Flow Policy Gradients for Robot Control [67.61978635211048]
フローマッチングポリシ勾配は、より表現力のあるポリシのトレーニングと微調整に有効である。
我々は、スクラッチからトレーニングを行う際に、フロー表現をどのように活用するかを示し、ベースラインよりもきめ細やかな堅牢性を改善する。
論文 参考訳(メタデータ) (2026-02-02T18:56:49Z) - Posterior Behavioral Cloning: Pretraining BC Policies for Efficient RL Finetuning [87.81738284453013]
まず,標準行動クローニング (BC) が実証者の行動のカバレッジを確保するのに失敗することを理論的に示す。
次に、観測された実演を正確に適合させる代わりに、実証者の行動の後部分布をモデル化する政策を訓練することを示した。
このポリシーは、デモ隊の行動の報道を確実にし、より効果的な微調整を可能にする。
論文 参考訳(メタデータ) (2025-12-18T18:59:17Z) - Succeed or Learn Slowly: Sample Efficient Off-Policy Reinforcement Learning for Mobile App Control [50.316067647636196]
本稿では,モバイルアプリ制御タスクで評価された新規な非政治強化学習アルゴリズムであるSucceed or Learn Slowly (SoLS)を紹介する。
SoLSは、ユーザーインターフェースナビゲーションのための微調整基礎モデルにおいて、非政治的アクター-批判的アプローチを修正することで、サンプル効率を改善する。
我々は、成功した対話から学習を優先するSTR(Success Transition Replay)でSOLSを増強する。
論文 参考訳(メタデータ) (2025-09-01T18:55:27Z) - EXPO: Stable Reinforcement Learning with Expressive Policies [74.30151915786233]
2つのパラメータ化ポリシーで値の最大化を実現するために,サンプル効率のよいオンライン強化学習アルゴリズムを提案する。
提案手法は, 従来手法に比べて試料効率を最大2~3倍向上させる。
論文 参考訳(メタデータ) (2025-07-10T17:57:46Z) - Steering Your Diffusion Policy with Latent Space Reinforcement Learning [46.598122553180005]
行動クローニング(BC)が引き起こした政策は通常、行動を改善するために追加の人間のデモを集める必要がある。
強化学習(RL)は、自律的なオンラインポリシーの改善を可能にするという約束を持っているが、通常必要とされる大量のサンプルのために、これを達成できないことが多い。
DSRLはサンプリング効率が高く,BCポリシーへのブラックボックスアクセスしか必要とせず,実世界の自律的政策改善に有効であることを示す。
論文 参考訳(メタデータ) (2025-06-18T18:35:57Z) - Iteratively Refined Behavior Regularization for Offline Reinforcement
Learning [57.10922880400715]
本稿では,保守的政策反復に基づく行動規則化を大幅に強化する新しいアルゴリズムを提案する。
行動規則化に使用される基準ポリシーを反復的に洗練することにより、保守的な政策更新は徐々に改善される。
D4RLベンチマークの実験結果から,本手法は従来のタスクのベースラインよりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2023-06-09T07:46:24Z) - Supervised Off-Policy Ranking [145.3039527243585]
オフポリシー評価(OPE)は、他のポリシーによって生成されたデータを活用して、ターゲットポリシーを評価する。
本稿では,訓練方針と既知の実績を正しくランク付けすることで,政策スコアリングモデルを学習する教師付き非政治ランキングを提案する。
本手法は,上位3つのポリシーのうち,最良と最良の双方のランク相関と性能差の両面から,強力なベースラインOPE法より優れる。
論文 参考訳(メタデータ) (2021-07-03T07:01:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。