論文の概要: You've Got a Golden Ticket: Improving Generative Robot Policies With A Single Noise Vector
- arxiv url: http://arxiv.org/abs/2603.15757v1
- Date: Mon, 16 Mar 2026 18:00:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-18 17:42:06.923146
- Title: You've Got a Golden Ticket: Improving Generative Robot Policies With A Single Noise Vector
- Title(参考訳): 1つのノイズベクトルで生成ロボットのポリシーを改良するGolden Ticket
- Authors: Omkar Patil, Ondrej Biza, Thomas Weng, Karl Schmeckpeper, Wil Thomason, Xiaohan Zhang, Robin Walters, Nakul Gopalan, Sebastian Castro, Eric Rosen,
- Abstract要約: 下流の報酬に対して拡散や流れの整合性を改善することができることを示す。
モンテカルロ政策評価を用いたゴールデンチケットの検索手法を提案する。
本手法は,シミュレーションおよび実世界のロボット操作ベンチマークにおいて,43タスク中38タスクにおいて,ポリシーの性能を向上する。
- 参考スコア(独自算出の注目度): 21.05825413160611
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: What happens when a pretrained generative robot policy is provided a constant initial noise as input, rather than repeatedly sampling it from a Gaussian? We demonstrate that the performance of a pretrained, frozen diffusion or flow matching policy can be improved with respect to a downstream reward by swapping the sampling of initial noise from the prior distribution (typically isotropic Gaussian) with a well-chosen, constant initial noise input -- a golden ticket. We propose a search method to find golden tickets using Monte-Carlo policy evaluation that keeps the pretrained policy frozen, does not train any new networks, and is applicable to all diffusion/flow matching policies (and therefore many VLAs). Our approach to policy improvement makes no assumptions beyond being able to inject initial noise into the policy and calculate (sparse) task rewards of episode rollouts, making it deployable with no additional infrastructure or models. Our method improves the performance of policies in 38 out of 43 tasks across simulated and real-world robot manipulation benchmarks, with relative improvements in success rate by up to 58% for some simulated tasks, and 60% within 50 search episodes for real-world tasks. We also show unique benefits of golden tickets for multi-task settings: the diversity of behaviors from different tickets naturally defines a Pareto frontier for balancing different objectives (e.g., speed, success rates); in VLAs, we find that a golden ticket optimized for one task can also boost performance in other related tasks. We release a codebase with pretrained policies and golden tickets for simulation benchmarks using VLAs, diffusion policies, and flow matching policies.
- Abstract(参考訳): ガウシアンから繰り返しサンプリングするのではなく、事前訓練された生成ロボットポリシーが入力として一定の初期ノイズを与えるとどうなるのか?
先行分布(典型的には等方的ガウシアン)からの初期雑音のサンプリングをゴールデンチケットである良質な初期雑音入力に置き換えることで,事前学習,凍結拡散,流れの整合性を向上させることができることを示す。
本稿では,モンテカルロの政策評価を用いて,事前学習した政策を凍結し,新たなネットワークをトレーニングせず,拡散/流のマッチングポリシ(従って多くのVLA)に適用可能なゴールデンチケットの探索手法を提案する。
当社の方針改善に対するアプローチは、初期ノイズをポリシーに注入し、エピソードロールアウトのタスク報酬(sparse)を計算すること以上の仮定を行なわず、追加のインフラストラクチャやモデルなしでデプロイできるようにします。
提案手法は,シミュレーションおよび実世界のロボット操作ベンチマークにおいて,43タスク中38タスクのポリシー性能を向上し,シミュレーションされたタスクでは58%,実世界のタスクでは60回以内の検索エピソードでは60%に向上した。
異なるチケットからの振る舞いの多様性は、異なる目的(例えば、速度、成功率)のバランスをとるためのパレートフロンティアを自然に定義する。
我々は,VLA,拡散ポリシ,フローマッチングポリシを用いたシミュレーションベンチマークのための,事前訓練されたポリシとゴールデンチケットを備えたコードベースをリリースする。
関連論文リスト
- GoldenStart: Q-Guided Priors and Entropy Control for Distilling Flow Policies [22.819853466384686]
フローマッチング政策は強化学習(RL)を大いに約束する
彼らの実践的応用は、しばしば禁止的な遅延推論と効果の低いオンライン探索によって妨げられる。
我々は,Q誘導前処理と明示的エントロピー制御を備えた政策蒸留法であるGoldenStart(GSFlow)を提案する。
統合されたフレームワークは、生成開始点を設計し、ポリシーエントロピーを明示的に制御することにより、効率的かつ探索的なポリシーを達成できることを実証する。
論文 参考訳(メタデータ) (2026-03-15T06:39:09Z) - One-Step Generative Policies with Q-Learning: A Reformulation of MeanFlow [56.13949180229929]
ノイズを直接行動にマッピングするオフライン強化学習のための一段階の生成ポリシーを,MeanFlowの残留的な再構成を通じて導入する。
本手法はオフライン・オフライン両方の強化学習環境において高い性能を実現する。
論文 参考訳(メタデータ) (2025-11-17T06:34:17Z) - One-Step Diffusion Policy: Fast Visuomotor Policies via Diffusion Distillation [80.71541671907426]
OneStep Diffusion Policy (OneDP)は、事前訓練された拡散政策から知識を単一ステップのアクションジェネレータに蒸留する新しいアプローチである。
OneDPはロボット制御タスクの応答時間を著しく短縮する。
論文 参考訳(メタデータ) (2024-10-28T17:54:31Z) - Generalized Differentiable RANSAC [95.95627475224231]
$nabla$-RANSACは、ランダム化された堅牢な推定パイプライン全体を学ぶことができる、微分可能なRANSACである。
$nabla$-RANSACは、精度という点では最先端のシステムよりも優れているが、精度は低い。
論文 参考訳(メタデータ) (2022-12-26T15:13:13Z) - Learning Control by Iterative Inversion [21.127717602247454]
本稿では,入力-出力対を持たない逆関数を学習するアルゴリズムを提案する。
反復的逆転は、関数のかなり厳密な条件下で、学習を正しく行うことができることを証明している。
報酬に基づく手法と比較して,多様な動作を模倣する性能が向上したことを報告した。
論文 参考訳(メタデータ) (2022-11-03T11:25:55Z) - Maximum-Likelihood Inverse Reinforcement Learning with Finite-Time
Guarantees [56.848265937921354]
逆強化学習(IRL)は報酬関数と関連する最適ポリシーを回復することを目的としている。
IRLの多くのアルゴリズムは本質的にネスト構造を持つ。
我々は、報酬推定精度を損なわないIRLのための新しいシングルループアルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-10-04T17:13:45Z) - Proximal Policy Optimization with Continuous Bounded Action Space via
the Beta Distribution [0.0]
本研究では,このベータポリシが,OpenAIジムの2つの連続制御タスクに対して,プロキシポリシー最適化アルゴリズムによってトレーニングされた場合の動作について検討する。
両方のタスクにおいて、ベータポリシーはエージェントの最終報酬の観点からはガウスポリシーよりも優れており、トレーニングプロセスの安定性とより高速な収束を示す。
論文 参考訳(メタデータ) (2021-11-03T13:13:00Z) - Improved Soft Actor-Critic: Mixing Prioritized Off-Policy Samples with
On-Policy Experience [9.06635747612495]
ソフト・アクター・クリティカル(Soft Actor-Critic, SAC)は、アクター・アクター・アクターの強化学習アルゴリズムである。
SACは、期待されるリターンとエントロピーの間のトレードオフを最大化することでポリシーを訓練する。
一連の連続制御ベンチマークタスクで最先端のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2021-09-24T06:46:28Z) - Differentiable Bandit Exploration [38.81737411000074]
我々は、$mathcalP$からサンプルを使って未知のディストリビューション$mathcalP$についてそのようなポリシーを学ぶ。
我々のアプローチはメタラーニングの形式であり、その形式について強い仮定をすることなく$mathcalP$のプロパティを利用する。
論文 参考訳(メタデータ) (2020-02-17T05:07:35Z) - Never Give Up: Learning Directed Exploration Strategies [63.19616370038824]
そこで我々は,多岐にわたる探索政策を学習し,ハード・サーベイ・ゲームを解決するための強化学習エージェントを提案する。
エージェントの最近の経験に基づいて,k-アネレスト隣人を用いたエピソード記憶に基づく本質的な報酬を構築し,探索政策を訓練する。
自己教師付き逆動力学モデルを用いて、近くのルックアップの埋め込みを訓練し、エージェントが制御できる新しい信号をバイアスする。
論文 参考訳(メタデータ) (2020-02-14T13:57:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。