論文の概要: PPGuide: Steering Diffusion Policies with Performance Predictive Guidance
- arxiv url: http://arxiv.org/abs/2603.10980v1
- Date: Wed, 11 Mar 2026 17:10:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-21 18:33:56.694026
- Title: PPGuide: Steering Diffusion Policies with Performance Predictive Guidance
- Title(参考訳): PPGuide: パフォーマンス予測ガイダンスを備えたステアリング拡散ポリシ
- Authors: Zixing Wang, Devesh K. Jha, Ahmed H. Qureshi, Diego Romeres,
- Abstract要約: PPGuideは、事前訓練された拡散ポリシーを、推論時に障害モードから切り離す。
注意ベースのマルチインスタンス学習を使用して、ポリシーのロールアウトからどの観察-アクションチャンクが成功か失敗かを自動的に見積もる。
提案したPPGuideを,RobomimicベンチマークとMimicGenベンチマークから,さまざまなタスクセットで検証した。
- 参考スコア(独自算出の注目度): 28.698103923760172
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion policies have shown to be very efficient at learning complex, multi-modal behaviors for robotic manipulation. However, errors in generated action sequences can compound over time which can potentially lead to failure. Some approaches mitigate this by augmenting datasets with expert demonstrations or learning predictive world models which might be computationally expensive. We introduce Performance Predictive Guidance (PPGuide), a lightweight, classifier-based framework that steers a pre-trained diffusion policy away from failure modes at inference time. PPGuide makes use of a novel self-supervised process: it uses attention-based multiple instance learning to automatically estimate which observation-action chunks from the policy's rollouts are relevant to success or failure. We then train a performance predictor on this self-labeled data. During inference, this predictor provides a real-time gradient to guide the policy toward more robust actions. We validated our proposed PPGuide across a diverse set of tasks from the Robomimic and MimicGen benchmarks, demonstrating consistent improvements in performance.
- Abstract(参考訳): 拡散ポリシは、ロボット操作のための複雑なマルチモーダルな振る舞いを学ぶのに非常に効率的であることが示されている。
しかし、生成されたアクションシーケンスのエラーは時間とともに複雑になり、失敗につながる可能性がある。
専門家によるデモンストレーションや、計算コストのかかる予測的世界モデルを学ぶことで、これを緩和するアプローチもある。
本稿では,事前学習した拡散ポリシを推論時の障害モードから切り離す軽量な分類器ベースのフレームワークであるパフォーマンス予測ガイダンス(PPGuide)を紹介する。
PPGuideは、アテンションベースのマルチインスタンス学習を使用して、ポリシーのロールアウトからどの観察-アクションチャンクが成功か失敗かを自動的に推定する。
次に、この自己ラベル付きデータに基づいてパフォーマンス予測器をトレーニングします。
推論の間、この予測器はより堅牢な行動に向けてポリシーを導くためのリアルタイムな勾配を提供する。
提案したPPGuideを,RoomimicベンチマークとMimicGenベンチマークのさまざまなタスクセットで検証し,一貫したパフォーマンス向上を実証した。
関連論文リスト
- Steering Vision-Language-Action Models as Anti-Exploration: A Test-Time Scaling Approach [78.4812458793128]
動作チャンクの高忠実度検証に軽量な擬数推定器を適用したテスト時間スケーリングフレームワークである textbfTACO を提案する。
我々の手法は、オフライン強化学習(RL)における古典的な反探索原理に似ており、勾配のないため、計算上の大きな恩恵をもたらす。
論文 参考訳(メタデータ) (2025-12-02T14:42:54Z) - Model-Based Policy Adaptation for Closed-Loop End-to-End Autonomous Driving [54.46325690390831]
本稿では,事前学習したE2E運転エージェントのロバスト性と安全性を高めるための汎用フレームワークとして,モデルベースポリシー適応(MPA)を提案する。
MPAは、ジオメトリ一貫性のあるシミュレーションエンジンを用いて、まず様々な対物軌道を生成する。
MPAは拡散ベースのポリシーアダプタを訓練し、基本方針の予測を洗練させ、Q値モデルを多段階に分けて長期的な結果を評価する。
論文 参考訳(メタデータ) (2025-11-26T17:01:41Z) - SeFA-Policy: Fast and Accurate Visuomotor Policy Learning with Selective Flow Alignment [7.446137164545049]
選択フローアライメント(Selective Flow Alignment、SeFA)は、効率的かつ正確なビジュモータポリシー学習フレームワークである。
SeFAはこの課題を選択的フローアライメント戦略によって解決する。
推論遅延を98%以上削減しながら、精度と堅牢性を向上する。
論文 参考訳(メタデータ) (2025-11-11T18:59:39Z) - Failure Prediction at Runtime for Generative Robot Policies [6.375597233389154]
実行中の早期の障害予測は、人間中心で安全クリティカルな環境でロボットをデプロイするために不可欠である。
本稿では,フェールデータを必要としない生成ロボットポリシーの故障予測フレームワークであるFIPERを提案する。
その結果、FIPERは実際の障害と良質なOOD状況とをよく区別し、既存の手法よりも正確に早期に障害を予測できることがわかった。
論文 参考訳(メタデータ) (2025-10-10T15:09:27Z) - CUPID: Curating Data your Robot Loves with Influence Functions [29.79350259314518]
CUPIDは、模倣学習ポリシーのための新しい影響関数理論定式化に基づく、ロボットデータキュレーション手法である。
我々は,1)政策パフォーマンスを損なうトレーニングデモをフィルタリングし,2)政策を最も改善する新たなトラジェクトリをサブセレクトするために,CUPIDを用いてデータをキュレートする。
論文 参考訳(メタデータ) (2025-06-23T20:49:34Z) - Dense Policy: Bidirectional Autoregressive Learning of Actions [51.60428100831717]
本稿では,行動予測における自己回帰的政策の新たなパラダイムを確立するために,Dense Policyと呼ばれる双方向拡張学習手法を提案する。
軽量なエンコーダのみのアーキテクチャを使用して、アクションシーケンスを初期単一フレームからターゲットシーケンスへ粗い方法で反復的に展開する。
実験により、我々の密集した政策は自己回帰学習能力に優れており、既存の全体的生成ポリシーを超越できることが示された。
論文 参考訳(メタデータ) (2025-03-17T14:28:08Z) - Inference-Time Policy Steering through Human Interactions [54.02655062969934]
推論中、人間はしばしばポリシー実行ループから取り除かれる。
本稿では,人間のインタラクションを活用して生成するサンプリングプロセスにバイアスを与える推論時ポリシーステアリングフレームワークを提案する。
提案手法は,アライメントと分布シフトの最良のトレードオフを実現する。
論文 参考訳(メタデータ) (2024-11-25T18:03:50Z) - Stochastic Action Prediction for Imitation Learning [1.6385815610837169]
模倣学習は、観察を行動にマップするポリシーを学ぶために専門家のデモンストレーションに依存するスキルを獲得するためのデータ駆動のアプローチです。
遠隔操作車によるライン追従を含むタスクのために収集されたデモに本質性を示す。
専門家データにおける相反性の説明は,タスク完了の成功率を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2020-12-26T08:02:33Z) - Hierarchical Variational Imitation Learning of Control Programs [131.7671843857375]
パラメータ化された階層的手順(PHP)で表される制御ポリシーの模倣学習のための変分推論手法を提案する。
本手法は, 教師による実演の観察・行動トレースのデータセットにおける階層構造を, 手続き呼び出しや用語の待ち行列に近似した後続分布を学習することによって発見する。
階層的模倣学習(hierarchical mimicion learning)の文脈における変分推論の新たな利点を実証する。
論文 参考訳(メタデータ) (2019-12-29T08:57:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。