論文の概要: ReSteer: Quantifying and Refining the Steerability of Multitask Robot Policies
- arxiv url: http://arxiv.org/abs/2603.17300v1
- Date: Wed, 18 Mar 2026 02:53:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-21 18:33:56.936743
- Title: ReSteer: Quantifying and Refining the Steerability of Multitask Robot Policies
- Title(参考訳): ReSteer:マルチタスクロボットの安定性の定量化と精錬
- Authors: Zhenyang Chen, Alan Tian, Liquan Wang, Benjamin Joffe, Yingyan Celine Lin, Yuxiao Chen, Siddharth Karamcheti, Danfei Xu,
- Abstract要約: マルチタスクの事前訓練が強かったにもかかわらず、既存のポリシーはしばしばタスクの操縦性が劣っている。
マルチタスクロボットポリシーにおけるタスクステアビリティの定量化と改善のためのフレームワークであるReSteerを提案する。
- 参考スコア(独自算出の注目度): 14.937285527554316
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite strong multi-task pretraining, existing policies often exhibit poor task steerability. For example, a robot may fail to respond to a new instruction ``put the bowl in the sink" when moving towards the oven, executing ``close the oven", even though it can complete both tasks when executed separately. We propose ReSteer, a framework to quantify and improve task steerability in multitask robot policies. We conduct an exhaustive evaluation of state-of-the-art policies, revealing a common lack of steerability. We find that steerability is associated with limited overlap among training task trajectory distributions, and introduce a proxy metric to measure this overlap from policy behavior. Building on this insight, ReSteer improves steerability via three components: (i) a steerability estimator that identifies low-steerability states without full-rollout evaluation, (ii) a steerable data generator that synthesizes motion segments from these states, and (iii) a self-refinement pipeline that improves policy steerability using the generated data. In simulation on LIBERO, ReSteer improves steerability by 11\% over 18k rollouts. In real-world experiments, we show that improved steerability is critical for interactive use, enabling users to instruct robots to perform any task at any time. We hope this work motivates further study on quantifying steerability and data collection strategies for large robot policies.
- Abstract(参考訳): マルチタスクの事前訓練が強かったにもかかわらず、既存のポリシーはしばしばタスクの操縦性が劣っている。
例えば、ロボットは、別々の実行時に両方のタスクを完了できるにもかかわらず、オーブンに向かって移動する際に、新しい命令 ``put the bowl in the sink" に反応しないかもしれない。
マルチタスクロボットポリシーにおけるタスクステアビリティの定量化と改善のためのフレームワークであるReSteerを提案する。
我々は、最先端の政策を徹底的に評価し、ステアビリティの共通の欠如を明らかにする。
学習課題の軌跡分布の重なりが限定的であることから,この重なり合いを政策行動から測定するプロキシ指標を導入する。
この洞察に基づいて、ReSteerは3つのコンポーネントを通してステアビリティを改善します。
一 フルロールアウト評価をせずに、低ステアビリティ状態を特定するステアビリティ推定器
二 これらの状態から運動セグメントを合成する操舵可能なデータ生成装置
三 生成されたデータを用いて政策ステアビリティを向上させる自己補充パイプライン。
LIBEROのシミュレーションでは、ReSteerは18k以上のロールアウトで11倍のステアビリティ向上を実現している。
実世界の実験では、対話的な使用にはステアビリティの改善が不可欠であることが示され、ユーザーはいつでもロボットにタスクを実行するように指示することができる。
この研究が、大規模なロボットポリシーのためのステアビリティとデータ収集戦略の定量化に関するさらなる研究の動機になることを願っている。
関連論文リスト
- RoboClaw: An Agentic Framework for Scalable Long-Horizon Robotic Tasks [28.827331437876452]
データ収集、ポリシー学習、タスク実行を単一のVLM駆動コントローラで統合するエージェントロボットフレームワークであるRoboClawを提案する。
ポリシーレベルでは、RoboClaw氏はEntangled Action Pairs(EAP)を紹介している。
デプロイ中、同じエージェントが高レベルの推論を行い、学習されたポリシープリミティブを動的にオーケストレーションして長期のタスクを遂行する。
論文 参考訳(メタデータ) (2026-03-12T05:22:59Z) - See, Plan, Rewind: Progress-Aware Vision-Language-Action Models for Robust Robotic Manipulation [59.07792608884117]
本稿では,See, Plan, Rewind (SPR)について紹介する。
SPRは、現在の状態と今後のマイルストーンを見て、次の2Dウェイポイントに向けて軌道を計画し、障害時に回復可能な状態に戻すという、継続的なコアサイクルを通じて運用される。
SPRは、OpenVLA-OFTとUniVLAを上回る最小のパフォーマンス低下で最先端のロバスト性を達成する。
論文 参考訳(メタデータ) (2026-03-10T07:22:51Z) - Flow Policy Gradients for Robot Control [67.61978635211048]
フローマッチングポリシ勾配は、より表現力のあるポリシのトレーニングと微調整に有効である。
我々は、スクラッチからトレーニングを行う際に、フロー表現をどのように活用するかを示し、ベースラインよりもきめ細やかな堅牢性を改善する。
論文 参考訳(メタデータ) (2026-02-02T18:56:49Z) - RaC: Robot Learning for Long-Horizon Tasks by Scaling Recovery and Correction [23.89121398540929]
本稿では,擬似学習事前学習後のループ内ロールアウトトレーニングの新たな段階であるRaCを紹介する。
RaCでは、リカバリと修正行動を示す人間の介入軌道に関するロボットポリシーを微調整する。
我々は、RaCが10$times$少ないデータ収集時間とサンプルを使用して、従来の最先端技術よりも優れていることを示す。
論文 参考訳(メタデータ) (2025-09-09T17:41:29Z) - Solving Robotics Tasks with Prior Demonstration via Exploration-Efficient Deep Reinforcement Learning [0.688204255655161]
本稿では,実演を取り入れたロボットタスクの学習を目的とした,探索効率の高い深層強化学習と参照ポリシ(DRLR)フレームワークを提案する。
DRLRフレームワークはImitation Bootstrapped Reinforcement Learning (IBRL)と呼ばれるアルゴリズムに基づいて開発されている。
論文 参考訳(メタデータ) (2025-09-04T10:02:32Z) - Action Flow Matching for Continual Robot Learning [54.10050120844738]
ロボット工学における継続的な学習は、変化する環境やタスクに常に適応できるシステムを求める。
本稿では,オンラインロボット力学モデルアライメントのためのフローマッチングを利用した生成フレームワークを提案する。
ロボットは,不整合モデルで探索するのではなく,行動自体を変換することで,より効率的に情報収集を行う。
論文 参考訳(メタデータ) (2025-04-25T16:26:15Z) - Robotic Control via Embodied Chain-of-Thought Reasoning [86.6680905262442]
学習したロボット制御ポリシーの鍵となる制限は、トレーニングデータの外部で一般化できないことである。
視覚言語行動モデル(VLA)に関する最近の研究は、大規模なインターネット事前学習型視覚言語モデルを使用することで、その堅牢性と一般化能力を大幅に向上させることができることを示した。
ロボットの動作を予測する前に、VLAに対して、計画、サブタスク、動作、視覚的接地機能について複数の推論を行うために、VLAに対してEmbodied Chain-of-Thought Reasoning (ECoT)を導入する。
論文 参考訳(メタデータ) (2024-07-11T17:31:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。