論文の概要: Do You Need Proprioceptive States in Visuomotor Policies?
- arxiv url: http://arxiv.org/abs/2509.18644v2
- Date: Wed, 24 Sep 2025 07:38:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-25 14:09:11.251669
- Title: Do You Need Proprioceptive States in Visuomotor Policies?
- Title(参考訳): バイスモーター政策における受動的状態は必要か?
- Authors: Juntu Zhao, Wenbo Lu, Di Zhang, Yufeng Liu, Yushen Liang, Tianluo Zhang, Yifeng Cao, Junyuan Xie, Yingdong Hu, Shengjie Wang, Junliang Guo, Dequan Wang, Yang Gao,
- Abstract要約: 模倣学習に基づくビジュモータポリシーはロボット操作に広く用いられている。
本研究では,視覚的観察にのみ条件付き動作を予測し,自己受容的状態入力を除去する「状態自由政策」を提案する。
実証的な結果から、国家自由政策は国家基本政策よりもはるかに強力な空間一般化を実現することが示された。
- 参考スコア(独自算出の注目度): 33.91959050531517
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Imitation-learning-based visuomotor policies have been widely used in robot manipulation, where both visual observations and proprioceptive states are typically adopted together for precise control. However, in this study, we find that this common practice makes the policy overly reliant on the proprioceptive state input, which causes overfitting to the training trajectories and results in poor spatial generalization. On the contrary, we propose the State-free Policy, removing the proprioceptive state input and predicting actions only conditioned on visual observations. The State-free Policy is built in the relative end-effector action space, and should ensure the full task-relevant visual observations, here provided by dual wide-angle wrist cameras. Empirical results demonstrate that the State-free policy achieves significantly stronger spatial generalization than the state-based policy: in real-world tasks such as pick-and-place, challenging shirt-folding, and complex whole-body manipulation, spanning multiple robot embodiments, the average success rate improves from 0% to 85% in height generalization and from 6% to 64% in horizontal generalization. Furthermore, they also show advantages in data efficiency and cross-embodiment adaptation, enhancing their practicality for real-world deployment. Discover more by visiting: https://statefreepolicy.github.io.
- Abstract(参考訳): 模倣学習に基づく視覚運動(visuomotor)のポリシーは、視覚的観察と受容状態の両方を正確に制御するために併用するロボット操作において広く用いられている。
しかし,本研究では,この慣行が,学習軌跡に過度に適合し,空間的一般化が不十分な状態入力に過度に依存させることが判明した。
それとは対照的に、我々は、受容的状態入力を除去し、視覚的観察にのみ条件づけられた行動を予測する、ステートフリー政策を提案する。
State-free Policyは、相対的なエンドエフェクターアクション空間に構築されており、この2台の広角手首カメラによって提供されるタスク関連の視覚的観察を確実にする。
その結果、国家自由政策は、国家基本政策よりもはるかに強力な空間一般化を実現していることが明らかとなった: ピック・アンド・プレイス、挑戦的なシャツフォールディング、複雑な全身操作のような現実世界のタスクでは、複数のロボットを対象とし、平均成功率は、高さ一般化では0%から85%、水平一般化では6%から64%に改善される。
さらに、データ効率とクロス・エボディメント・アダプティブの利点も示しており、実世界の展開における実用性を高めている。
詳しくは、https://statefreepolicy.github.ioを参照のこと。
関連論文リスト
- Success in Humanoid Reinforcement Learning under Partial Observation [4.473337652382325]
本研究は,ヒューマノイド移動環境における部分観測可能性下での学習の初成功例を示す。
学習されたポリシのパフォーマンスは、完全な状態アクセスを備えた最先端の結果に匹敵する。
この成功の鍵は、過去の観測の固定長シーケンスを並列に処理する新しいヒストリーエンコーダである。
論文 参考訳(メタデータ) (2025-07-25T01:51:12Z) - Beyond Sight: Finetuning Generalist Robot Policies with Heterogeneous Sensors via Language Grounding [85.63710017456792]
FuSeは、不均一なセンサのモダリティに対する微調整型ビズモータ一般政策を可能にする新しいアプローチである。
FuSeは視覚,触覚,音などのモーダル性に対して共同で推論を必要とする挑戦的なタスクを実行できることを示す。
実世界での実験では、FuSeisはすべての基準ラインと比較して成功率を20%以上引き上げることができた。
論文 参考訳(メタデータ) (2025-01-08T18:57:33Z) - Problem Space Transformations for Out-of-Distribution Generalisation in Behavioural Cloning [17.91476826271504]
行動クローニングとニューラルネットワークは、ロボット操作に大きな進歩をもたらした。
残る課題の1つは、アウト・オブ・ディストリビューション(OOD)の一般化である。
操作の特性から生じる変換が,その改善にどのように利用されるかを示す。
論文 参考訳(メタデータ) (2024-11-06T17:05:58Z) - Learning telic-controllable state representations [3.4530027457862]
有界エージェントにおける状態表現学習のための計算フレームワークを提案する。
本稿では, テリック状態表現の粒度と, 全てのテリック状態に到達するために必要な政策複雑性とのトレードオフを特徴付ける, テリック制御可能性の概念を紹介する。
当社のフレームワークでは,目標の柔軟性と認知的複雑性のバランスをとる状態表現の学習において,意図的な無知(無視すべきことを知る)の役割を強調しています。
論文 参考訳(メタデータ) (2024-06-20T16:38:25Z) - Learning Interpretable Policies in Hindsight-Observable POMDPs through
Partially Supervised Reinforcement Learning [57.67629402360924]
本稿では,PSRL(Partially Supervised Reinforcement Learning)フレームワークを紹介する。
PSRLの中心は、教師なし学習と教師なし学習の融合である。
PSRLは、保存中のモデル解釈可能性を高め、従来の手法で設定された性能ベンチマークよりも大幅に向上することを示す。
論文 参考訳(メタデータ) (2024-02-14T16:23:23Z) - Efficient Training of Generalizable Visuomotor Policies via Control-Aware Augmentation [45.62430292728745]
既存のデータ拡張手法は、画像内のタスク関連情報を妨害し、性能を低下させる可能性がある。
本稿では,既存の手法を改良した汎用型ビズモータポリシーのための効率的なトレーニングフレームワークを提案する。
我々は,DMControl Generalization Benchmark,強化されたロボットマニピュレーション・ディトラクション・ベンチマーク,長期ドローダ・オープンタスクの3つの領域で実験を行った。
論文 参考訳(メタデータ) (2024-01-17T15:05:00Z) - Off-Policy Evaluation for Large Action Spaces via Policy Convolution [60.6953713877886]
ポリシ・コンボリューション(Policy Convolution)のファミリーは、アクション内の潜在構造を使用して、ログとターゲットポリシを戦略的に畳み込みます。
合成およびベンチマークデータセットの実験では、PCを使用する場合の平均二乗誤差(MSE)が顕著に改善されている。
論文 参考訳(メタデータ) (2023-10-24T01:00:01Z) - On the Generalization of Representations in Reinforcement Learning [32.303656009679045]
特定の状態表現から生じる一般化誤差に関する情報的境界を提供する。
我々の境界は任意の状態表現に適用され、よく一般化する表現とよく近似する表現の間の自然な緊張を定量化する。
論文 参考訳(メタデータ) (2022-03-01T15:22:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。