論文の概要: When would Vision-Proprioception Policies Fail in Robotic Manipulation?
- arxiv url: http://arxiv.org/abs/2602.12032v1
- Date: Thu, 12 Feb 2026 15:00:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:41.400969
- Title: When would Vision-Proprioception Policies Fail in Robotic Manipulation?
- Title(参考訳): ロボットマニピュレーションにおいて視覚受容はいつ機能しないのか?
- Authors: Jingxian Lu, Wenke Xia, Yuxuan Wu, Zhiwu Lu, Di Hu,
- Abstract要約: 原始受容情報は、リアルタイムなロボット状態を提供することによって正確なサーボ制御に不可欠である。
近年の研究では、視覚保護政策の一般化に関する矛盾した観察が報告されている。
本稿では, 位相依存性の最適化を適応的に調節するGAPアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 24.653339846980376
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Proprioceptive information is critical for precise servo control by providing real-time robotic states. Its collaboration with vision is highly expected to enhance performances of the manipulation policy in complex tasks. However, recent studies have reported inconsistent observations on the generalization of vision-proprioception policies. In this work, we investigate this by conducting temporally controlled experiments. We found that during task sub-phases that robot's motion transitions, which require target localization, the vision modality of the vision-proprioception policy plays a limited role. Further analysis reveals that the policy naturally gravitates toward concise proprioceptive signals that offer faster loss reduction when training, thereby dominating the optimization and suppressing the learning of the visual modality during motion-transition phases. To alleviate this, we propose the Gradient Adjustment with Phase-guidance (GAP) algorithm that adaptively modulates the optimization of proprioception, enabling dynamic collaboration within the vision-proprioception policy. Specifically, we leverage proprioception to capture robotic states and estimate the probability of each timestep in the trajectory belonging to motion-transition phases. During policy learning, we apply fine-grained adjustment that reduces the magnitude of proprioception's gradient based on estimated probabilities, leading to robust and generalizable vision-proprioception policies. The comprehensive experiments demonstrate GAP is applicable in both simulated and real-world environments, across one-arm and dual-arm setups, and compatible with both conventional and Vision-Language-Action models. We believe this work can offer valuable insights into the development of vision-proprioception policies in robotic manipulation.
- Abstract(参考訳): 原始受容情報は、リアルタイムなロボット状態を提供することによって正確なサーボ制御に不可欠である。
ビジョンとのコラボレーションは、複雑なタスクにおける操作ポリシーの性能を高めることが期待されている。
しかし、近年の研究では、視覚保護政策の一般化に関する矛盾した観察が報告されている。
本研究では,時間的に制御された実験によってこれを検証する。
タスクのサブフェーズにおいて、目標位置決めを必要とするロボットの動き遷移は、視覚保護政策の視覚的モダリティが限られた役割を担っていることがわかった。
さらなる分析により、このポリシーは訓練時に損失の減少を早める簡潔な受容信号に自然に適応し、それによって最適化が支配され、移動遷移段階における視覚的モダリティの学習が抑制されることが明らかとなった。
そこで本研究では,プロピオセプションの最適化を適応的に調整し,視覚-プロピオセプションポリシー内での動的協調を可能にするGAP(Gradient Adjustment with Phase-Guidance)アルゴリズムを提案する。
具体的には, 運動遷移段階に属する軌道中の各時間ステップの確率を, ロボット状態の捉え方と推定する。
政策学習中に、推定確率に基づいて、プロプレプセプションの勾配の程度を小さくする微粒な調整を適用し、堅牢で一般化可能な視覚-プロプレプセプションポリシーを導出する。
包括的な実験は、GAPがシミュレーションと実世界の環境の両方に適用可能であることを実証している。
この研究は、ロボット操作における視覚保護政策の発展に関する貴重な洞察を与えることができると信じている。
関連論文リスト
- Admittance-Based Motion Planning with Vision-Guided Initialization for Robotic Manipulators in Self-Driving Laboratories [0.4899818550820576]
本稿では,適応的かつ適合的なロボット操作を実現するために,アプタンス制御を中心としたモーションプランニングフレームワークを提案する。
従来のスキームとは異なり、提案手法はアクセタンスコントローラを直接トラジェクトリ実行に統合する。
この能力により、人間の操作者はロボットの動きをリアルタイムでオーバーライドまたはリダイレクトすることができる。
論文 参考訳(メタデータ) (2026-01-29T13:29:56Z) - ReViP: Reducing False Completion in Vision-Language-Action Models with Vision-Proprioception Rebalance [50.05984919728878]
本稿では、視覚的接地と摂動下での堅牢性を高めるために、視覚-受容器リバランスを備えた新しいVLAフレームワークReViPを提案する。
具体的には、タスクステージオブザーバとして外部VLMを使用して、視覚的な観察からリアルタイムなタスク中心の視覚的手がかりを抽出する。
本稿では,オブジェクトドロップのような制御された設定を持つLIBERO上に構築された最初のFalse-Completion Benchmark Suiteを提案する。
論文 参考訳(メタデータ) (2026-01-23T11:31:07Z) - PosA-VLA: Enhancing Action Generation via Pose-Conditioned Anchor Attention [92.85371254435074]
PosA-VLAフレームワークは、ポーズ条件付き監視を通じて視覚的注意を保ち、タスク関連領域に対するモデルの認識を一貫して導く。
本手法は,多様なロボット操作ベンチマークにおいて,正確かつ時間効率のよい動作を実施できることを示す。
論文 参考訳(メタデータ) (2025-12-03T12:14:29Z) - Opening the Sim-to-Real Door for Humanoid Pixel-to-Action Policy Transfer [59.02729900344616]
GPUを加速したフォトリアリスティックなシミュレーションは、ロボット学習のためのスケーラブルなデータ生成パスを開いた。
視覚に基づくヒューマノイドロコ操作のための教師-学生-ブートストラップ学習フレームワークを開発した。
これは、純粋なRGB知覚を用いた多様な調音ロコ操作が可能な初めてのヒューマノイド・シム・トゥ・リアル政策である。
論文 参考訳(メタデータ) (2025-11-30T20:07:13Z) - Exploring Conditions for Diffusion models in Robotic Control [70.27711404291573]
我々は,ロボット制御のためのタスク適応型視覚表現を得るために,事前学習したテキスト・画像拡散モデルを活用することを検討する。
テキスト条件をナビゲート的に適用すると、制御タスクにおいて最小あるいは負の利得が得られることがわかった。
本稿では,制御環境に適応する学習可能なタスクプロンプトと,細粒度でフレーム固有の細部をキャプチャする視覚プロンプトを提案する。
論文 参考訳(メタデータ) (2025-10-17T10:24:14Z) - Contrastive Learning for Enhancing Robust Scene Transfer in Vision-based
Agile Flight [21.728935597793473]
本研究では、ゼロショットシーン転送と実世界展開を可能にする視覚表現学習のための適応型マルチペアコントラスト学習戦略を提案する。
私たちは、アジャイルでビジョンベースの4倍体飛行のタスクに対して、私たちのアプローチのパフォーマンスを実演します。
論文 参考訳(メタデータ) (2023-09-18T15:25:59Z) - Learning Deep Sensorimotor Policies for Vision-based Autonomous Drone
Racing [52.50284630866713]
既存のシステムは、状態推定、計画、制御のために手作業によるコンポーネントを必要とすることが多い。
本稿では、深層感触者ポリシーを学習することで、視覚に基づく自律ドローンレース問題に取り組む。
論文 参考訳(メタデータ) (2022-10-26T19:03:17Z) - Distilling Motion Planner Augmented Policies into Visual Control
Policies for Robot Manipulation [26.47544415550067]
我々は,国家ベースのモーションプランナ拡張ポリシーを視覚制御ポリシーに蒸留することを提案する。
閉塞環境における3つの操作課題について評価を行った。
我々のフレームワークはサンプリング効率が高く、最先端のアルゴリズムよりも優れています。
論文 参考訳(メタデータ) (2021-11-11T18:52:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。